语音识别技术
语音识别的工作原理是:语音信号经过话筒传送到一个模拟/数字转换器中,将音频信号转换成数字信号,然后将数字信号进行一系列加工并与预先放在存储器中的语音信号模式进行比较,从而达到识别输入语音的目的。语音大体上含有两种信息;即具有一定含义的信息和体现发音者个人特
征的信息。对前者的识别处理称为“狭义语音识别”,而对后者的识别处理称为“发音者辨认”。
不同的发音者在发同一语音时,可以产生有明显差别的声波图,声波里的周期以及频率能量分布方面都不相同,这种差别便体现了个人的特征。目前用电子设备辨认发音者的简便方法是:检出语音基频随时间变化的图形作为辨认的依据。这种“发音者辨认”的应用前景是相当广泛的,比如用存储某人的语音代替签字(称之为“声纹”),进而利用电话等实现远距离的身份确认将成为可能。
在“狭义的语音识别”中,有单字或词识别和音素识别两种识别方式。单字或词识别是在识别装置中存放以单字或词为单位的数字模式,通过直接比较选出与输出语音最接近的模式。
音素识别是在识别装置中存放以构成单词的音素为单位的数字模式,识别系统将语声信号分解为各音素,然后接音素模式进行变换,再进行单词的识别。大多数语音识别都是依靠语音之间的停顿来判断字或词的边界,单词之间的连续将给识别带来一定的困难,这方面语音结构简单(发音以字的单位,每个字都是单音节)的汉语很有优势,可望在语音识别技术取得突破性的进展。我国已研究成功语音式汉字输人系统,为在自动化系统和智能装置中的计算机创造了良好的工作条件。
识别系统所能接受的词汇量决定于系统的存储容量。增加词汇量,系统的存储内容将大幅度的扩充,分析处理时间也要大在延长。增加词汇量有助于提高识别正确率。一般来说,识别正确率越高,构造一个系统的代价也越大,片面追求很高的正确识别率也不是很合适的。
为使识别系统不限于特定的说话人,预先将识别系统接收不同的人发出的同一语音,然后记下具有其平均特征的数字模式,这样在更换说话人的情况下也能进行正确的识别。
在较高级的识别系统中,高水平的分析器还要考虑到相继语音之间的关系,如语音的语法、词法,具有一定的“联想”功能,即根据上下文选择合适的单词,以及克服语音识别环境中的噪声影响等,从而缩短识别分析过程和提高识别正确率。
语音识别技术已在声音打字机、口语自动翻译的智能信息检索等等方面得到应用。用语音对设备、机械等发出命令和信息,已不再是人们昔日的梦想了。
