语音识别技术的发展及应用.docx

资源描述

《语音识别技术的发展及应用.docx》由会员分享，可在线阅读，更多相关《语音识别技术的发展及应用.docx（8页珍藏版）》请在第一文库网上搜索。

1、语音识别技术的发展及应用于晓明石家庄铁道大学电气与电子工程学院导出/参考文献分享创建引文跟踪收减打印摘要：人类生活中，语言是必不可少的信息传达媒介，作为模式识别技术之一的语音识别技术独有其发展的亮点。文章对语音识别的发展历程进行了总结，从语音识别的原理出发，在端点检测、特征提取等方面介绍了语音识别模型的建构。例举了语音识别技术的应用，探讨了语音识别的技术突破和发展前景。关键词：语音识别；语音信号；预处理；特征提取；作者简介I于晓明(1998-),男，河北保定人，木科，主要研究方向：模式识别。；收稿日期：2019-06-17Deve1opmentandapp1icationofspeechrec

2、ognitiontechno1ogyYuXiaomingSchoo1ofE1ectrica1andE1ectronicEngineering,ShijiazhuangRai1wayUniversityAbstract：1anguageisanindispensab1emediumofinformationtransmissioninhuman1ife.Speechrecognitiontechno1ogy,asoneofthepatternrecognitiontechno1ogies,hasitsownbrightspot.Thispapersummarizesthedeve1opmentp

3、rocessofspeechrecognition,andstartingfromtheprincip1eofspeechrecognition,introducestheconstructionofspeechrecognitionmode1intheaspectsofendpointdetectionandfeatureextractionandsoon.Theapp1icationofspeechrecognitiontechno1ogyisdescribed,andthetechno1ogica1breakthroughsanddeve1opmentprospectsofspeechr

4、ecognitionarediscussed.Keyword：speechrecognition;speechsigna1;preprocessing;featureextraction;Received2019-06-17语言最初是人类所特有的交流工具，但随着科技的不断进步，人类如今不只局限于人与人的交流，并开始逐渐向人与机器的交流方向发展，即通过语言的沟通让机器能像人类一样听懂对方所传达的信息。如今的语音识别技术正是此方向突破的关键，信息领域和自动化领域的专业研究人员不断进行这方面的研究，机器自动的语言识别，使机糊能为人类所用增加人们的生产生活效率，推动人类历史的发展进步。语音识别技术是涉

5、及模式识别、人工智能的多领域研究学科，是人类与机器之间联系的关键。1语音识别的发展历程语音识别技术最初的兴起是在20世纪50年代，此时我国的语音识别技术也开始出现，国外当时只是在贝尔实验室里进行关于识别英文数字的简单发音装置的研究，而后带来了小词汇量和单个词语的识别，在进入20世纪70年代，才有了语音识别实质性的进展，出现了逐渐成为主流的隐式马尔科夫模型技术（HMM），并且从传统的目标匹配方式向基于统计的数学化方向有很大的进展。进入20世纪80年代，语音识别技术继续深入发展，人工神经网络进入模式识别的范畴，出现了利用人工神经网络1,2）进行语音识别问题的处理思路，研究不只是在简单词语数字的识别

6、上，有了连续语音的识别和基于大量词语的识别。我国在此时期执行863计划，语音识别技术的研究与国外同步发展，这是语音识别技术的一个过渡阶段。20世纪90年代之后，语音识别技术逐渐进入饱和阶段，基于语音识别的产品开始进入人们的生产生活，随着时代的不断迁移，基于BP神经网络的优点，大量的语音识别都基于此进行识别系统产品的设计。2语音识别构建模型语音识别技术的过程包括语音信号的预处理、特征提取、模式匹配和判决三个方面。首先由系统接收语音输入，经过信号的预处理和特征提取，得到目标信息的语音数据形成语音信息模式库，再进行输入的语音信号和模式库的模式匹配得到两者信息匹配的结果。（如图1）图1语音识别模型下载

7、原图2.1 语音信号的预处理2.1.1 语音信号预加重在如今十分成熟的A/D转换操作之后，最初获取的语音信号中语音信息被多种噪声影响且高频信号部分不明显，因而要事先对于语音信号进行预加垂，预加重的实现结果是提高目标信号和噪声信号的对比度，便于能很好地对于语音信号进行滤波，目前广泛使用的是一阶滤波器来实现预加重。H(z)=1-zT其中，Z是语音信号，H为预加重后的信号，为一阶滤波器的参数。2.1.2 加窗分帧在预加重处理的信号之后，为得到语音信号的分析频谱，要将语音信号分成多个窗口，这样就把一段持续的语音信号分成多段信号，为了保持每段信号连接的平滑性，在断接点处设置交叠的部分，便于不同分帧之间的

8、平滑移动。对于加窗处理，常使用汉明窗，汉明窗的通频特性好，在信号的分区截取中保证了连续性平滑性，减小了分析频谱的泄露。端点检测在整个语音识别过程中是十分关键的，在一段语音信息中有正常的语音信息，有间断信息，有无声信息，端点检测就是保证将三者能很好地区分出来，排除无声信息等掺杂的信号，选取所需要的正常的语音信息。目前端点检测的研究具有多样化且处于发展的黄金时期，有基于语音信号的时域特性的能量大小、平均过零率、能量变化率等，基于频域特性的频谱变化、谱端的测定。下面主要通过语言信息的谱嫡来进行简要的介绍。首先取某点Xi的概率表示为PXi,则在点Xi的嫡定义为：H(X)=-EPiIOgPii=1令语音

9、信号的帧长为N,幅度值为M,则在此区域中各点出现的概率为Xi/N,则此段语音的端定义为：M房-EPi1OgPii=-M通过设置一个边界范围，在此范围之内的数据即为正常的语音信号，若超出这一范围则将其他噪音信号去除掉，通过选择端函数实现了端点检测的操作。2.2 语音信号的特征提取应用模式识别技术，只有将所测试信息的信号特征提取出来，才能供实验的研究分析。语音信号的特征提取历史悠久，其算法的实现已经有多种形式针对特定的倒谱特征，本文将介绍两个经典的1PCC和MFCC回刀参数来进行语音信号的特征提取。通过傅里叶变换谱经对数运算再取傅里叶反变换即可得到信号的倒谱，1PCC既能实现它的预测功能，又能提供

10、进行声道模型参数的提取过程，在1PCC分析过程中首先将语音信号视作全极点形式，在1PC基础上进行运算：GO=Iogi0(G)OCn+X4Xan-k.1pCn-SVkckan-k.npG为操作的增益，C为倒谱的系数，a为1PC得到的系数。MFCC与1PCC有很大的不同，它是基于人耳对于语言的感知功能和正常的语音信号而实现的，首先将原有频率进行MFCC频率的转换：再通过傅里叶变换得到带通滤波器的传递函数，最后基于语音信号的对数频谱经DCT变换得到MFCC参数：(/V-1XX()12Hm()k=07(m+1/2)M-IS)=ES(E)cosm=0S函数为对数频谱总的传递函数，C函数为MFCC参数。2

11、.3模式匹配和判决如今模式匹配的声学模型技术得到许多研究者关注，深度学习在模式匹配的研究8模式匹配方式有了很大的改进，模式匹配包括声学模型和语言模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型，它通过矢量量化的分析将不同发音模板提取出来，常用的就是HMM声学模型，在此基础上划引入了状态段长，对于不同语音段的划分提高了原始基本识别的性能，神经网络的引入也给模式匹配环节带来了性能的进步。语言模型是针对不同语言的语法结构进行上下文分析确定词义，在统计方面的语言模型的建立，将一系列相同的语法规则集中起来就在一定程度上减少了系统的识别时间。识别结果就是将事先测试的语音信息

12、进行预处理和特征提取，与模式库的声学模型进行不同程度的匹配，通过统计识别信号的正确数量得到识别率，基于相同的识别率可以通过识别时间的比较进行算法优良性能的判决。3语音识别应用语音识别技术的应用十分广泛，从孤立词的识别到关键词的识别，最后根据说话人连续的语言的识别，如许多社交软件都实现了从开始的键盘输入到语音识别输入，语音输入技术的突破给人们的生活带来了很大的便利，图2介绍了一部分基于语音识别的应用网络，为未来的语音识别网络提供可视化模型。图2应用网络下载原图语音助手。语音识别作为机器与人交流的媒介，在语音助手方向有很大的可操作性，目前已存在语言的自动识别功能的小型机器人（例天猫精灵、小度），在

13、网络销售中即可购买，事先通过内部下载的程序进行机器人和手机的联合配对，针对使用者的语言进行开关电视、播放音乐、设置闹钟等操作，这是最终全面实现智能家居12的一个发展趋势。智能家居是将语音识别系统嵌入家庭使用设备中，使家用设备系统网络一体化，这种操作能极大的丰富人们的生活；车载语音助手13如今也有了明显的发展，利用语音传输进行音乐播放、导航配置的控制，在一定程度上改善了驾驶人的驾驶环境。身份确认。如今在科技高速发展的时代，人类身份的确认尤为重要，除了在生物体特征识别之外，语音识别也能达到其期望的效果14）。身份的确定基于说话人声道的不同，发出声音频率的不同进行不同的区分，解决了如今身份密码的缺憾

14、，密码作为保护信息的一种途径容易被破解且固定不可迁移，从现在技术高超的译码技术能枚举破解固定的密码，但基于人物语音的不同，发音习惯的差异对于身份的确认十分有益处。在门禁系统中，人物可以事先将自己的语言信息存储在系统模块库中，当涉及具体的人物识别的时候，将采集的语言数据和存储数据进行识别对比得到说话人的身份；语音识别的身份确认在公安系统的案件侦查中也有很大的效用，将语音识别与身份证信息的结合也是出彩的操作，语音输入加上生物体特征识别技术的配合就将得到多重身份保证。4语音识别的技术突破及发展前景语音识别有了历史性的进展，但是仍存在一些技术上的不足。语音识别过程中的噪声处理仍然是一个很难突破的难题，

15、在上例的天猫精灵就有此方面的缺陷，超过一定的距离机器就很难识别使用者的语言，甚至是停止工作不进行识别工作，不仅有距离上的影响，当面临于嘈杂的环境中，系统也很难辨析出讲话人的语言。在身份识别中也存在一定的缺陷，单从声音信息来说，当今处于互联网时代，图像声音的处理软件十分发达，信息有被复制和融合的可能性，这就对于身份的确认很容易造成误差，在此部分未被突破前只有与生物识别技术相结合才能进一步保证识别信息的准确性。4.2发展前景语音识别技术在未来是十分热门的领域，许多企业家将加大对于语音识别的资金投入，首先基于其原理进行适当的展望；其次从应用领域进行可视化的分析，目前全球中有大部分的听觉受限的人员，每

16、人都拥有人工耳蜗是不经济的也是不现实的，但是语音识别技术将有十分优势方面，若配合语音识别系统，将对此问题有很大的帮助，将说话方的语言通过语音识别技术显示给听力受限的人群，作为一个类似于辅助助听器的应用软件，不仅有效而且经济：再次是技术层面，将噪音从获取的语音信息中完全过滤，使机器像人群一样不受限于嘈杂的环境，对于生活中嵌入的应用是很有发展价值的。参考文献1袁翔.基于HMM和DNN的语音识别算法研究与实现D.江西理工大学,2017.2或龙,赵丹.基于BP神经网络的非特定人语音识别算法科学技术与工程,2017.17(31):277-2823刘加.汉语大词汇量连续语音识别系统研究进展J电子学报,2000.1:85-

展开阅读全文