基于Matlab的说话人识别的设计与开发.docx

上传人:lao****ou 文档编号:137869 上传时间:2023-04-11 格式:DOCX 页数:44 大小:1.34MB
下载 相关 举报
基于Matlab的说话人识别的设计与开发.docx_第1页
第1页 / 共44页
基于Matlab的说话人识别的设计与开发.docx_第2页
第2页 / 共44页
基于Matlab的说话人识别的设计与开发.docx_第3页
第3页 / 共44页
基于Matlab的说话人识别的设计与开发.docx_第4页
第4页 / 共44页
基于Matlab的说话人识别的设计与开发.docx_第5页
第5页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于Matlab的说话人识别的设计与开发.docx》由会员分享,可在线阅读,更多相关《基于Matlab的说话人识别的设计与开发.docx(44页珍藏版)》请在第一文库网上搜索。

1、摘要IAbstractII第一章引言11.1 研究背景及意义11.2 优势及应用前景11.3 国内外研究现状1第二章说话人识别的基本原理32.1 说话人识别基本知识32.1.1 语音的发声机理32.1.2 清音和浊音32.1.3 语音信号模型32.1.4 语音识别基本过程42.2 预处理模块42.2.1 采样42.2.2 量化52.2.3 预加重52.2.4 力口窗52.3 特征提取模块62.3.1 短时平均能量分析62.3.2 短时平均幅度分析72.3.3 短时过零率分析82.3.4 短时自相关分析82.3.5 LPC 倒谱系数(LPCC) 92.3.6 Mel频率倒谱系数(MFCC) 92

2、.4 训练和识别模块102.4.1 矢量量化模型(VQ)102.4.2 隐马尔可夫模型(HMM) 112.4.3 人工神经网络模型(ANN) 122.4.4 HMM和ANN的混合模型13第三章基于Mat lab的说话人识别143.1 说话人识别系统平台介绍143.2 语音采集模板(Speech Recording Plane)143.3 预处理模板(Voice Preprocessing Plane)153.4 特征提取模板(Feature Extraction Plane)173.5 训练识别模板(Speech Recognition Plane)18第四章总结与展望254.1 总结254.

3、2 展望25致谢27参考文献28附录29说话是人类相互沟通交流最方便、最快捷的一种方式,世界上每一个说话人都拥有自己特定的语音,正如每个人的指纹一样,都是绝无仅有的。说话人识别应用广泛,现已应用到通信、消费电子产品等各个领域。本文将把语音进行数字化传输、存储、然后进行识别等。说话人识别系统主要包括预处理、特征提取、训练和识别四个模块。其中预处理和特征提取尤为重要。有许多的预处理方法,对语音信号的采样和量化是第一,然后预加重和加窗。特征提取是指提取语音信号的重要特征的过程。信号的时域分析包括信号的短时平均能量和短时过零率等。频域分析可以采用LPC倒谱系数法和Mel倒谱系数法。为了训练得到模版语音

4、信号,可以利用矢量量化(VQ)、隐马尔可夫模型(HMM)、BP神经网络(ANN)等对说话人的语音信号进行训练识别。说话人识别实现过程中的算法是多种多样的。本文将运用MATLAB仿真工具强大的编程、图形开发功能和数学计算能力。本文将把BP神经网络作为训练识别的方法,利用MFCC(MEL频率倒谱系数)产生的语音信号特征向量,最后运用十字交叉法,建立起一个说话人识别系统。结合MATLAB平台中的GUI设计预处理、特征提取、训练等几个模板,最后利用神经网络的模式识别,真正实现说话人的识别。关键词:语音识别 MATLAB模式识别倒谱系数解放东路课时费老师打款回复了AbstractTalking is a

5、 way of human communication, the most convenient and quickcommunication, each of the speakers all over the world have their own specific speech, aseveryones fingerprints, are unique. Speaker recognition is widely used in various fields,have been applied to communications, consumer electronic product

6、s. This paper will makespeech digital transmission, storage, and then identify etc. The speaker recognition systemincludes preprocessing, feature extraction, training and recognition of four modules. Thepreprocessing and feature extraction is very important. There are many preprocessingmethods of sa

7、mpling and quantization, the speech signal is first, and then the pre emphasisand the window. Feature extraction is the process to extract important features of speechsignal. Signal analysis in time domain signal short-time average energy and short-time zerocrossing rate. Frequency domain analysis c

8、an be used LPC cepstrum coefficient and Melcepstrum coefficient method. In order to get the template training speech signal, can usevector quantization (VQ), hidden Markov model (HMM), BP neural network (ANN)training recognition on the speakers voice signal.Speaker recognition in the process of real

9、izing the algorithm is varied. This paper willuse the MATLAB simulation tool powerful programming, graphical function andmathematical computation ability. This paper will use the BP neural network as a methodof training recognition, using MFCC (MEL frequency cepstrum coefficient) speech signalfeatur

10、e vector is generated, finally using cross method, set up a speaker recognition system.Combined with the MATLAB platform GUI design in the preprocessing, feature extraction,training and several other template, finally using pattern recognition, neural network,realizing the speaker recognition.Keywor

11、ds: Speech recognition MATLAB Pattern recognition Cepstralcoefficients第一章引言1.1 研究背景及意义说话人识别技术也被称之为声纹识别技术,它属于一种生物的识别技术。说话人识别技术拥有方便,经济,准确等特点,广受世人瞩目。最早的语言研究被称为“口耳之学二因为当时没有可供研究的仪器,只能通过耳听口模仿来进行研究。最早的语音信号处理研究起源于1876年,电话的发明者贝尔首次使用声电、电声转换技术实现了语音的远距离传输。语音信号经过语音合成,语音编码和语音识别三个发展过程。语音识别的实验追溯到20世纪50年代贝尔实验室的Audry

12、系统,此系统仅仅只能识别10个英文数字。又经过很长时间的研究发展,现在我们已经完全进入语音识别时代。1.2 优势及应用前景生物认证技术有:虹膜识别,掌纹识别,指纹识别和声纹识别(语音识别)。声纹识别有不丢失,没有记忆和使用方便等独特的优点。对于虹膜识别技术,虽然准确性很高,但是实现困难,成本较高,所以不能普遍使用。指纹识别虽然是一种使用比较普遍的识别技术,成本也不算太高,但是用户不易接受,指纹往往和犯罪牵扯在一起。还有一些生物认证技术也因为实现难度过大而不被关注。但是说话人识别技术只需简单的麦克风,一台普通计算机就可以实现。和其他生物识别技术进行对比,说话人识别系统还具有使用方便,低成本,易实

13、现等优点。说话人识别技术应用前景十分广泛,可在各种安全认证身份的领域发挥重要作用。随着数字化时代的急速发展,数字音频数据随处可见,说话人识别技术不仅在语音检索和信息检索中投入使用,而且不少手机已经加入了语音拨号,语音书写短信,语音打开应用程序等等功能。1.3 国内外研究现状20世纪60年代末,世界掀起了一股语音识别的研究热潮。这期间研究出的重要成果包括动态规划(DP)和线性预测编码(LPC)技术等。语音识别技术取得突破性进展是在20世纪70年代的时候。LPC技术得到了进一步发展,特别是其中的VQ和HMM系统理论。直到今天,这两种理论依旧是研究语音识别最有效,最常用的方法。20世纪80年代,语音

14、识别迎来了一股新新力量。人们重新开始了人工神经网络(ANN)研究,并有效地将ANN和HMM在同一语音识别中结合使用,使连续语音识别问题变得更加容易。近年来对于人工神经网络(ANN)的研究不断发展,关于语音信号处理的各项内容研究是促使其迅速发展的重要原因之一。同时,它的许多成就体现在语音信号处理技术。人工神经网络(ANN)以其简单灵活有效的特点,逐渐成为实现语音识别技术的新宠。它将说话人识别技术的探究带入了一个新的高度。第二章说话人识别的基本原理2.1 说话人识别基本知识2.1.1 语音的发声机理空气从肺排入喉咙,然后通过声带进入通道,最后由口辐射声波,从而形成了声音。声带以左负责产生激励;声带

15、以右负责的是:“辐射系统”和“声道系统”。之所以存在不同性质的语音,是因为其激励和辐射不同网。2.1.2 清音和浊音浊音与清音都统称为音素,而音素则是构成语音信号的基本单元。发浊音时,空气流经紧绷的声带,声带产生振动,所以声带会周期性的打开、闭合。如果声带的长度短,厚度薄,张力就很大,听起来的的音调就越高,所以浊音的基音频率就越高。发清音时,空气流经声带,声带是张开的,则由肺排出的空气将不受防碍的经过声门。空气经过声门后会发生两种情况,一种是形成摩擦音,另一种情况则形成爆破音。这两种情况都统称为清音。2.1.3 语音信号模型由语音的发生机理可知,语音的生成包括三个部分:声门负责产生激励,用G(z)表示;声道负责调制,用V(z)表示;嘴唇负责产生辐射,用R(z)表示。语音信号生成模型如下图:图2.1 语音信号生成模型图所以语音生成系统函数可以表示为:其中,激励函数:/(z)= C7(z)v(z)/e(z)(2.1)(2.2)调制函数:汇(2 3)V(z) = T(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服