《人工智能基础与应用第7章 语音识别:让机器言听计从课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《人工智能基础与应用第7章 语音识别:让机器言听计从课后习题参考答案.docx(3页珍藏版)》请在第一文库网上搜索。
1、第7章语音识别:让机器言听计从课后习题答案一、考考你1 .语音识别技术主要包括语音信号处理、C、声学模型、语言模型和解码搜索五个关键要素。A.采用频率B.分频技术C.特征提取D.模型训练2 .深度神经网络与基本神经网络的区别是A.输入层节点数不同B.输出层节点数不同C.隐含层个数不同D.激活函数不同3 .卷积神经网络的主要特点是具有A.池化层B.全连接层C.卷积操作D.多层隐含层4.卷积神经网络的池化层的本质是一Do(1)把一段语音进行采集转换成数字信号,然后进行预加重、分帧和滤波处理,分成若干小段;(2)按FBank特征或MFCC特征进行特征提取工作,为声学模型提供合适的特征向量;(3)利用
2、声学模型计算每一个特征向量在声学特征上的得分;(4)利用语言模型计算该声音对应的可能词组序列的概率;(5)根据已有的词典,对词组序列进行解码,得到最有可能的文本表示。2.什么是深度神经网络?什么是卷积神经网络?两种有何异同?深度神经网络:神经网络模型包括多个神经网络层,如卷积层、全连接层、1STM(1ongshorttermmemory)等,每一层又包括很多神经元,通常超过三层的非线性神经网络都可以被称为深度神经网络。卷积神经网络:深度神经网络中,如果输入层向量有n个,假设隐藏层数目与输入层一样,那么输入层到隐藏层的权重参数有n*n个,还不考虑后面其它隐藏层的参数,这样参数就太多了,模型根本无
3、法训练,因此就需要减少参数以加快训练速度,在20世纪60年代,Hube1和Wiese1在研究大脑皮层中用于局部敏感和方向选择的神经元是发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经(Convo1utiona1Neura1Network,CNN),其结构如下所示,即通过卷积层的卷积操作大大减少输入层原始数据的计算量,这就是卷积神经网络的由来。输入层)卷积层激活层池化层f全连接层I三、帮帮我1利用百度智能云创建一个语音识别应用,来识别本地的一个短语音文件。提示:1)使用命令pip3insta11baidu-aip安装AipSpeech模块。2)创建一个AipSpeech
4、的客户端对象C1iento3)调用C1ient的自动语音识别方法asr将本地语音文件发送到服务器,并对返回的数据进行解析从而得到语音识别结果。请访问相关技术指南页面https:/c1oud.baidu.eom/doc/SPEECH/s/Bk4o0bmt3了解详怙,参考代码如下:fromaipimportAipSpeech# 定义常量,你在百度智能云上申请的应用获取appKey和appSecretAPPD=你的AppIDAP1KEY=,你的APIKey1SECRET_KEY廿你的SecretKey# 初始化AipSpeech对象aipSpeech=AiPSPeeCh(APPD,AP1KEY,SE
5、CRET_KEY)# 读取文件defget_fi1e_content(fi1ePath):withopen(fi1ePath,rb,)asfp:returnfp.read()# 识别本地文件# 请求说明:#1.原始语音的录音格式目前只支持评测8k16k采样率16bit位深的单声道语#2.压缩格式支持:pcm(不压缩)、wav、amr#3.系统支持语言种类:中文(zh)、粤语(ct)、英文(en)。resu1t=aipSpeech.asr(geCfi1e-content(audio.pcm,),pcm,16000,(,1an,:zh,)#打印识别结果print(resu1t)2.针对案例2出现的识别错误现象,增加相应的音频文件和标注文本,对自训练模型进行迭代训练,然后上线重新调用,最后观察自制语音识别系统的识别结果是否有明显改善。参考答案:参考教材中案例2的操作步骤。