还剩1页未读,继续阅读
文本内容:
第章语音识别思考题答案
7、语音识别的目的是什么?语音识别系统可以怎样进行分类?当前,语音识别的1主流方法是什么?语音识别主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图一般语音识别系统按不同的角度有下面几种分类方法()孤立词、连接词、1连续语音识别系统以及语音理解和会话系统;()大词汇、中词汇量和小词汇量2语音识别系统;()特定人和非特定人语音识别系统3语音识别方法一般有模板匹配法、随机模型法和概率语法分析法三种、为什么影响语音识别技术实用化的困难是不可低估的?实用语音识别研究中存2在哪些主要问题和困难?从语音识别的角度看,语音信号是随机的、多变的,其语法规则既复杂又不完全确定,这给获取完备的规则以及执行高效的算法都带来了极大的难度实用语音识别研究中仍存在如下问题和困难()语音识别的一种重要应用1是自然语言的识别和理解;()语音信息的变化很大;()语音的模糊性()234单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母有不同的语音特性()环境的噪声和干扰对语音识别有严重影响
5、一个实用语音识别系统应由哪几个部分组成?语音识别中常用的语音特征参数3有哪些?什么是动态语音特征参数?怎样提取动态语音特征参数?语音识别模块是语音识别系统的核心部分,其除了包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法,还包括增添新词的功能、数据库管理和友好的人机交互界面等识别参数可以选择下面的某一种或几种的组合平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、偏自相关系数、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数此外,倒谱参数也是常用的语音识Mel别特征参数上述参数的时间变化反映了语音特征的动态特性就是动态语音特征参数提取的语音特征参数有时还要进行进一步的变换处理,如正交变换、主元素分析、最大可分性变换等,以达到进一步的压缩处理和模式可分性变换,节省模式存储容量和识别运算量,提高识别性能的目的、给定一个输出符号序列,怎样计算对于该符号序列的输出似然概率?4HMM对于任一待识别的语音,首先将其进行预处理和特征提取,得到对应的特征矢量序列(如果选用的是离散型则需要进行矢量量化)然后利用的基HMM,HMM本算法一前向-后向算法计算该特征矢量序列在训练好的每个孤立字(词)上HMM的输出概率、什么是孤立字(词)语音识别?孤立字(词)语音识别有哪些有效方法?简要5说明它们的工作原理孤立字(词)识别系统,顾名思义是识别孤立发音的字或词常用识别方法包括()采用判别函数或准则的方法最典型的是贝叶斯准1则,它是一种概率统计的方法()采用动态时间规整的方法字音的起始点相2应于路径的起始点最优路径起点至终点的距离即为待识别语音与模板语音之间的距离,与待识语音距离最小的模板对应的字音即判为识别结果这种方法运算量较大,但技术上较简单,识别正确率也较高在各点的匹配中对于短时谱或倒谱参数识别系统,失真测度可以用欧氏距离;对于采用参数的识别系统,失真测度LPC可以用对数似然比距离决策方法一般用最近邻准则()采用矢量量化技术的3方法矢量量化技术在语音识别的应用方面,尤其是在孤立字(词)语音识别系统中得到了很好的应用特别是有限状态矢量量化技术,对于语音识别更为有效决策方法一般用最小平均失真准则()采用技术的方法的各状态输4HMM HMM出概率密度函数既可以用离散概率分布函数表示;也可以用连续概率密度函数表示一般连续隐马尔可夫模型要比离散隐马尔可夫模型计算量大,但识别正确率要高()采用人工神经网络技术的方法()采用混合技术的方法为了弥补单一方56法的局限性,可以采用把几种方法组合起来的办法如用矢量量化作为第一级识别作为预处理,从而得到若干候选的识别结果,然后再用或方法做最后DTW HMM的识别因此,混合技术包括和等识别方法VQ/DTW VQ/HMM、为什么在语音识别时需要做时间规整6因为语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理必不可少、为什么概率尺度的方法可以适用于非特定人的语音识别?在概率尺度的7DP中,条件概率和状态转移概率分别应怎样求得DP概率尺度方法,实际上相当于把语音样本的每一帧看作一个模型状态的连DP续状态因为如果参考样本是丫=九力,…,匕,则其特征矢量的时间序列是HMM一个马尔可夫过程,如果把每一个特征矢量看作马尔可夫过程的一个状态,同时把输入信号看作观察时间序列并应用算法,则方法和概X=X1,X2,…,X/Viterbi HMM率尺度方法具有同一关系式由于连续状态能较好地描述语音特征矢量DP HMM的帧间相关信息,改善的动态特性,可望得到较好的识别性能HMM条件概率()()卜-%)}p X,|/=2ir M|£J exp状态转移概率()))()()()(p;=ps o/ps;+ps j+ps ypsi1123())())PPSZGA PS2j/|PS2+PS2j+PS3O I()()))Pps3j=PS»/{PS.O+PS o+PS O|
323、连续语音识别比孤立语音识别应该多考虑些什么问题?有哪些难题?应该如何8去加以解决?为什么连续语音识别一般要利用语言文法信息?连续语音识别需处理语音连贯性、背景噪声、上下文理解,以及复杂的语法和语义结构,同时确保实时处理的准确性难题()语音处理和语言处理相互之间不施加约束,必然增加许多不必要1的中间结果,从而既增加计算量又增加误识别的可能;()两个非紧密结合的模2块之间传递信息时,一般要产生信息丢失,因而影响识别精度因此,比较好的方法应该是把句法分析的语言处理过程结合进语音识别过程中,实现帧同步的语音一语言处理的统合语言文法信息在连续语音识别中被用来提高识别准确率,减少搜索空间,并帮助纠正错误,从而增强系统的整体性能、为什么语音识别系统的性能评价研究很重要?应怎样评测一个语音识别系9统的性能好坏?语音识别系统的性能评价研究对于改进和完善现有系统设计,提高系统性能,优势互补,减少研究工作的重复性和盲目性,适时地引导语音识别研究向着期望的目标发展,都有着重要意义系统识别性能的评价测度主要有系统识别率、信息损失度、使系统的识别率和人的听取率相当而应附加给系统的噪声级别大小等。