还剩10页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《语音识别基础》PPT课件这份课件是为了从基础开始介绍语音识别技术以及如何应用它来解决实际问题而打造的语音识别简介定义1语音识别是将人类语音的声学信息转换为语音文本的过程,目的是将语音信号转换为计算机可处理的形式应用2语音识别广泛应用于安全、通讯、游戏、智能家居等多个领域,与我们的日常生活息息相关语音信号的基本组成声音波形频谱由气压变化产生,包含频率和振幅信息对声音波形在频域上的表示,频谱中高频率对应声音的高音声谱图音素是时间、频率、能量三维信息的表达方式,展语音信号最小的有意义单位,不同语言的音素示了声音波形的详细信息个数和属性不同声波传输原理声音的产生声音的传输声音的接收声音波形是由声源产生,声波通过介质在空气中迅声波被传感器、麦克风或在固体、液体和气体中都速传播,但如果在太空中,电话接收器转换为模拟电可以传播则声音无法传播流并通过电路传输到信号处理器中语音识别的基本流程语音信号的预处理1对语音信号进行分段、预加重、分帧和加窗等处理,为下一步的特征语音信号的特征提取2提取做准备提取语音信号中的关键特征,如短时能量、倒谱系数、线性预测系数模型的训练等3使用标注的语音样本对模型进行训练,不断优化模型参数提高识别准语音识别的解码4确率通过预测语音信号的概率,选取最可能对应的文本输出结果语音信号的特征提取短时能量短时平均过零率用于描述语音信号短时段内能量的大小用于衡量信号波形的变化率,将信号分为有端点和无端点两种情况线性预测编码梅尔频率倒谱系数通过线性组合得到一组预测系数,从而将原始基于人耳特性,将频谱映射到更适合人耳听觉信号转换成较低维度的线性预测系数向量特性的梅尔尺度在语音识别中的应用DFT是什么?语音信号频谱分析DFT(离散傅里叶变换)是傅里叶变换在可以将语音信号从时间域转换到频率DFT DFT有限的时间间隔内的离散化域,用于提取语音信号的频谱特征频域滤波谱包络提取通过对语音信号在频域上加以滤波,来去谱包络提取是一种基础上的语音信号DFT除噪声或突发的信号干扰,提高识别率特征提取方法,可用于特征降维声学模型的构建高斯混合模型1声学模型常用高斯混合模型()来建模语音信号的音素GMM介绍HMM2隐马尔科夫模型()用于描HMM述不同状态之间的转移概率和输出概率,用于模拟连续音素之间的转前向算法和后向算法3移关系前向算法用于计算当前时刻下观察到某个状态的概率,而后向算法则算法和用于计算某个状态在之后观察到观Viterbi Baum-4算法察样本的条件下的概率Welch算法用于查找概率最大的状Viterbi态路径,而算法则Baum-Welch用于从未标注的样本中学习模型参数语音识别中的噪声处理形态学滤波谱减法主要用于去除形态与语音相似的噪声通过计算语音信号和背景噪声的差值,从频域上减去背景噪声的幅度,保留语音信号的幅度信息小波变换方法其可以发现信号中的短时临时性和长时趋势信息,从而去噪效果较好语音识别的性能评价准确率召回率值F通过比较识别准确的语音反映正确识别的样本数与综合考虑准确率和召回率,个数与总的样本个数计算标准样本库中对应样本数通过对准确率和召回率加得出的比值权平衡计算得出语音识别技术的应用智能家居无人驾驶通过语音识别技术,用户可以通过语音来控制语音识别技术在无人驾驶中得到了广泛应用,家居设备的开关、温度等可以提供车内娱乐、导航、安全等服务客服中心医疗保健借助语音识别技术,在客服中心中可以通过自语音识别技术可以应用于医疗保健中,为医生动语音应答等方式实现自动客服服务提供辅助诊断、快速记录病历等帮助当前语音识别技术的发展趋势大数据技术的应用深度学习技术的发展随着大数据技术的发展,越来越多的语音深度学习技术作为目前人工智能领域的前数据得到了收集和处理,为语音识别技术沿技术,被广泛应用于语音识别领域它的精度提供了支持可以处理更复杂的特征,提高语音识别技术的准确率面向序列的语音识别技术跨语言语音识别当前的语音识别技术大多基于单个语音样随着语音识别技术在日常生活中的广泛应本的短时间片段特征面向序列的语音识用,跨语言语音识别将成为未来的重要研别技术能够利用多个样本之间的关系,更究方向准确地预测识别结果。