还剩1页未读,继续阅读
文本内容:
第二章语音信号处理的基础知识思考题答案、人的发音器官有哪些?人耳听觉外周和听觉中枢的功能是什么?1人的发音器官包括肺、气管、喉(包括声带)、咽、鼻和口这些器官共同形成一条形状复杂的管道喉的部分称为声门从声门到嘴唇的呼气通道叫作声道听觉外周包括位于脑及脑干以外的结构,即外耳、中耳、内耳和蜗神经,主要完成声音采集、频率分解以及声能转换等功能;听觉中枢包含位于听神经以上的所有听觉结构,对声音有加工和分析的作用,主要包括感觉声音的音色、音调、音强、判断方位等功能此外,听觉中枢还承担与语言中枢联系和实现听觉反射的功能、人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系2统有什么启示?掩蔽效应分为同时掩蔽和短时掩蔽同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻当声和声不同时出现时也存在掩蔽作A B用,称为短时掩蔽短时掩蔽又分为后向掩蔽和前向掩蔽纯音对窄带噪声的掩蔽量当加宽噪声声宽时最初是掩蔽量增大,但超过某一宽带后就不再增大,这一带宽称为临界带宽当声被声掩蔽时,若声的频率A B A处在以声为中心的临界带的频率范围内时,掩蔽效应最为明显,当声处在BA B声的临界带以外时,仍然会产生掩蔽效应,这种掩蔽效应取决于声和声的频率AB间隔相当于几个临界带,这一间隔越宽,掩蔽效应越弱、根据发音器官和语音产生机理,语音生成系统可分成哪几个部分?各有什么特3点?语音是从肺部呼出的气流通过在喉头至嘴唇的器官的各种作用而发出的作用的方式有三种第一是把从肺部呼出的直气流变为音源,即变为交流的断续流或者乱流;第二是对音源起共振和反共振的作用,使它带有音色;第三是从嘴唇或鼻孔向空间辐射的作用产生语音的能量来源于正常呼吸时肺部呼出的稳定气流讲话时声带不断地张开与闭合,使声门向上送出一连串喷流而形成一系列脉冲声带每开启和闭合一次的时间,即声带的振动周期就是音调周期或基音周期从声门到嘴唇的呼气通道叫作声道在说话的时候,声门处气流冲击声带产生振动,然后通过声道响应变成语音、语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型4又是怎样推导出来的?它们各属于什么性质的滤波器?语音信号的数字模型可以用激励模型、声道模型和辐射模型这三个子模型串联来表示,如下图所示激励模型一般分为浊音激励和清音激励发浊音时,由于声带不断地张开和光比,将产生间歇的脉冲波这个脉冲波的波形类似于斜三角形的脉冲二阶低通滤波器,因此浊音激励是一个以基音周期为周期的斜三角波脉冲串发清音时,无论是发阻塞音还是摩擦音,声道都被阻碍形成湍流因而可以把清音激励模拟成随机白噪声实际情况一般使用均值为、方差为并在时间或/和幅值上为白色分布01,的序列由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器、什么是声强和声压?它们之间有什么关系?5声压是定量描述声波的最基本的物理量,它是由声扰动产生的逾量压强,是空间位置和时间的函数声波在单位时间内作用在与其传递方向垂直的单位面积上的能量称为声强对于球面波和平面波,声压与声强的关系是式中,为空气密度;I=P2/pC pC为声速、什么是响度?是如何定义的?6响度描述的是声音的响亮程度,表示人耳对声音的主观感受,其计量单位是宋定义为声压级为的纯音的响度为宋人耳对声音的感觉,不仅和声压40dB1kHz1有关,还和频率有关声压级相同,频率不同的声音,听起来响亮程度也不同、什么是音高?与频率的关系如何?7以为单位所测得的物理量一频率,在听者来说感知为心理量一音高,即用Hz人的主观感觉来评价所听到的声音是高调还是低调音高随频率的增加而提高美(Mel)美是心理声学测量音高的单位1000美是1000Hz纯音4()dB SL时的音高音调高的声波具有高美值,音调低的声波美值就低、在语音信号参数分析前为什么要进行预处理?有哪些预处理过程?8语音信号的预处理包括预加重,加窗和分帧等语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、转换及编码A/D预滤波的目的有两个一是抑制输入信号各频域分量中频率超出的所有分fs/2量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰转换中要对信号进行量化A/D语音信号低频段能量大,高频段信号能量小;而鉴频器输出噪声的功率谱密度随频率的平方而增加(低频噪声小,高频噪声大),造成信号的低频信噪比很大,而高频信噪比明显不足,使高频传输困难通常采用预加重(发送端对输入信号高频分量的提升)和去加重(解调后对高频分量的压低)技术来解决该问题、对语音信号进行处理时为什么要进行分帧?分帧的常用方法是什么?9贯穿于语音分析全过程的是“短时分析技术“虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在的短时间内),其特性基本保持不10~30ms变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数其中每一段称为一帧,帧长一般取这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组10〜30ms成的特征参数时间序列。