查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
【期刊名称】 《刑事技术》
“人工嘴”在语音声学分析中的应用研究
【英文标题】 Mouth Simulator in Acoustic Analysis【作者】 王莉王晓笛康锦涛盛卉李敬阳
【作者单位】 公安部物证鉴定中心,智能语音技术公安部重点实验室公安部物证鉴定中心,智能语音技术公安部重点实验室公安部物证鉴定中心,智能语音技术公安部重点实验室公安部物证鉴定中心,智能语音技术公安部重点实验室
【中文关键词】 人工嘴;语音特征;语音质量感知评估;基频;共振峰
【英文关键词】 mouth simulator; acoustic features; PESQ; fundamental frequency; formant
【文章编码】 1008-3650(2019)01-0009-04【文献标识码】 A
【期刊年份】 2019年【期号】 1
【页码】 9
【摘要】 “人工嘴”是一种可以模拟人嘴发声的放音装置。它在近场范围内能够精确模拟人嘴所产生的声场,专门用于电话、手机及电声元器件等传输和通信类产品中麦克风通路的声学特性的检测。本文主要介绍通过提取“人工嘴”播放的语音(测试语音)与源语音(音源)的语音质量感知评估(perceptual evaluation of speech quality, PESQ)得分、基频和能量、共振峰、感知线性预测系数和信道因子等五个声学参数,分析比较二者之间存在的差异,来评估“人工嘴”对语音声学特征的影响。通过实验可知,“人工嘴”作为一种新型的放音装置,在使用过程中对语音质量和语音声学参数的影响是客观存在的,但程度不同;差异最大值出现在PESQ的评测结果中。这为“人工嘴”在今后相关项目中的应用奠定了数据基础,具有一定的参考价值。
【英文摘要】 Mouth simulator, an audio device used to imitate human voice, can exactly mimic human mouth speaking to generate sound field in near range, having its special purpose for either sound transmission through telephone, mobile phone, acoustic components or detection of acoustic features about microphone channel in communication products. With the extracted voices of the sampling (broadcast by mouth simulator for test) and the source, the comparison was here made on five acoustic parameters of PESQ (perceptual evaluation of speech quality), fundamental frequency, formant, PLP (perceptual linear predictive) and i-vector so that the difference can be recognized between the sampling and source voice, making the impact assessed of mouth simulator on acoustic features. The experiment indicated that mouth simulator, as a new type of audio device, inevitably has its effect on speech quality and acoustic parameters in practical usage despite the different degree. PESQ evaluation showed the maximum difference.
【全文】法宝引证码CLI.A.1253068    
  在以往的研究中,常考察同一说话人语音特征难以控制的是音源的同一。随着科学技术的不断发的稳定性、变异性以及不同说话人之间语音特征的差展,新型的仿生放音装置应运而生,如何利用这些仪异性{1},分析时大都提取说话人相同音节的基频、共器设备为课题研究注入新的动力,是现阶段值得思考振峰{2}、音强、过渡音征{3}等参数进行比较,唯一的新问题。
  “人工嘴”是一种可以模拟人嘴发声的放音装置。它在近场范围内能够精确模拟人嘴所产生的声场,专门用于电话、手机及电声元器件等传输和通信类产品中麦克风通路声学特性的检测。目前,对它的研究主要围绕频率响应、最大输出声压级和谐波失真声学特性{4}等,尚未发现与语音学分析相结合的实践研究。为了全面考察测试语音与源语音之间的特征差异,本研究除采用基频、共振峰等常用参数外,还引入2001年国际电信联盟(International Telecommunication Union, ITU)提出的语音质量感知评估方法评测语音质量和感知线性预测系数{5}、信道因子和动态时间规整(dynamic time warping, DTW)算法{6},不断丰富和拓展实验设备和研究思路。“人工嘴”能至少在200~8000 Hz频率范围内发出稳定的声信号,一般在MRP处应大于100dB。
  1材料与方法
  1.1实验设备及环境
  笔记本电脑2台:ThinkPad X200(2.26GHz 2.27GHz CPU, 4GB RAM Windows 7专业版);Adobe Audition 1.5专业音频编辑软件;语音质量及声学参数相似度评价工具(PESQ算法、感知线性预测系数、信道因子和DTW算法);RS AM3000型“人工嘴”:在距离“人工嘴”嘴唇固定位置处提供一个持续稳定的,低失真的宽频信号,在输入电压为1 V(0.25 W)的驱动下,25 mm MRP位置处最小持续声压级为106 dBSPL,频带范围为100~10000 Hz,稳定工作的最大输入功率为10 W; 麦克风:AKG C-4000B,电容式,指向性:可在心型、超心型及全指向型之间进行切换,灵敏度:-32 dBV,频响范围:20~20000 Hz。
  1.2系统搭建
  图1表示测试语音采集系统,通过音频线将PC机与“人工嘴”相连,用PC机播放实验音源通过人工嘴放音,比照使用者在使用麦克风录音时,嘴与麦克风的距离(A-B)大约为13.5 cm,固定人工嘴与麦克风的相对位置。并定义接收语音为测试语音。
  (图略)
  图1测试语音采集系统
  Fig.1 Setup for acquisition of tested speech
  1.3实验音源
  1.3.1单频信号
  选取初始值f0=100 Hz,△t0=10s,fk=kf0(k=1、2、3……34)的一组单频信号作为音源,每5个音频信号为1组(t=60s),100~3400 Hz区间可分为7组,如表1所示。
  1.3.2语音信号
  1段时长为60 s的男性说话人读说语音。
  表1单频信号频率与强度的取值范围
  Table 1 Collected frequencies and intensities of single-frequency signal

┌────┬───────────────────────────────┐
│组别  │频率及强度                          │
├────┼───────────────────────────────┤
│第1组  │100 Hz/58.8 dB、200 Hz/62.4 dB、300 Hz/73.6 dB、400 Hz/68.7 dB│
│    │、500 Hz/69.4 dB                       │
├────┼───────────────────────────────┤
│第2组  │600 Hz/74.6 dB、700 Hz/71.1 dB、800 Hz/67.6 dB、900 Hz/80.7 dB│
│    │、1000 Hz/90.8 dB                       │
├────┼───────────────────────────────┤
│第3组  │1100 Hz/83.5 dB、1200 Hz/80.3 dB、1300 Hz/82.1 dB、1400 Hz/76.│
│    │2 dB、1500 Hz/85.4 dB                     │
├────┼───────────────────────────────┤
│第4组  │1600 Hz/59.6 dB、1700 Hz/73.2 dB、1800 Hz/74.8 dB、1900 Hz/75.│
│    │6 dB、2000 Hz/77.9 dB                     │
├────┼───────────────────────────────┤
│第5组  │2100 Hz/86.3 dB、2200 Hz/69.5 dB、2300 Hz/94.3 dB、2400 Hz/60.│
│    │4 dB、2500 Hz/76.4 dB                     │
├────┼───────────────────────────────┤
│第6组  │2600 Hz/73.1 dB、2700 Hz/79.7 dB、2800 Hz/79.2 dB、2900 Hz/81.│
│    │6 dB、3000 Hz/86.8 dB                     │
├────┼───────────────────────────────┤
│第7组  │3100 Hz/91.1 dB、3200 Hz/72.6 dB、3300 Hz/95.1 dB、3400 Hz/88 │
│    │dB                              │
└────┴───────────────────────────────┘

  2结果与讨论
  通过视谱和定量测量发现,测试语音在基频和能量帧参数(frame parameter, FP)变化不是十分明显,为此我们引入了段参数(segment parameter, SP)和勒让德多项式参数(Legendre polynomial parameter, LP)进行分析评判,通过对比经过“人工嘴”传输后的语音与音源之间的基频包络变化来获取相关的目标情况。SP和LP描述的是基频和能量在某一个时间段的动态变化趋势,相比FP而言,SP和LP反映的信息更加丰富和细致,反映出的差异也会更加明显。
  信道因子是基于感知线性预测系数(perceptual linear predictive, PLP)的提取结果而计算出的声学特征;Dehak等{7}提出了联合因子分析模型,采用全空间建模,对于一段语音而言,可将其所有可变因素分为说话人空间和信道空间,由于本实验中不涉及不同说话人,因此得到的差异仅表示为信道差异,即信道因子。
  2.1“人工嘴”对单频信号的影响
  由于单频信号不符合PESQ、共振峰和信道因子的测试要求,这里仅比较二者的基频和能量(FP、SP、LP及PLP),如表2及图2所示。不同次测试语音与源语

  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
【注释】                                                                                                     
【参考文献】 {1}段文君,贾媛,冉启斌.山东方言焦点语音实现的共性和差异性特征—以济南、聊城、淄博方言为例[J].清华大学学报(自然科学版),2013(6):835-838.
  {2}柳林,方磊,李敬阳.移动通信信道下声纹鉴定研究[C]//第一届全国声像资料检验鉴定技术交流会论文集.北京:中国人民公安大学出版社,2011:616-623.
  {3}彭梦娅,刘亚丽.区别特征单音节评测中过渡音征的影响[J].中国传媒大学学报(自然科学版),2017(4):64-69.
  {4}杨德俊.人工嘴声学特性校准方法探讨[J].电子质量,2012(5):59-60.
  {5}蔡尚,金鑫,高圣翔,等.用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J].声学学报,2012(6):667-672.
  {6}张连海,冯志远,陈琦,等.基于动态时间规整的语音样例快速检索算法[J].计算机应用研究,2014(6):1688-1692.
  {7}DEHAK N, KENNY P J, DEHAK R, et al. Front-End Factor Analysis for Speaker Verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4):788-798.
  {8}赵斐,徐勇,成立新. PESQ及其作用[J].电子设计应用,2003(3):28-30.
  {9}陈华伟.语音通信中音质客观评价研究[D].成都:西南交通大学,2007.
  {10}陈国.语音质量客观评价理论与方法研究[D].武汉:华中科技大学,2001.
©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
本篇【法宝引证码CLI.A.1253068      关注法宝动态:  

法宝联想
【相似文献】

热门视频更多