1、数字信号处理之语音识别与处理学号 0211511姓名 赵典一 语音信号 众所周知,语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。 20 世纪 60 年代中期形成的一系列数字信号处理方法和算法, 如数字滤波器、快速傅里叶变换(
2、FFT)是语音数字信号处理的理论和技术基础。而70 年代初期产生的线性预测编码(LPC)算法, 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、语音识别与合成、自然语言理解、多媒体数据库以及互联网等多个领域有广泛的应用, 同时它对于理解音频类等一般的声音媒体的特点也有很大的帮助。 对于移动通信来说, 最多的信息是语音信号, 语音编码的技术在数字移动通信中具有相当关键的作用, 高质量低速率的语音编码技术是数字移动网的永远的追求。所谓语音编码是信源编码, 它是将模拟语音信号变成数字信号以便在信道中传输。除了通信带宽的要求外, 计算机存储
3、容量的限制也要求对语音信号进行压缩, 以满足海量数据情况下进行实时或准实时计算机处理的目的。 二、语音信号处理的发展史: 声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。 它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等) ,听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等) ,语音的清晰度和可懂度等。 当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础。语言声学的发展和电子学、计算机科学有着非常密切的关系。 在它发展的过程中,有
4、过几次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现。因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。 从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门。第二次飞跃应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A /D)采样和量化,它们转换为数字信号后,能够送进计算机。这样就可以用数字计算方法,对语音信号进行处理和加工。 例如频谱分析可以用傅里叶变换或快速傅里叶变换( FFT)实现,数字滤波器可以用差分方程实现。在这个基础上,逐渐形成了一门新学科语音信号处理。它的发展很快,在
5、通信、自动控制等领域,解决了很多用传统方法难以解决的问题。在信息科学中占有很重要的地位。 三 语音信号处理的关键技术 语音信号处理的理论基础就是一般的数字信号处理理论, 它的主要研究内容是语音编码和语音压缩技术。考虑到人对听觉媒体的感应特点, 研究语音信号处理必须与声音心理学联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。声音心理学.声音的物理属性和心理属性既有联系也有区别。声音有两个最明显的量纲, 即响度和音调, 其它还有音色、谐和、不谐和和乐音等等。物理属性主要有强度和频率。声音的正弦波的强度增加, 声的响度也增加; 频率增加, 音调则增高。但这些关系不是线性的, 且是
6、耦合的, 如频率的变化既影响响度也影响音调。其数量上的关系可以用等响曲线 等来描述。但更精确。关系复杂, 难以建立量化模型。如即使想从客观上给出声音失真度的度量都很困难。 人的大脑处理听觉信息还有一些特性,产生了一些客观存在的效应, 如屏蔽效应。声的响度不仅取决于自身的强度和频率, 而且也依同时出现的其它声音而定。各种声音可以互相掩蔽, 一种声音的出现可能使得另一种声音难于听清。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽特性可以用于声音特别是语音信号的压缩。语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密
7、切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的,即在10一20ms这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等。2时域分析进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析
8、方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单。一个完整特定人孤立词语音识别系统通常包括语音的输入,语音信号的预处理,特征提取,训练与识别等几个环节,基本构成如图1所示:图1孤立词语音识别系统框图语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在一些先验知识的帮助下,提高识别的准确率。四、语音信号处理技术的未来发展展望: 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。4