收藏 分享(赏)

人工智能导论PPT第五章.pptx

上传人:bubibi 文档编号:20014204 上传时间:2023-12-02 格式:PPTX 页数:24 大小:1.36MB
下载 相关 举报
人工智能导论PPT第五章.pptx_第1页
第1页 / 共24页
人工智能导论PPT第五章.pptx_第2页
第2页 / 共24页
人工智能导论PPT第五章.pptx_第3页
第3页 / 共24页
人工智能导论PPT第五章.pptx_第4页
第4页 / 共24页
人工智能导论PPT第五章.pptx_第5页
第5页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、处理语音信号 语音识别是一门交叉学科。与机器进行语音交流,让机器明白你说什么,语音识别是一门交叉学科。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。这是人们长期以来梦寐以求的事情。中国物联网校企联盟中国物联网校企联盟形象得把语音识形象得把语音识别比做为别比做为“机器的听觉系统机器的听觉系统”。语音识别技术语音识别技术让机器通过识别和理解过程让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。把语音信号转变为相应的文本或命令的高技术。语音识别通过对声波的一系列处理最终转化为便于计算机存储和处理的音频文件(MP3格式等等)这一系列的处理主要包括了采样,量化和

2、编码等步骤。l采样:采样就是在某些特定的时刻对模拟信号进行测量,对模拟信号在时间上进行量化。具体方法是:每隔相等或不相等的一小段时间采样一次。l量化:分层就是对信号的强度加以划分,对模拟信号在幅度上进行量化。具体方法是:将整个强度分成许多小段。l编码:编码就是将量化后的整数值用二进制数来表示。研究人员致力于语言的各个方面和应用,如理解口语单词、识别说话者是谁、识别情绪、识别口音等等。语音识别是人机交互领域的一个重要环节。可视化音频信号波形图频谱图频谱的横坐标代表频率,纵坐标代表幅度相应频率的声音对应的振幅。频谱图反映了不同频率的声音占的能量多少,在频谱图上反映的就是频谱幅度的相对大小。比如一段

3、乐曲中的高音强低音弱,那么在一定范围内的频率高的区域频谱的振幅就大,反之在频率低的区域对应的频谱幅度大。音色图中第一个最高峰所处的频率就是音调,而在这个频率的整数倍的位置都有不同大小的峰值,它们之间的比例反映了声音音色的不同。通过这些特性,我们就能大概分出这是什么发出的声音了。例题分析思考题n解释音色、音调。n开放性问题:如何判断一个耳麦的好坏呢?谢谢大家谢谢大家将音频信号从时域转换为频域n时域时域(time domain)(time domain)是真实世界,是惟一实际存在的域。可以这样理解,从我们出生开始,所接触的这个世界就是随着时间在变化的,是在运动的。n频域频域(frequency d

4、omain)(frequency domain)它不是真实的,而是一个数学构造。如果说时域是惟一客观存在的域,那么频域是一个遵循特定规则的数学范畴,频域也被一些学者称为上帝视角。正弦波是频域中唯一存在的波形,这是频域中最重要的规则,即正弦波是对频域的描述,因为频域中的任何波形都可用正弦波合成。时域在分析研究问题时,以时间作基本变量的范围。时域是描述数学函数或物理信号对时间的关系。例如一个信号的时域波形可以表达信号随着时间的变化。频域在分析问题时,以频率作为基本变量。频域是描述信号在频率方面特性时用到的一种坐标系。自变量是频率,即横轴是频率,纵轴是该频率信号的幅度,也就是通常说的频谱图。频谱图描

5、述了信号的频率结构及频率与该频率信号幅度的关系。为了把时域信号转换成频域信号,我们需要使用傅里叶变换(FFT)这样的数学工具。傅里叶变换实质涉及的是时域函数和频域函数的转换。代码分析生成音频信号 在前一节中,我们既然我们知道了音频信号是如何工作的,让我们看看如何生成这样一个信号。本节课使用一个例子来生成不同的音频信号。由于音频信号是正弦波的混合物,我们可以使用它来生成带有一些预定义参数的音频信号。代码分析提取语音特征n我们之前学习了如何把时域信号转换成频域信号。频域特征在语音识别系统中应用得很广泛,但是真实世界的频域特征要更为复杂。一旦我们把一个信号转换成频域,我们需要确保它可以以特征向量的形

6、式供我们使用。这就涉及到Mel Frequency Cepstral Coefficients(MFCCs)了。MFCC是一种用于从给定音频信号中提取频域特征的工具。nMFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。MFCC梅尔倒谱系数(MFCC)是在Mel标度频率域提

7、取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:提取语音特征参数MFCC主要有以下几个步骤:代码分析谢谢大家谢谢大家构建语音识别系统构建语音识别系统识别口语词汇识别口语词汇n在本节中,我们将使用隐马尔科夫模型(HMMs)来完成如何识别口语词汇。n马尔科夫链,因安德烈.马尔科夫(A.A.Markov,1856-1922)得名,是指数学中具有马尔科夫性质的离散事件随机过程。每个状态的转移只依赖于之前的n个状态,这个过程被称为1个n阶的模型,其中n是影响转移状态的数目。最简单的马尔科夫过程就是一阶

8、过程,每一个状态的转移只依赖于其之前的那一个状态。用数学表达式表示就是:在Markov chain的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。n隐马尔科夫模型(HMMs),是关于时序的概率模型,是在马尔科夫链的基础上,增加了观测事件(observed events),即把马尔科夫链原本可见的状态序列隐藏起来,通过一个可观测的显层来推断隐层的状态信息。其中,隐层映射到显层通过发射概率(emission probability)或观测概率(observation probability)来计算,隐层状态之间的转移通过转移概率(transition probability)获得。其中,x表示隐含状态,y可观察的输出,a转换概率,b输出概率。代码判断解析小结在这一章中,我们学习了语音识别相关技术。我们讨论了如何处理语音信号及相关概念。我们学习了将语音信号可视化,并通过傅里叶变换将其从时域变为频域。我们还使用一些预定义的参数来生成了语音信号。最后我们讨论了MFCC特征提取和HMM模型,并用这些知识构建了一个可以识别口语单词语音识别系统。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 网络技术 > 前端技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报