77范文网 - 专业文章范例文档资料分享平台

语音识别论文(6)

来源:网络收集 时间:2019-01-26 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

青岛大学本科生毕业论文(设计)

参考模板为音素单位

声学参数分析 单词模板 单词识别 识别输出 音素参考模板 单词辞典 图3-3 参考模板为音素单位

3.2.2 孤立词语音识别系统的技术主要项目

词 汇 说话人 发生法 分析法 模式变换 模式法 标准模式 输入方式 发声环境 环 境 电 平 词汇固定—可变,内容(数字、命令、地名等),声学性质的类似性 特定说话人—非特定说话人 孤立发声—连续发声 频域分析,倒谱域分析,线性预测分析 固定长—可变长,特征提取,语音分段,因素识别 多重参考模式匹配法,统计决定法,构词识别法 标准模板(多重),单词辞典,概率分布,生成规则 电话—话筒(近讲话筒) 信噪比SNR>30dB(SNR:Signal to Noise Ratio) 比较安静的办公室 宽敞的办公室 行驶中的小轿车内 40-50dB 60-70dB 65-75dB 表3-1 孤立词语音识别系统的技术主要项目 21

青岛大学本科生毕业论文(设计)

3.2.3 基于语音轨迹特征的匹配技术

Concept: a sequence of symbols Parameterize S1 S2 SS Vector spaceSpeech Wavefor(V1) (V2,V3) (V4,V5,V6,V7)) V1 V2 V3 V4 V5 V6 V7 Speech Vectors Recognize S1 S2 SS SS Vector space(V’2) (V’1) V’1 V’2 V’3 V’4 V’5 V6’ S1 S2 SS SS SS (V’4) (V’5) (V’6) (V’3) 图3-4 基于语音轨迹特征的匹配技术 3.3 语音识别设计流程

3.3.1 样本语音采集

在室内录制标准汉语数字0-9的wav语音做样本语音,录音软件采用MS Visual C++WavRecorder,采样率16KHz,采样位16位,语音数据以wav文件格式存储,其音频格式为Windows PCM。

3.3.2 语音信号预处理

1、语音信号数字化

通过采样及量化提取语音信号的数据。

其中,数据提取部分,掌握语音文件的存储形式极为重要,有效地提取并清楚各部分数据的含义,对分析数据起到帮助作用,为下一步工作做了良好的起步。 2、预加重处理

提升高频部分,使信号频谱变得平坦,以便于进行声道参数分析或频谱分析。预加重语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频)。求语音信号频谱时,频率越高,相应的成分越小。

22

青岛大学本科生毕业论文(设计)

为此,要在预处理中进行预加重处理(Pre—emphasis)。预加重的目的是使信号的频谱变得平坦,保持从低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一般是采用一阶的数字滤波器μ:H(Z)=1-μz-1,μ值接近于1,或者采用公式y(n)=x(n)-αx(n-1),其中,x(n)为原始信号序列;y(n)为预加重后序列;α为预加重系数。 3、端点检测及分帧加窗

断点检测主要为实现对数据中有效部分的提取。阈值采用0.3(最大值-最小值),语音信号是一种典型的非平稳信号,处理中一般使用窗函数截取其中一段来进行分析,截取出来的那部分信号被认为是短时平稳的。加窗处理的另一个作用就是消除由无限序列截断导致的Gibbs效应。常见的窗函数有: 1)矩形窗(RectangularWindow)

?(0)?

2)汉明窗(Hamming Window)

1(0?n?N?1)0其他 (1)

?n)(0?n?N?1)?0.54?0.46cos(2N?1?(n)?0其他 (2)

?3)哈宁窗(Hann Window)

?n)(0?n?N?1)?0.5?0.5cos(2N?1?(n)?0其他 (3)

?汉明窗和哈宁窗都属于广义升余弦函数,通过分析他们的频率响应幅度特征,可以发现,矩形窗的谱平滑性能好,但是旁瓣太高,容易造成频谱泄露,损失高频成分;哈宁窗衰减太快,低通特性不平滑;汉明窗由于其平滑的低通特性和最低的旁瓣高度而得到广泛的应用。

3.3.3 Mel倒谱系数特征表示

提取MFCC参数、PLCC参数,即状态转移矩阵A,混合高斯分布的权矩阵C,均值矢量μ和协方差矩阵U这四个参数的训练过程,并进行极大似然值估计。

Mel倒谱系数提取

人耳对不同频率的语音具有不同的感知能力,是一种非线性的关系。结合人耳的生理结构,运用对数关系来模拟人耳对不同频率语音的感知特性,Davies和Merelstein于1980年提出了Mel频率的概念。其意义为1Mel为l000Hz的音调感知程度的l/1000。Hz频率fMel与Mel频率fMel之间的转换关系如公式:

ln(1+fMel=1127×

fHz) (4) 70023

青岛大学本科生毕业论文(设计)

Mel倒谱频率系数(MFCC)是上述Mel频率概念基础上提出的,其计算机流程如图3-3-3-1 所示

预加重,加窗 FFT Mel频率滤波器组 DCT求倒谱 Log对数能量 图3-5 MFCC计算流图

1)将原始语音信号预加重,分帧加窗之后得到一帧语音信号。

2)对一帧语音信号进行快速傅立叶变换(fast fouriert transform,FFT),得到信号的离散功率谱X(k)。

3)定义一个由M个三角型带通滤波器组成的滤波器组,每个滤波器的中心频率为f(m),m=1,2,…,M,肘,相邻滤波器交叉重叠在一起,且其中心频率在Mel频率轴上为等间距分布,滤波器组在频域上覆盖从0Hz到Nyquist频率,即采样率的二分之一。三角滤波器的中心频率f(m)和频率响应H(k)分别为

f(m)=B(fh)?B(f1)N?1B(B(f1)?m) (5) FSM?1(5)式中:f1和fh分别是滤波器组覆盖范围的低通频率和高通频率;F是信号采样频率,单位都是Hz;M是滤波器组中滤波器的个数;N是进行FFT变换时的点数;B?1()是公式(4)的反函数。

B?1(b)?700(eb/127?1) (6)

N?1k?04)通过步骤3),每个滤波器产生输出频谱能量,取对数之后便得到一组如下系数

S(m)?ln(?|X(k)|2Hm(k)),m?1,2,...,M (7)

再经过离散余弦变换(DCT)将S(m)转换到时域,就是MFCC。MFCC系数c(i)的计算过程为

c(m)??S(k)cos(k?0N?1?m(n?0.5)M),1?m?M (8)

MFCC的Hz—Mel尺度对应的曲线和滤波器组分布如图3-6所示。

24

青岛大学本科生毕业论文(设计)

2000 1500 1000 500 0 500 1000 1500 2000 3500 4000 频率/Hz 图3-6 MFCC尺度对应曲线 频率/Mel

3.3.4 HMM隐马尔科夫模式匹配 HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的一个双重随机过程。~个有Ⅳ个状态的HMM模型通常由??(A,B,?)来表示,这些参数的含义解释如下:

N是模型的状态数,一个输入的观察序列O?o1,o2,...oT在某一特定时刻只能处于{S,是

?S1,S2,...,SN?N个状态中的一个。 A??aij?是状态转移概率矩阵:aij?P?qt?1?Sj|qi?Si?,1?i,j?N。它是一个隐含的马尔

可夫链,每次从状态Si转移到状态

Sj的概率只与状态Si有关,而与它以前的状态无关。矩阵

a?元素必须满足:

j?1Mij?1。

????1,?2,...,?N?为各状态的初始概率分布,表示观察序列O?o1,o2,...oT在t=l时刻可能

处于模型各个状态的概率值,即?i?P(q1?Si),i?1,2,...,N,并且它满足??i?1。

t?1NB为输入语音特征序列O?o1,o2,...oT中的任意观察值oi在各状态的输出概率。它有离散型和连续型两类,对于离散HMM模型,B是一个概率矩阵B??bj(k)?,j?1,2,...,M;k=1,2,...,M,其中,bj(k)?P(ok|qt?Sj),M是编码符号集中符号的总数,并且满足?bj(k)?1;对

i?1M于连续型HMM模型,B??bj(o)?,1?j?N,且bj(o)??cjiN(o,?ji,Uji),1?j?N,其中,o

i?1M25

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库语音识别论文(6)在线全文阅读。

语音识别论文(6).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/446463.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: