77范文网 - 专业文章范例文档资料分享平台

基于时域特征的语音自动分割算法实现(5)

来源:网络收集 时间:2018-12-25 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

H?P??H?p1,p2,?,pq????pilogpi

i?1qq(4-6)

式中,P=(p1,p2,…,pq)是q维矢量,并且满足?pi?1和pi?0,故常称P为概率矢量。 性”。

若熵函数有

i?1从上述谱熵的定义中可以发现谱熵体现了信源在频域幅值分布中的“无序

H?p1,p2,?,pq??H?1q,1q,?,1q??logq

(4-7)

也就是等概分布的时候,语音信号的熵达到最大值,这一特征称为最大离散熵定理。

4.3 谱熵法语音自动分割的改进算法

基于最基本的谱熵原理在语音信号中的应用,为了提高辨别语音信号和非语音段的能力、消除某些能量集中噪声某个特定频率对传统谱熵方法的影响,提出了如图4.1所示的改进的谱熵法语音自动分割算法。

1.为了提高辨别语音段和噪声段的能力,做出了一些经验性的约束。由于大部分语音信号都在250~3500Hz频带内,设第k条谱线频率为fk,有

Yi?k??0fk?250Hz或fk?3500Hz

(4-8)

2. 为了避免某些噪声集中在某个频率对谱熵方法的影响,需设定归一化谱概率密度的上限:

pi?k??0若pi?k??0.9

(4-9)

3. 为了消除每帧信号快速傅里叶变换(FFT)后的谱线幅值受噪声影响,把

时域波形为 x(n),加窗每条谱线的谱熵改为子带的谱熵,设含有噪声的语音信号分帧处理后得到的第 i帧语音信号为 xi(m),他的离散傅里叶变换(DFT)为

Xi?k??xi?m?exp??j2?km/N? ?m?0N?1(4-10)

2式中,Xi(k)是语音帧xi(m)的短时傅里叶变换,每个分量的能量Yi?k??Xi?k?。

这样归一化谱概率密度函数定义为

p?k,i??Yi?k?N/2l?0?Yi?l?k?0,1,?,N2 (4-11)

将每帧的前半段的信息熵计算出来

21

H?i????p?k,i?logp?k,i?

k?0N/2(4-12)

H(i)是第i帧的谱熵。

子带谱熵的思想是将一帧又进一步分成几个子带,再分别求出每一个子带谱熵,这样一来就消除了每一条谱线幅值会受到噪声影响的问题。设每个子带由4条谱线组成,共有Nb个子带,这样第i帧中的第m子带的子带能量为

Eb?m,i??(m?1)*4?3k?(?1)*4Yi?k??m1?m?Nb

(4-13)

相应地,子带能量的概率pb(m,i)和子带谱熵Hb(i)分别为

pb?m,i??Eb?m,i?Eb?m,i??k?1Nb1?m?Nb

(4-14)

Hb?i????pb?m,i?logpb?m,i?

m?1Nb(4-15)

4. 在谱熵的计算中引入一个正常量K到概率分布式(6-14)中,得到新的子带能量的概率分布密度公式

??m,i??pbEb?m,i??K?Eb?k,i??K??k?1NbK?0

(4-16)

比较式(6-14)可得出新的子带谱熵

??m,i?logpb??m,i? Hb??i????pbm?1Nb(4-17)

综上所述,噪声负熵的减小程度与语音的负熵减小程度相比要明显很多,而且,不同的噪声的谱熵区别不是十分明显,这就使得容易设定自动分割的门限值。

区分度能得以提高。 因此在噪声环境下,引入正常量K后语音信号和噪声信号的22

5 算法实现与仿真

5.1 算法实现

根据本文设计的流程框图4.1,取得语音信号后,对其实现算法的具体步骤为: 1. 读入.wav语音文件。

预加重处理。 2. 对输入的语音信号进行3. 进行分帧加窗。语音文件采用8kHz采样率,所以帧长用25ms,即为200

个样点,帧移为10ms,80个样点。 4. 对每帧数据FFT后取幅值。

5. 进行经验性约束。将语音信号频带限制在250Hz~3500Hz内;设定归一化

谱概率密度上限为0.9;常数K设置为0.5。 6. 计算子带能量。

7. 根据式(4-16)计算子带能量概率分布密度。 8. 根据式(4-17)计算子带谱熵。 9. 平滑处理。 10. 设置阈值。

11. 用双门限法反向端点检测。

5.2 仿真结果及分析

本文使用MATLAB作为仿真软件。语音原文件内容为带有一定背景噪声的“01234567899876543210”,语音长度共20秒,比特率128kbps,本实验在原有噪声的基础上额外增加5dB高斯白噪声,以证明该算法在信噪比不高的环境下检测的准确性和有效性。同时将4.2节介绍的传统谱熵法自动分割结果与4.3节介绍的改进后的算法进行对比,以体现改进后算法的优异性能。

为了提高程序的易用性,将窗函数、帧移、帧长、读入文件等操作写成PART_I和Set_I两个子程序单独调用。Set_I中的参数在不同的情况下可能会有所改变。当选用不同的语音数据文件时,采样率不一样,就可能使帧长和帧移选用不同的数值,此时只要改变Set_I文件就可以了。如果个别参数要改变,在执行run Set_I后用语句还可以改变,例如信噪比要改变,可再写一个SNR=xx,然后再执行run Part_I。

说明:

(1) 其中有Set_I和PART_I两段程序块用命令run运行。因为有一些语句

23

在以后许多程序中都会用到,所以写成程序块。

(2) PART_I包括读入数据文件、叠加噪声、分帧和求出NIS等。Set_I主

要是设置帧长、帧移、前导无话段长度、数据文件的路径和信噪比。 (3) 参数应包括数据文件的路径和文件名。在语音信号处理中往往数据文

件和程序不在同一个盘区内,这时就要设置文件的路径。例如: filedir=’D:\\DATA\\’; filename=’file1.wav’; fle=[filedir filename] ;

%设置文件的路径 %设置文件的名称

%构成完整的取数据文件的链接

当然,如果数据文件就在本子目录之下,或对数据文件在MATLAB中已设置了路径(path),则只要按Set_I中的设置就成了: fle=’file1.wav’; 以下是仿真图:

%设置文件路径和名称

图5.1 传统谱熵法仿真图

24

图5.2 改进后的谱熵法仿真图

仿真结果表明,改进后的谱熵法能够有效地对具有背景噪声的语音信号进行自动分割,且其准确性较传统方法有较大提高。

25

6 结论

21世纪是信息化的社会,科学技术的不断发展正式推动社会不断前进的重要因素,而语音自动分割算法作为语音识别技术的重要组成部分,对于改变人们与机器之间的交互方式具有至关重要的作用,语音识别拥有良好的前景和发展空间,在未来的某一天可能就不再需要键盘来进行文字输入,人们也能和人工智能机器人通过语音自由交流。

本文所做的工作主要涉及以下方面内容:

(1) 介绍了语音信号处理中的一些基础知识,例如短时分析技术、预加重、

加窗和分帧等。

(2) 对多种传统的语音自动分割算法—短时能量检测法、过零率检测法等进

行了介绍和对比,陈述了各自的优缺点。

(3) 通过分析语音信号以及背景噪声的特点,选取鲁棒性较好的谱熵来作为

进行语音端点检测的特征参数,并对传统的谱熵法进行了改进。 由于本人自身能力有限,撰写论文的时间和对算法的研究都略显不足,提出的算法并不能应用于过于复杂的环境中,这些将是我之后需要不断进行改进的地方。虽然有着种种不足,但是通过此次毕业设计,让我更加了解了MATLAB语言,掌握了一门实用的技术,能够自主编写一些简单的仿真程序,培养了对于问题一丝不苟、迎难而上的品格,使我对大学所学专业有了更深的理解。

26

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于时域特征的语音自动分割算法实现(5)在线全文阅读。

基于时域特征的语音自动分割算法实现(5).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/389603.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: