77范文网 - 专业文章范例文档资料分享平台

基于时域特征的语音自动分割算法实现(2)

来源:网络收集 时间:2018-12-25 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

3 经典语音自动分割算法

所谓语音自动分割就是在一段连续语音中,把有用的语音音节和构成干扰的背景噪声区分开来,明确每个音节的起始点和终止点。随着语音信号处理技术的不断发展,语音自动分割方法越来越多,每种算法都有各自的特点和应用场景。比较经典的语音自动分割算法包括短时能量检测法、自相关函数法、倒谱距离检测法等。本章将对各类算法进行详细的分析总结,进而引出一种鲁棒性较好的语音自动分割算法。

3.1 语音信号的时域分析

语音信号是时域信号,时域在对语音信号进行分析时是最直观的,通常来说语音信号处理的仿真结果都是以时间为横坐标的。所谓时域分析一般就是指基于短时能量、短时过零率、短时功率谱等参数,来对语音信号进行相应的分析。通过对这些短时参数的提取、利用,我们就能够实现语音信号的时域分析。

再对任何一种数字信号进行分析处理时,时域波形总是我们最早了解到的而且是最直观的语音状态描述。时域分析方法的特点有:(1)能够直接观察语音信号的波形;(2)不需要进行复杂的计算就能够实现;(3)能获得重要的短时特征;(4)信号特征能够直观体现出来,减小理解难度。 3.1.1 连续信号数字化

语音信号之所以要进行预滤波的主要原因有二:(1)抑制系统输入的语音信号中高于二分之一采样频率fs的频域分量;(2) 抑制50Hz的电源工频干扰。因此只有带通滤波器才能符合预滤波器的使用要求。设其上截止频率为fh,下截止频率为fl。一般情况下,众多语音编译码器上截止频率和下截止频率都设定为fh=3400Hz、

fl=60~100Hz、采样率为fs=8kHz。而对于语音识别系统来说,当应用的场景不一

样的时候,选用的参数也是不同的。当用于电话用户时,指标通常采用fh=3400Hz、fl=60~100Hz、采样率为fs=8kHz。当用于对语音识别系统要求很高的场所时,通常就要采用更狂的频谱范围、更高的采样率。语音信号通过预处理之后就会转化为二进制数字码。

模拟信号需要通过采样量化转化为数字信号,在这个过程中,由于量化过程的基本原理导致其必然会有一定的误差出现。当语音信号波形的变化幅度特别大或者量化间隔Δ特别小时,可以发现量化噪声与输入信号是不存在相关关系的,根据这个特点就可以实现相关法的语音自动分割。

6

数模变换又可以称作数字化的反过程,他的核心意思就是指从已经进行过数字化的语音信号中重新构建起模拟的语音信号波形。在进行了A/D、D/A转换之后语音信号会产生高次谐波失真,为了有效地避免这种情况的发生,我们必须在数模转换之后加一个平滑滤波器。这个平滑滤波器将对语音波形的高次谐波起到平滑作用,从而有效消除高次谐波失真。 3.1.2 预加重处理

根据人的发声原理可以得知,声门激励和口鼻辐射等因素都将对语音信号的平均功率谱产生较为明显的影响。这种影响主要体现在,输入的语音信号会因此在高频端产生较为严重信号衰减,这就有可能导致信号高频端的信噪比居高不下,不能满足语音信号识别的要求,与低频段产生鲜明的对比。当衰减到达一定程度时就会出现高频部分的语音频谱求不出来的问题。怎么才能减小高频端的信号低落程度,或者能够通过某种方式抵消信号衰减带来的影响成为了研究人员需要解决的问题。目前,较为行之有效的一种方式就是对语音信号进行预加重处理。预加重成功的利用语音信号与噪声信号具有不同特性的特点,对输入信号高于800Hz的高频分量进行人为的加重处理。这样一来高频部分的信噪比就会得到相应的提高,使其满足系统要求,这样将有助于之后进行的频谱分析或声道参数分析过程。在进行预加重的同时,为了有效地提高语音信号信噪比,压缩信号的动态范围,我们可以在语音信号数字化时在反混叠滤波器之前进行预加重处理。但大多数情况下,预加重处理是放在语音信号数字化之后进行,在进行参数分析之前通常有

一阶的数字滤波器错误!未找到引用源。6dB/倍频程的提升高频特性:

H ? Z ? ? 1 ? ? z ? 1 (3-1)

式中μ值接近于1错误!未找到引用源。。

在进行信号处理的过程中,我们不仅需要对信号进行预加重处理,很多时候我们也需要将信号恢复成原始信号,这个时候就要使用去加重。去加重技术的思想和预加重基本相同,只不过实现方式不同。 3.1.3 分帧加窗处理

对语音信号实施过预加重之后,下一步就是要对其实施分帧加窗处理。通过实验,我们发现语音信号在30~100ms的范围内,其频谱特征以及一些物理特征基本保持不变。为了方便计算机的处理,只要将语音信号按此长度进行分帧处理,就可以将平稳过程的处理方法和理论引入到语音短时处理中 。在进行分帧处理时,如果帧与帧之间是连续分段的,则有可能发生帧与帧之间的信号发生突变的情况,为了避免这种情况的发生,在分帧时通常使用如图3.1所示的交叠分段法。图3.1中两帧之间的重叠部分称为帧移。我们大多数情况下都将帧移与帧长的比设为0~1/2。所谓分帧其实就是用选定的窗函数w?n?乘以s?n?,类似于一个滤波器,在

7

窗以外的语音信号都会被抑制掉,只有窗内的信号可以通过,这样就得到了加窗语音信号sw?n??s?n??w?n?。

图3.1 帧长与帧移的示例

矩形窗和海明窗是我们经常使用的两种窗函数,它们的表达式如式(3-2)、(3-3)所示: 矩形窗:

?1,0?n??N?1?(3-2)

w?n??? ? 0 , else n ?海明窗: ?0.54?0.46cos?2?n/?N-1??,0?n?N?1 w ?n ? ? ? (3-3)

0,n?else? 其中N为帧长。

我们对语音信号进行加窗分帧处理就是为了得到对之后的语音识别有用的各项短时参数,短时参数会受到多方面因素的影响,窗函数的选择是否正确就是其中的一个重要因素。为了解决这个问题,我们接下来就从窗函数的形状和长度来仔细讨论这个问题。 1.窗口形状

通常情况下,窗函数应该能够尽量减小语音帧的截断效应(波形峰起值趋于总跳变值的9%),为了实现这一目标我们需要尽量减小时间窗两端的坡度;在频域上3dB带宽要尽量宽,而边带最大值则要做的尽量小。虽然基于时域、频域、倒谱域等不同的短时分析方法对于窗函数的要求各有不同,但该标准还是适用于大多数一般情况的。本文只以最为典型的矩形窗和海明窗(Hamming)为例进行比较: 矩形窗:

0 ?n ??1 h ? n ? ? , ? N ? 1 ? (3-4)

??else? 0 ,n

数字滤波器的频率响应为:

8

sin?nwT/2? H e ? ? e ? jwnT ?N ? 1? / 2 (3-5) ? e ? jwTsin?wT/2?n?0??jwTN?1它具有线性的相位,其频率响应为:

f01?fs/N?1/NTs (3-6)

这里,fs为采样频率,Ts?1/fs为采样周期。 海明窗:

?0.54?0.46cos?2?n/?N-1??,0?n?N?1??wn? ? (3-7)

0,n?else?通过窗函数可以发现海明窗频率响应HejwT的带宽以及通带外衰减都远大于矩形窗。矩形窗与海明窗的对比见表3.1中。

表3.1 矩形窗与海明窗的对比 窗函数类型 矩形窗 海明窗 旁瓣峰值 -13 -41 主瓣宽度 4π/N 8π/N 最小阻带衰减 -21 -53 ??2.窗口长度

频率分辨率Δf可表示为:

1?f? NT s (3-8)

式(3-8)中,Ts为采样周期(采样频率的倒数),N为窗长。

通过式(3-8)可知,在采样周期一定的情况下,频率分辨率与窗口宽度成反比例,当窗口宽度N增加时频率分辨率Δf会随之减小;由此可见这两者之间是矛盾的,如果窗口取得短,则Δf会减小,而时间分辨率则会提高。所以需要根据实际应用场景来进行衡量,因此,窗口的长度选择应合适。而有时基音周期也会对窗口长度的选择产生至关重要的影响。

语音信号的数字化和预处理过程对于整个系统来说是十分关键的一个环节,正因为如此在对一整个系统进行性能评定的时候,必须要详细交代系统的采样频率、精度、预加重方法、窗函数、帧长以及帧移等语音参数。

综上所述,通过对以上处理过程的详细介绍,语音信号就从一整段连续的信号被分割为以帧为单位的短时信号了,之后再将每个短时语音帧看成是近似平稳的随机信号,再来提取出其中的语音特征参数。在处理过程中,将以帧为单位从整段数据中逐帧取出数据,逐帧处理,全部帧都处理完成后进行汇总错误!未找到引用源。。

9

3.2 语音信号的频域分析

频域分析是从另一个方面对信号进行分析,虽然频域分析方法没有时域分析形象、直观,但它却有着更为简练、剖析问题更加深刻等时域分析无法比拟的优

域向频域发展。势。两者共同组成了语音信号分析。目前,信号分析的趋势是从时然而,它们是互相联系,缺一不可,相辅相成的。 3.2.1 傅立叶变换法

傅里叶变换(Fourier Transform,FT)不仅仅在数学上广泛应用,同时也应用于工学的各个领域,语音信号频域分析就是其中之一,是对线性系统进行分析时最有效的手段。要想得到语音信号相应的功率谱、频谱、倒谱距离、谱熵等特征,我们可以将加窗分帧后的语音信号做傅氏变变换再做傅氏反变换。如上文所述,因为语音信号的特性是时变的,为了便于计算机处理所以采用短时傅氏变换,由此得出的为短时频域特征,窗函数均选取Hamming。

(1)短时频谱和短时功率谱 假设信号xn(m)经傅氏变换后在频域记为

Xn(ejw),则Xn(ejw)与xn(m)的关系如公式(4-1):

N?1Xn(e)??xn(m)e?jwm

jwm?0(3-9)

语音的频谱为Xn(ejw)的幅度,则有:

pn(ejw)?Xn(ejw)

(3-10)

语音信号的短时功率谱取值实际上就是幅度的平方,公式为:

Gn(ejw)?Xn(ejw)

2(3-11)

(2)倒谱距离 在低信噪比条件下,可以使用倒谱系数求得倒谱距离,并以此为参数进行语音自动分割。语音信号的倒谱可定义为:

?logs(w)?n????c(n)e?jnw (3-12)

S?w?为语音信号能量谱密度函数,cn为倒谱系数,通过cn可得到倒谱距离dcep为:

dcep?4.3429(c1(n)?c0(n))?2?(c1(n)?c0(n))2

2n?1p(3-13)

(3)熵 熵是一个用来描述物质的概率程度的物理量。熵H是用来表示X的信息量的,当X的分布概率相同时,熵取最大值,也就是说,X的随机性越高,其所包含的信息量就越大,熵值越高。X取xi的概率函数可以表示为:

pi?p?X?xi? i?1,2??n

10

(3-14)

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于时域特征的语音自动分割算法实现(2)在线全文阅读。

基于时域特征的语音自动分割算法实现(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/389603.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: