音频的构架以及原理(7)

来源：网络收集时间：2019-03-03 下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:或QQ：处理（尽可能给您提供完整文档），感谢您的支持与谅解。

个子带信号经过MDCT离散余弦变换进一步把每个子带再细分成18个次频带，使得各个频带跟接近心里声学模型的临界频带。另外一路通过FFT离散傅立叶变换的信号经过第二心里声学模型的分析得到各个频带的SMR。以及PE值，然后再根据这个SMR再分配给各个频带不同的位元数，另外根据不同的PE值选用不同的MDCT窗口（一般在PE值大于1800时我们用短窗口），最后再经过霍夫曼编码得到最终的MP3编码的数据流。

5.6子带滤波器

子带滤波的意思就是把原本一个频带的信号划分为一个个固定或者不固定

带宽的信号。MP3是划分32块。也就是把原本44.1K（CD音质）的信号划分到32个子带。当然我们也不是把整个时间域上的信号划分到32个子带，而是在时间域上把音频信号分为一个个的编码框再进行子带划分。我们一般以1152个采样信号为一个编码框（对单声道而言）每个采样为16位元。然后我们再对此编码框子带滤波。将其转换成32个子带信号。我们一次会对32个PCM信号做子带滤波，所以1152个需要36此子带分析。多重相位滤波器组的数学公式如下：

π*(2*i?1)*(n?16)Hi[n]?h[n]*cos[]64 ?????????.3.1

32个子带滤波器，所以(i=0-31)

我们输入的PCM流经过这一子带滤波器后得到如下结果

Pi[n]??x[n?m]*Hi[m]m?0511 (i=0-31)?????..3.2

那么下面我们讨论这多重相位滤波器组。Hi[n]可以看成是一个FIR滤波器组包含32个FIR。hi[n]是一个离散的sink函数。当然离散的sink 函数是一个从负无穷到正无穷的函数，对与这个我们在现实中无法实现，于是我们就对sink函数加窗让他变为有限序列。我们知道离散的 sink函数的频域是一个周期的窗口函数，我们对其在时域加窗以后其频域又会发生什么变化呢？我们后续就是要用sink函数频域为窗口的特性，因此我们希望在我们加窗以后sink函数的频域变化不大。以一般的窗口函数为例，其频域是一个sink函数。我们知道时域的

相乘为频域的卷积，因此频域也就为sink函数与窗口函数的卷积积分，其结果是使得原来频域的窗口函数在窗口的边沿变缓并且有一定的抖动，但其整体变化不大。因此我们可以用一个加过窗的sink 函数来代替原来的sink函数产生频域的窗口。

我们要分频就相当于在频域对其加窗从0-44.1K32个窗（如果是等分的每个窗口宽度为44.1/32.）也就是说我们在其频域从0-44.1K上放上32个等宽的窗

π*(2*i?1)*(n?16)cos[]64口函数对其加窗。的频谱是一个冲击函数，hi[n]是个离

散的有限sink函数，其频域是近似周期的窗口函数。两者时域的相乘为频域的卷积积分，所以得到窗口函数，并且i=0-31所以得到频域上的窗口函数。又由式3.2可知在时域上的卷积相当与在频域上的相乘，所以我们就得到了x[n]的32个频带信号。

5.7MDCT

MDCT主要作用是：1.通过长短窗口的使用来减小前回音2.进一步细分频带使得量化误差进一步减小。

MDCT包含4种窗框：长窗框，短窗框，长短窗框和短长窗框。这四种窗框，由于长窗框有较长的时间常数因此可以包含更多的采样值于是有更好的频普解析度。而短窗框具有较短的时间常数因此包含较少的采样值，这可以有效的减小前回音时间，有利与降低前回音。而长短窗框和短长窗框则是从短窗框到长窗框或长窗框到段窗框时的过度窗口。根据前文可知MDCT窗框选择是由PE值决定的，大的PE值表示信号在时域变化很快，需要用短窗框来减小前回音。而小的PE值说明信号在时域变化不大，我们用长窗框来保证其频普解析度进而减小量化失真。

下面是各个窗口的窗框系数z，我们可以看到长窗框每次是对36个采样值进行MDCT运算，而短窗口每次是对12个采样值进行运算。

MDCT运算公式如下：

Xi??zkcos[k?0n?1πn(2k?1?)(2i?1)]2n2 for i=0,1??.n/2-1??????3-14

对于这些公式的推导说明这里就不做分析了。MDCT运算既不是时域也非频域而是一种变换域编码。式3-14是一个正交的变换域矩阵，通过这一正交矩阵运算把原先32个子带滤波器组输出的32组频带信号再每个细分为18个子带，并且通过MDCT长短窗口的控制来减小前回音。频带的进一步细分一方面可以使得频域划分更细另一方面可以减小前面的32个多相滤波器组带来的频域的混叠。另外正交的MDCT矩阵的逆矩阵就是其转置所以这可以在DSP芯片做MDCT计算的时候很方便不会存在太大的负荷。

5.8量化编码

经过上面的子带滤波，MDCT变换我们就得到了32*18=576个频线的信号，然后我们在通过每个频线所分配到的位元数对他们进行量化。我们从上面的MP3

编码流程图（图3-1）可以看出来，MP3编码有2路并行工作。其中第一路是把音频信号做自带滤波和MDCT变换，第二路则是用于得出各个频线的位元分配。第二路现对PCM音频信号做FFT得到其频域的值，然后由第二心理声学模型通过频域的遮蔽效应和静音门限曲线得到各个频带在CD音效前提下不失真编码所需要的最少位元数。

非均匀量化。对于量化我们上面已经说过就是把模拟连续的量值离散话，也就是对于模拟的连续的量值分成一个个台阶的离散的值。那么非均匀量化意思就是量化台阶并不是均匀的固定的值。就像我们熟悉的μ率编码。MP3的非均匀量化公式如下式：

ix(i)?nint((xr(i)?2?40.75)?0.0946)stepsize??????3-15

其中ix(i)是输出的MDCT频线，nint()是四舍五入函数。Setpsize由SMR决定。下面是量化后普线和量化前的普线。从中我们可以看处次量化非线性的而是一个近似0.75次方的关系。在信号较小的时候量化台阶较小，信号交大的时候相应的量化台阶就变大了。这样的好处在与可以提高小信号的分辨率而不额外的增加量化位元数。

MP3经自带滤波，MDCT变换，量化后得到的已经是去除冗余，以及加上遮

蔽效应以后的最精简的2进制码了，但这还不是我们最终MP3的二进制码。因为MP3二进制编码还要最后一步即霍夫曼编码。其实质就是替代。我们可以使用一些较短的码来替代较长的码达到压缩的目的。其原理是首先扫描整个未编码的2进制码，然后算出各个码组出现的概率，最后制定树形结构表把出现概率比较高的码用较短的码代替，出现概率比较高的码用较长的码代替。如下图所示，通过此树形结构和对应的码表我们可以看出，s1与s2出现的概率最大因此其编码长度只有两位。而s7与s8出现的概率最小所以其编码长度是5位。

49符號 s1 s2 s3 s4 s5 s6 s7 s8 碼 00 10 011 111 110 0101 01000 01001

0s70410s12801211130190711s201s4s3s5s6s8对于MP3霍夫曼编码，会先把经过MDCT后的频线分为三个区域，一个为高频区为一段连续的0值，这一区间不需要编码，这一区域的长度只是总长度减去另外两个区域的长度即可。另外一个是count1区间，这一区间每个频线为一位编码位元，以四个频线为一组进行吧编码，所以有16中不同的编码组合，我们用两个霍夫曼表建立码值与霍夫曼值的对应关系，不同时刻count1区间各个码值出现的概率不同，我们也就是根据这个来找到2个霍夫曼表中最符合要求的。最后一个区域是big_value区域，在这一区域每个频带的编码值不止一位，我们以2个频带为单位对其编码。在这一区域中一共有32个霍夫曼表与之对应，我们根据不同时刻各个码值出现的概率来决定对应哪个霍夫曼表。最后通过各个频线对应霍夫曼表找到的霍夫曼值才是我们最终的MP3编码。

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读，免费范文网，提供经典小说综合文库音频的构架以及原理(7)在线全文阅读。

音频的构架以及原理(7).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

本文链接：https://www.77cn.com.cn/wenku/zonghe/488880.html（转载请注明文章来源）

上一篇：信息化安全管理制度
下一篇：人教版小学六年级上册语文期中测试题