青岛大学本科生毕业论文(设计)
语音编码技术的进展对通信新业务的发展有极为明显的影响,例如IP电话业务、实时长途翻译业务、交换机的人工智能接口等。因此,国际电报电话咨询委员会(CCITT)第15组提出了许多急需制订的话音编码标准建议,以推动通信网的发展。由于VLDSI的发展,实现这一技术的代价已从在昂贵的信道中采用,发展到一般信道中都可接受的水平,因此,编码技术日益受到重视。当前,数字移动通信和个人通信(PCN)是深受人们重视的通信手段,其重要问题之一是压缩语音编码速率,形成面向对象的语音编码技术。
数字语音编码技术从1938年提出PCM开始,其编码方法已有了很大的发展,如1968年提出的线性预测编码技术(LPC)、20世纪70年代末出现的隐马尔科夫技术(HMM)以及矢量量化(VQ)等。 4、口语机器翻译受到重视
口语翻译的一个重要目的就是帮助聋哑人与正常人交流,近来越来越受到人们的重视。首先,聋哑人要戴上一副特制的手套,计算机根据他打出的手语进行识别,然后,通过语音合成系统就可以把图像信息翻译成语言信息。同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,只要将正常人说的话键入计算机,经程序分析处理之后,翻译成有表情、有动作的三维图像,从而最终达到聋哑人与正常人之间通过翻译机进行交流的目的。口语翻译的研究在其他很多方面都有重要价值,如用手势控制计算机,甚至用手势导航等。
1.3 语音识别技术的发展
1、神经网络用于训练韵律模型
由于人工神经网络具备良好的自学习和自适应能力,将其应用于语音合成系统中的韵律模型研究具有很重要的意义。将神经网络模型与已有的文语转换系统有机结合,可以改变传统的文语转换系统的韵律模型,具有更强的适应性和可训练性,使合成语音的自然度得到显著提高,增加了系统的灵活性和风格的多样性。 2、数据挖掘用于发现语音知识
数据挖掘作为一种在大量数据库中发现隐藏新知识的计算技术方法,通过语音定性模型的建立,将数据分析和挖掘结果转化为逻辑规则或用可视化的形式进行表达。因此,将数据挖掘和人机交互接口紧密地联系在一起,将对计算机语音信号处理的研究工作产生巨大的推动力,为语音信号处理提供了一条崭新的研究途径。 3、文本-可视语音转换系统研制成功
文本-可视语音转换技术的出现是多媒体技术迅速发展的产物 也迎合了社会发展的需求。它给人们的生活增添了新的色彩,使计算机更加人性化,人们与计算机的交流变得更为简单。相信在不久的将来,它会在众多的技术、商业和娱乐领域得到广泛的应用,并逐步进入我们每个人的生活。
6
青岛大学本科生毕业论文(设计)
1.4 语音识别技术的研究方向
1、连续自然语音的识别与理解
自然语音识别与理解研究的是计算机如何理解人类的语言 其目的就是让计算机能够理解人说的话,当我们使用计算机时,要告诉它应该做什么,它就能按照所理解的去执行。虽然现在自然语音识别与理解的理论研究得到了进一步完善,同时,计算机的功能、容量和速度都有了很大的提高,但研究仍局限在对孤立音节的识别与理解上。人类流畅的自然发音不是孤立音节发音的简单组合,它是在一定时间范围内输出的一种连续语流,因此,需要对连续语音进行处理。连续语音识别与理解技术中需要解决的难点很多,对它的研究是语音技术今后的目标之一。
2、高自然度、具有表现力的合成语音
提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组级上,合成语音的可懂度和自然度已基本解决,但是对于句子乃至篇章级,其自然度问题就比较大。未来的文语转换系统的发展趋势是采用基于语境相关的合成思想进行设计,能够将发音人的原始发音特征最大限度地保留下来,辅助以先进的层次化语言韵律模型,通过分散统计的模型方法来涵盖语义语音之间的内在联系,使系统能够输出具有高自然度和表现力的合成语音。但是,在目前的合成系统中,普遍存在合成输出语音的机器味比较浓、语境的知识层次模型研究不完善等问题。因此,获得高自然度、具有表现力的合成语音,也是今后语音技术的研究目标之一 。 3、语音技术与多媒体技术的结合
伴随着现代语音技术的不断发展,人类对语音信号的需要已经不仅仅停留在可懂性和正确性上,语音合成技术的研究方向已是合成语音的美感并同时输出辅助的视频特征,实现虚拟主持人的效果,通过将视觉效果包括人的头部建模、唇形同步技术和表情因素等视频信息的加入,可以更好地体现语音合成系统的表现力和感染力。因此,我们完全有理由相信,语音技术和多媒体技术的有机结合将使合成系统展现出广阔的应用前景。 4、语音技术与网络技术的结合
目前,语音技术已逐渐应用于电信的声讯信息服务领域和互联网消息收发方面。随着电话网与互联网的融合、网络信息项目的增多和时效性要求逐步提高,建立适合于股票交易、航班动态查询、电话自动报税等业务的语音系统成为可能,电话用户可以通过传统的语音、传真获取互联网上无穷无尽的信息。这些业务将彻底解决传统数字录音回放技术所无法解决的海量信息库和动态变化信息的实时生成与存储的难题。因此,将语音技术与网络进行完美的结合具有强大的生命力。 5、多语种
语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,因此,多语种的文语合成有着独特的应用价值。例如,
7
青岛大学本科生毕业论文(设计)
在自动电话翻译、有声电子邮件等应用中都提出了多语种语音合成的需求,即使是对汉语合成也有多方言文语转换问题。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是与某种语言密切相关的,因此很难推广到其他语种。如汉语和西方语言之间存在着很大的差异,而目前国内的系统都是做汉语文语转换的 其韵律控制规则完全不适合于英语,而且它们主要是合成汉语普通话的,即使推广到广东话和上海话都有相当的难度。
可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路,因此,研制多语种语音合成转换系统具有重要的理论和现实意义。
8
青岛大学本科生毕业论文(设计)
第二章 主要研究内容和方法
2.1 语音识别的研究内容
语音识别技术是利用计算机对语音进行特征提取,获取最能表征语音特征的有用信息,根据这些信息来对语音所代表的内容或说话人身份判断的技术。因此需要对语音波形的幅值、频率等特点进行研究,我们把语音识别的研究内容大致可以分为语音提取、特征提取、语音识别、内容分析、内容匹配。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
2.2 语音识别系统的分类
语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
如果从说话的方式考虑,也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇
9
青岛大学本科生毕业论文(设计)
量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。
2.3 语音识别的研究方法
根据语音识别技术的发展历史,语音识别方法大致可分为基于说话人的语音识别方法、基于说话内容的语音识别方法、基于统计的语音识别方法和基于网络的语音识别方法。
目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成:
信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。 解码器,解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。 从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入信号或特征序列,符号集(词典),求解符号串使得:
W = argmaxP(W | O) 通过贝叶斯公式,上式可以改写为:
由于对于确定的输入串O,P(O)是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用下面的公式来表示,可以将它称为语音识别的基本公式。
从这个角度来看,信号处理模块提供了对输入信号的预处理,也就是说,提供了从采集的语音信号(记为S)到 特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P(O | uk)的方法。
为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便,也可以定义一个由到U的全集的笛卡尔积,而发音词典则是这个笛卡尔积的一个子集。并且有:
最后,语言模型则提供了P(W)。这样,基本公式就可以更加具体的写成:
对于解码器来所,就是要在由ui以及时间标度t张成的搜索空间中,找到上式所指明的W。
10
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库语音识别论文(3)在线全文阅读。
相关推荐: