微波EDA网,见证研发工程师的成长!
首页 > 通信和网络 > 通信网络技术文库 > 智能通信终端的关键技术研究

智能通信终端的关键技术研究

时间:09-19 来源:互联网 点击:
顾名思义,智能通信终端是指具有智能特征的通信终端,其根本特点应是具有视、听、说、理解和自学习、推理的能力,表现在具有拟人化的人机接口和友好的操作界面,应用语音识别和合成、文字识别、自然语言理解等语音及语言处理关键技术。

1 智能语音接口技术

智能接口,也称人机接口,是在智能通信终端上建立的一种拟人化的人机交互环境。智能接口技术除涉及人工智能和计算机科学外,与信号处理、电子技术、语言学、认知科学,乃至现代心理学、神经生理学等都有密切的关系。目前,在该领域中的主要研究课题有多媒体与虚拟现实、语音识别和合成、文字识别、计算机视觉和图像识别、自然语言处理、自动摘要及机器翻译等。由于语音是人类最自然的通信手段,人们的信息交互有60%是通过语音通信来完成的,因此目前通信终端的主体也基于语音通信。

1.1 语音识别

语音识别是对智能通信终端最具影响的技术之一。由于早期的语音识别是采用“模板法”来实现的,而这种基于模板匹配的语音识别,只能满足小词汇量、特定人、非连续语音识别的需求,无法提供人们对大词汇量、非特定人、连续语音识别的需要。智能通信的需求反过来又对语音识别技术提出了更高的要求。

①电话语音识别 在高速数据信道和便携数据终端普及前,我们最先利用的仍是传统语音电话信道和一般意义上的电话终端,这就意味着需要识别经过整个电话信道而产生了某种畸变的语音信号。打电话时用户可能会处于各种嘈杂的环境,因此噪声背景下的语音识别也是要解决的问题。电话语音识别具有最迫切的市场需求,目前已成为国内外研究和开发的重点。

②语音识别的鲁棒性 各种噪声,特别是移动电话所产生的编码和信道噪声,是识别原始语音信号的一大干扰,且此类干扰随机发生。因此,需要一种能对各种环境、信道噪声进行过滤或在识别过程中加以纠正的技术。针对我国用户群随机的情况,需要建立普适度更高的模型或对不同口音自动适应,使系统具有较强的鲁棒性。

③口语语音识别 当电话语音识别技术用于实现电话查询、自动接线及专门业务(旅游信息服务等)操作时,会出现许多不符合语法的情况,产生冗余信息,这给语音识别带来大的挑战。

④多语种语音识别 网络时代必然会涉及多种语言,例如语音识别用于大都市电话查询服务时,用户可能使用汉语普通话、广东话,或者英语进行查询,这就要求识别系统有多语种识别的能力。

⑤分布式语音识别 分布式语音识别是在客户终端上做语音信号参数提取工作,而仅将参数传送到服务器端作进一步识别。不仅解决了信道噪声和现有编写终端计算存储能力的问题,还具有占用带宽窄、综合成本低等优点,但其前提是提取的参数必须标准化。随着个人、移动通信的需要,通信终端日趋小型化,各种掌上设备正进入人们的生活,如手机、商务通、个人助理等。用语音方式是解决输入/出及各种操作问题的最理想手段。

1.2 语音合成

语音合成技术是使电脑或通信终端具有类似于人一样的说话能力,是当今时代信息产业的重要研究领域。和语音识别相比,语音合成技术更成熟一些,是最有希望首先在智能通信终端中得到普遍应用并形成带动作用的一项关键技术。目前,语音合成有高自然度、芯片级、多语种、分步式和口语式的语音合成等发展方向。按照智能化程度的不同层次,语音合成可分为三个层次:从文字到语音;概念到语音;意向到语音的合成。为合成出高质量的语音,除依赖于各种规则,还必须对文字内容进行很好的理解。文字/语音的转换系统。

(1)文本分析

文本分析旨在确定文本中哪些是词、短语或句子;每个字应如何发音,一般由文本预处理、分词、韵律分析等环节组成。

此外,随着机器学习和数据发掘技术的发展,出现了基于数据驱动技术的文本分析方法。例如采用决策树或神经网络方法,从大量的数据中通过训练生成韵律模型。

(2)语音合成器

目前,最流行的语音合成器是采用基音同步的重叠相加(PSOLA)方法来实现波形拼接(这里指的基音或基频是语音韵律特征中的音高或声调的物理表现参数,基频曲线变化直接导致声调变化)。PSOLA算法的基本思想是以语音信号基音周期为分析对象,在基音同步基础上对信号声调和时长进行修改。

然而通过信号处理的方法调整韵律特性,终究会对音色有一定的损伤。即使是PSOLA算法,当韵律修正的范围变大时,音色也会有明显下降。基于“听感量化”波形拼接方法,其出发点就是语音合成时尽量减少动用合成器来调整韵律参数。由于“听感量化”单元从原始发音中直接截取,避免了用语音合成器调整参数时对音质的损害,保证了合成系统具有接近自然发音的音质,其自然度达到用户可接受的程度。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top