微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 语音合成芯片探析

语音合成芯片探析

时间:07-04 来源:EDN 点击:
语音合成芯片就是将完整的语音合成系统固化集成到芯片内部,通过简单的接口接收待合成的文本信息,将文本合成为清晰流畅的语音输出,完成机器代替人说话传达信息的过程,语音芯片应用简单,开发和使用成本低,在车载调度、气象预警、公交报站等领域被广泛应用。

语音合成芯片最大的功能应用点在于用户需要播报一些大量、动态文本信息时,可以即时、方便的将文本信息内容合成为语音输出,从而解决传统录音芯片无法解决的大容量、动态文本信息播报问题。

目前,市场上语音合成芯片价位从几十元到几百元的都有,另外芯片外形、产品封装形式、调用接口等纷繁复杂,让用户在选择语音合成芯片时经常陷入迷惑状态。那么如何正确分辨、选用一款高性能语音合成芯片?语音合成芯片重点需要考核哪些性能指标?以下参数将成为用户重点评估方向:

1. 语音合成效果。

语音合成芯片的应用目的是以语言的方式传达文本信息,机器说话是否标准,人能否听懂听舒服自然成为最最重要的衡量指标。语音芯片的朗读效果主要由两个重要技术指标决定:可懂度和自然度。可懂度就是人们能够听懂机器合成出来的内容,是语音合成芯片能否应用的基本要求;自然度则是机
器发音效果是否易于理解,听着舒服,与正常人说话的差距。国家863专家组对语音合成效果的自然度综合评测有详细说明,规定采用5分制打分,达到可接受阶段为3.0分,普通人说话水平为4.0分,播音员的水平为5.0分。可懂度是衡量语音合成产品是否可用的标准,自然度则是评价产品是否可以大规模应用,以及应用于高端领域的重要指标。

2. 能否识别常见的特殊格式文本。

为了满足不同文本的合成需求,语音合成芯片除了能够自动识别常见文本内容外,在一些特殊格式文本方面,如时间、日期、网站名称等格式的文本,也要能够智能判读。"12:10:35"读成"十二点十分三十五秒","2008-1-1"读成"二零零八年一月十三号","http://www.abc.com"读成"h-t-t-p w-w-w点a-b-c点c–o- m"。

3. 能否识别常见的特殊符号、单位符号。

对于一些特殊符号及单位符号等,语音合成芯片也需要能够正确识别并合成出来,如:"-2℃"读成"零下2摄氏度",其他的30%,a&b,¥80,20㎝,75㎏,90㎡等都能够人们按照阅读习惯进行读出。

4. 能否判读常见多音字。

多音字作为汉字中常见的发音重点和难点,是各家语音公司关注的焦点,特别是中文语音合成芯片,在这方面更需要优异的表现。如:音乐,银行,特长,即将,股市行情,调整,校正,灾难,没收,长三角,西藏,济南,重庆,成都等等,多音字能否正确判读直接影响合成信息的可懂度,信息受众者的理解,所以必须准确朗读。

5. 能否支持多种汉字编码支持。

多种汉字编码支持目前也已成为考核语音合成芯片性能的重点,这点在方便终端用户使用方面以及支持汉字识别范围方面均非常重要。目前常用的汉字编码格式有GB2312, Unicode,GBK,BIG5等。

6. 能否支持数字的读法。

生活离不开数字,数字串的正确识别合成输出,在众多应用领域成为普遍性关注点,合成文本中会经常出现类似如:"请拨打12345"、"电话:12345""热线:12345" "我的号码:12345"等内容,一款高性能语音合成芯片能够智能判断把数字串读成数值、还是号码。如"12345"会自动按照号码的读成"一二三四五"。"139-11661189"自动按照号码读成"幺三九幺幺六六幺幺八九"。而"12345公斤"会自动读成"一万二千三百四十五公斤", "345678个"会读成"三十四万五千六百七十八个"等等。

7. 能否支持合成参数设置。

参数合成设置主要是为了方便使用语音芯片进行二次开发的用户来进行设置、调试、修正文本合成效果。语音合成芯片应该能够支持多种标记功能,可以按照需要进行标记。使用多种标记进行设置更为直观方便、易维护。例如:设置音量,只要使用合成命令帧发送[v9],就可把音量设置9级音量。

8. 用户使用接口简单、易用。

以上是从语音合成芯片效果及语音合成芯片内核等方面来评估语音合成芯片的性能,其实,在实际选用一款好的语音合成芯片的时候,用户还需要注意芯片硬件方面的参数,如:是否单芯片,体积大小,能够大批量贴片焊接生产?以及功耗,工作温度等等方面。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top