微波EDA网,见证研发工程师的成长!
首页 > 通信和网络 > 通信网络业界新闻 > Facebook放大招:RNN让语言翻译快九倍

Facebook放大招:RNN让语言翻译快九倍

时间:05-06 来源:虎嗅网 点击:

的直接进行翻译。这个神经网络也会在翻译过程中不断的回头看句子,并选择接下来要翻译的词语。

这一点与人类在翻译过程中会经常回顾句中的关键词的行为非常类似,比如,首次回顾关注的是动词,那么第二次回顾时就会关注相关的助动词。

该系统的另一个重点是"门控"(Gating),它控制神经网络中的信息的具体流向,给它们指定最佳的处理单元,从而得到最好的翻译结果。打个比方,如果说神经网络会要做的是搜集所有已经完成的翻译结果,那么门控要做的就是进行精确地筛选,使它最适合当前的语境。

但是,也开始有越来越多的人担忧,经常使用机器去翻译某些常用的特定语言,会使得那些不常使用的语言被进一步边缘化。这就是为什么机器翻译有可能会加速濒危语言、甚至文化的消亡。

语言学家们举了一个通俗的例子,比如卫星电视服务,那些经常被电视台使用的语言会逐渐变得更流行更受欢迎,而不经常出现的语言则会渐渐被人们遗忘。

技术的进步会进一步加速小众语言、甚至文化的消亡?

Google、Facebook等科技巨头们正在研发的机器学习技术,将极大加快不同主流语种间的转换效率,这个已经没有疑问了,但它是否能成为保护小众语言的利器?

这是一个很有远见的设想,但问题是机器翻译依赖于大量被标记的数据。这些数据集是由人工翻译的各种语言的书籍、文章和网站组成。机器学习算法就像罗塞达石碑(石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容)一样,数据集越大,学习效果越好。

然而对于大多数语言来说,这种庞大的数据集根本不存在。这就是为什么目前机器翻译只能够翻译最常见的几种语言。例如,Google翻译只能处理90种语言。

因此语言学家面临的一个重要挑战就是需要找到一种方法,可以自动分析那些小众语言,以便让计算机更好地理解它们。

最近,德国慕尼黑大学的Ehsaneddin Asgari和Hinrich Schutze表示他们已经在这方面取得了关键性突破。他们展示的新方法揭示了几乎适用于任何语言的重要元素,这些元素可以很好地帮助机器翻译。

这个新技术是基于一个已被翻译成至少2000种不同语言的单一文本:《圣经》,语言学家早已认识到它的重要性。

因此,他们创建了一个名为"平行《圣经》语料库"的数据库,这其中包含了用1169种语言翻译的《新约》。然而这个数据集还不足以用于Google和其他商用机器翻译系统。所以,Asgari和Schutze提出了另一种方法:分析不同语言中,各种时态的表达方式。

大多数语言都会使用特定的单词或字母组合来表示时态。所以这个新方法的小技巧是利用人工去识别一些语言中时态出现的信号,然后采用数据挖掘来搜索其他语言,找到扮演相同角色的单词或字符串。

例如,在英文中,进行时是用"is"来表示,将来时态用"will",而过去时用"was"。当然这些词也有其他含义。

Asgari和Schutze的想法是在《圣经》的英文翻译中找到所有这些词,以及其他语言中相对应的例子。然后查找在其他语言中扮演相同角色的单词或字母串。例如,字母"-ed"在英语中也表示过去时态。

值得注意的是,Asgari和Schutze不是以英语作为一开始的基准。因为英语是一种比较古老的语言,有许多例外的情况,这会使得机器很难学习。

相反,他们从根据其他语言混合发展而成的克里奥尔语系(Creole Language)开始。因为这种语言出现得较晚,它还没有足够长的时间来发展出丰富的语言特质。这意味着它们通常包含更明显的语言特征标记,譬如时态。

两位德国学者表示:"我们的依据是,克里奥尔语比其他语言更为规范,因为这个语系很年轻,并没有积累那些容易让计算分析更复杂的‘历史包袱’。"

这其中之一是塞舌尔(Seychelles)克里奥尔语,它使用"ti"这个词来表示过去时。例如,"mon travay"是指"I work",而"mon ti travay"意味着"I worked","mon ti pe travay"意思是"I was working"。所以对于判断过去时来说,"ti"是一个很好的指示符列表。

Asgari和Schutze编译了10种其他语言的过去时态指示符列表,然后在"平行《圣经》语料库"中,把用于执行相同功能的其他语言的单词和字符串挖掘出来。对于现在进行时和一般将来时他们也采用了相同的方法。

实验的结果非常有趣,这项技术揭示了与一般常用语言有关的语言学结构,并创建一张关联图,显示使用相似时态结构的语言是如何联系的(如下图)。

Asgari和Schutze开发的机器学习算法可用来分析人们在超过1000种语言中使用过去、现在和未来时态的方式。这是

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top