卡内基美隆大学研发,超越 Google 神经网路的翻译法!

2020-06-21|浏览量:289|点赞:147

卡内基美隆大学研发,超越 Google 神经网路的翻译法!

机器翻译发展惊人,但是地球上还是有数以亿计的人无法享受它的好处——因为他们的语言在翻译器的下拉菜单中根本找不到。

现在,两个新的人工智慧(AI)系统—— 一个来自西班牙的 delPaísVasco 大学(UPV),另一个来自 卡内基梅隆大学(Carnegie Mellon University,CMU)——承诺会改变这一切,为像《星舰迷航记》(Star Trek)中那样的真正的宇宙通用翻译机(universal translator)的到来打开大门。

Google:平行文本比对,翻译品质会越来越好

要了解这些新系统的潜力,首先要了解当前的机器翻译是如何工作的。 目前机器翻译的事实标竿是 Google 翻译,这个系统涵盖了从南非语到祖鲁语的 103 种语言,包括世界上前 10 种语言—— 顺序 为汉语,西班牙语,英语,印度语,孟加拉语,葡萄牙语,俄语,日语,德语, 和爪哇语。

Google 的系统使用人类监督的神经网路,比较平行文本——以前由人类翻译过的书籍和文章。 通过比较这些平行文本中的大量数据,Google 翻译可以学习任意两种指定语言之间的对等关係,从而获得在它们之间快速转换的能力。

有时候翻译结果会很有趣,可能并不能真正反映原文的意思,但总体来说,这些翻译是功能性的,随着时间的推移,他们会越来越好。

Google 翻译并非全球适用

Google 的做法很好,而且很有效。但不幸的是,它并不是全球通用。

这是因为有监督的培训需要很长的时间以及很多监督人员——因为太多了,Google 使用了众包——也因为并非世界所有语言之间都有足够多的并行翻译文本。

想想看: 根据世界语言民族学目录 ,地球上有 6,909 种生活语言。其中 414 种的使用人数占人类总数的 94%。由于 Google 翻译涵盖了 103 个,因此会留下 6,806 种语言没有机器翻译——其中有 311 种语言的使用人数超过百万。

综合以上结论 ,至少有八亿人不能享受机器自动翻译的好处。

全新 AI 系统:免文本、免监督,自动找出语言结构

这两个新的系统——可以在任何语言之间翻译单词和句子——无需通过比较大量由人类翻译的平行文本来学习。他们也不需要监督。 相反,他们使用未监督的机器学习,并比较不同语言的随机文本。

这是如何运作的?由于语言的词语分类是相似的,所以系统猜测这些词是否相等,用这些讯息构建翻译词典。他们从中找出句子结构,通过在不同的语言之间来回翻译来评估他们猜测的结果。

正如 UPV 的研究员 Mikel Artetxe 所描述的那样 :「想像一下,你给了一个人很多的中文书籍和阿拉伯语书籍——这些书都不重叠——然后这个人必须学会把中文翻译成阿拉伯语。 这似乎是不可能的,对吧?」

事实上,这看起来实在太不可能了,以至于微软人工智慧专家 Di He(这两个研究项目的启发者)告诉 《科学》杂誌 ,他得知「即使没有人工监控,电脑也可以学习翻译」的时候,整个人都震惊了。

要先说的是,这个系统并不像目前的平行文本深度学习系统那幺精确——但是正如 Di He 指出的那样,电脑能够在没有任何人类指导的情况下猜测所有这些事实(未知语言的代表意义),这一事实本身就很不可思议。

我们只是接触到了这种新的学习方法的表面。看起来,可能很快就有一个真正的通用翻译,让我们能够与任何人用对方的母语交谈,这将不再仅仅是科幻的东西。

除了 AI 翻译之外,你应该也会感兴趣的文章

Facebook 翻译术神跃进,世界沟通无碍日近了?
Google 翻译人工智慧大跃进,全世界语言统一的日子近了?
色情网站用机器学习,一秒辨认女优、体位!
不会写程式也能做「机器学习」专案:Google 新开源项目,让你用浏览器就能成为 AI 工程师!

上一篇: 下一篇:

相关推荐