美国西部时间 12 月 13 日,微软发布了可支持多人多语言沟通的 Microsoft Translator 现场翻译功能(Live Feature)。通过 Microsoft Translator 现场翻译功能,用户可借助个人已联网的智能设备(智能手机、平板电脑和个人计算机等)实现多人、多语言、跨设备且面对面交谈的现场翻译。这一创新技术将不仅让人类进一步接近彻底打破语言障碍的终极目标,而且距离逼死高薪同传工作者的日子也又进了一步。

Microsoft Translator 现场翻译功能提供了丰富多样的使用场景,解决了用户在面对面时由于语言不通而导致的交流不畅。例如,帮助身处异国的旅行者更方便地与酒店前台、出租车司机和博物馆导游等进行交流。该功能不仅适用于一对一交谈(例如旅行者向酒店前台问询),还可以支持一对多互动(例如一名导游与一群游客交谈)以及多对多沟通(例如多语言的商务会议和学术讨论)。每个人只需在各自的智能设备上打开 Microsoft Translator 应用程序,扫描二维码并进入聊天界面,即可开始交流。

James Simmonds-Read 在伦敦的儿童福利会工作,他的工作是向移民和难民提供帮助,而他工作对象中的大多是贩卖人口罪行的年轻受害者。对于 James Simmonds-Read 而言,克服语言障碍是至关重要的。

「他们都是来寻求避难的,其中相当多数人都面临语言障碍,」他说。「我们不得不频繁借助翻译。」然而,人工翻译的介入又带来了额外的挑战,因为它意味着这些年轻人必须面对第三方译员说出一些敏感信息。

最近,儿童福利会找到了一个更好的解决方案。他们开始使用 Microsoft Translator 的现场翻译功能(Live Feature),可借助已联网的智能手机、平板电脑和个人计算机等设备为多人、多语言、面对面交谈提供现场翻译。

Simmonds-Read 说,这项技术让他不再需要第三方译员就可以与儿童福利会所服务的年轻人直接沟通。

人工智能是「主谋」

根据微软提供的资料,Microsoft Translator 凝聚了微软研究院 20 多年在自然语言处理领域的研究成果,汇集了机器学习(特别是深度学习人工智能)、大数据、 语言学、云计算等多种前沿技术。目前,Microsoft Translator 支持包括中文普通话在内的 9 种语言的语音输入,近 60 种语言的文字翻译。全球已有数千家企业在使用微软自动翻译技术,以提高业务效率和服务质量。

这一功能以 Microsoft Translator 语音翻译技术为基础,该技术已先用于 Skype Translator,后者让使用不同语言的人群能在网上进行实时交流。

「Skype Translator 能让被地区和语言阻隔的人顺畅交流,「但它不能满足面对面交谈的需求,」微软人工智能及微软研究事业部机器翻译组研究经理 Arul Menezes 说。他和他的同事们都认为,面对面跨语种交流所要用到的技术,应该更接近于《星际迷航》和其他科幻作品中随处可见的「通用翻译器」。

对于「个人通用翻译器」,团队决定利用业已广泛采用的移动设备,而不再开发专用的翻译硬件。Microsoft Translator 团队项目经理 Tanvi Surti 说:「眼下,智能手机随处可见,几乎人手一只。」Surti 负责领导 Microsoft Translator 现场翻译功能的开发。

该团队开发了一项技术,让现有的 Microsoft Translator 手机应用与网站形成了一个整体。「我们花了很多时间思考用户体验设计,」Surti 说。「比如我们俩说着两种不同的语言,我们如何做到快速对接以便有更多的时间和注意力用于考虑交谈内容?」

新功能使用起来非常简单。首先,用户通过手机端应用或网站登录这项服务,选择自己的语言并发起新会话。这一过程将生成一个代码以及一个二维码,其他参与者可以输入这代码或扫描二维码加入,然后选择自己的语言,谈话就可以开始了。

交谈一方在发言时要按下键盘空格键或屏幕上的虚拟按钮,就像使用对讲机一样。几秒钟后,他们所说话语的翻译文本就出现在其他对话参与者的设备屏幕上,当然是以其各自的母语呈现。对于部分语言,系统还提供有声的语音翻译。

深层神经网络

机器翻译技术本身是由运行在云中的算法所驱动的,通过使用基于深层神经网络的翻译技术,与先前所谓的「统计型机器翻译」相比,它能够提供更流畅、听起来更有「人味」的翻译。

两种方法都涉及根据早前经专业人士翻译的文档文本数据对算法进行训练,以便让系统了解一种语言中的单词和短语如何用另一种语言来表达。然而,统计型方法局限在由一两个邻近词语形成的上下文范围内对某个单词进行翻译,这可能会导致翻译出来的语句笨拙而迂回。

「神经网络」受到了掌握多门语言的人类在翻译过程中大脑中发生的模式识别过程的启发,实现了更自然的语音翻译。

例如,在非神经世界中,「一群猫」和「一只猫」被视为不同的实体;而人类大脑以及神经网络则把这两者视为密切相关的词。神经网络也可以解析「住宿」和「星宿」两个词中「宿」字的含义区别。Menezes 解释说:「单词已经不再被视为它所代表的事物,而是一个包含 500 个维度的向量,其本质是 500 组数字,而每一个数字都反映了这个单词的某一个方面。」

神经网络在开始翻译之前,首先用 1000 个维度的向量对每个单词在整个句子语境下的含义进行建模,无论这句话有 5 个词还是 20 个词都是这样处理的。这一包含 1000 个维度的模型(而非单词)随后被翻译成另一种语言。

此外,Fontana 表示,随着该技术被使用的次数越多,翻译的质量也会不断提高。他希望看到 Microsoft Translator 能被包括旅行者、导游、教师和社会工作者在内的广泛的用户群体所采用。

在儿童福利会供职的 Simmonds-Read 说,他已经可以预见到这项技术的多种用途,包括陪同非英语移民和难民一道参加与政府官员和潜在雇主的会面等。

「人们在不能沟通的时候几乎是被隔绝的,」他说。

支持多人、多语言、跨设备的 Microsoft Translator 现场翻译功能已通过现有的 Windows, iOS 和 Android 版本 Microsoft Translator 应用程序更新发布。