日前,百度在机器翻译技术上取得重大突破,发布了融合统计和深度学习方法的在线翻译系统。该系统借助海量计算机模拟的神经元,模仿人脑“理解语言,生成译文”,同时结合百度已有的统计机器翻译技术,使得机器翻译质量实现了质的飞跃。百度,再一次站到互联网前沿技术的领先位置。
机器翻译一直被公认为是人工智能领域最难的课题之一。让机器理解语言,进而实现不同语言之间的翻译,不仅仅是几代科学家们孜孜追求的技术梦想,也寄托着普罗大众对自由沟通交流的美好愿望。
机器翻译技术的发展一直与计算机技术的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。
此次百度发布的基于深度学习的在线翻译系统,实现了类似人脑的“理解语言,生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅,更加符合语法规范,容易理解。相比之前的翻译技术,质量有“跃进式”的提升。
基于深度学习的翻译系统的核心是一个拥有无数结点(神经元)的深度神经网络。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。有趣的是,这个庞大的系统在刚刚构建完成之后像刚出生的婴儿一样,不懂任何事情。它通过学习大量双语互译对照的句子,逐渐提升翻译水平。百度利用自身得天独厚的庞大网页库资源,挖掘了海量的双语句对,作为系统的“学习教材”。由于深度神经网络结构极其复杂,整个学习过程非常耗时,需要持续很长时间。百度机器翻译团队经过技术攻坚,使得翻译系统的学习效率提高了十几倍,大大缩短了学习时间。“教材”的数量如果按照字数换算成《大英百科全书》,翻译系统在一周内学习的内容相当于千万部《大英百科全书》。
一直以来,百度在机器翻译领域坚持技术创新,不断提升翻译质量和系统性能,致力于大规模互联网应用,为广大用户提供高质量、方便快捷的翻译服务。依托海量的互联网资源和自然语言处理技术的优势,百度研发出高质量翻译知识获取技术,突破了传统方法在翻译知识获取方面规模小、成本高的瓶颈;基于互联网大数据的多策略翻译模型,能够实时响应用户复杂多样的包括网络新词、科技文献、电子商务、古文、粤语等多领域、多文体的翻译需求;基于枢轴语言的翻译方法,使得资源有限的小语种翻译成为可能。百度在机器翻译核心技术上的创新和突破,不仅使普通用户受益,享受到方便快捷、高质量的互联网翻译服务,也得到学术界和政府的认可。由百度牵头,联合国内顶尖学术机构中科院自动化所、浙江大学、哈尔滨工业大学、中科院计算所、清华大学共同研发的“基于大数据的互联网机器翻译核心技术及产业化”项目获得了中国电子学会科技进步一等奖。
技术的创新要以喜闻乐见的形式普惠到每一个有需求的用户,这是互联网的精髓。百度机器翻译团队一直秉承让所有人平等便捷地获取信息、找到所求的使命,致力于消除用户跨语言沟通交流的障碍。结合百度领先的图像识别、语音识别等技术,“百度翻译”APP为用户打造了一个全方位的随身翻译官。这位“翻译官”不仅可以帮助用户实时地与外国人进行面对面交流,根据用户所处场景,智能推送实用口语例句,还可以通过摄像头拍照对菜单、车站站牌等进行翻译,解决用户在海外学习和旅行时的语言难题。
百度发布基于深度学习的在线翻译系统,让我们看到解决机器翻译这一人工智能经典难题的真正希望。也许不久的将来,世界各地的人们都能够自由交流,在全球范围内获取资讯和服务。即使使用不同的语言,人们也可以交流想法和观念,传承思想和文化。毕竟,语言是保存和传递人类文明的成果最重要的工具之一。