推荐序
机器翻译:科学vs.技术
老友钱跃良嘱我为其同事熊德意新作写个序,按说我不从事这个领域的研究,并不合适。但是,出于两个原因,我还是接受了:一是新世纪初,我刚进入国家“863 计划”计算机主题专家组时的首个任务,就是担任人机接口专题的责任专家,曾在较长时间内和机器翻译领域的学者频繁交流,算是学习了该领域的一些基本知识;二是当前正处于人工智能的热潮中,而自然语言处理被誉为人工智能“皇冠上的明珠”,机器翻译则是自然语言处理领域极具挑战性的研究方向,我也想从计算机学科这个大同行的视角谈一些认识和思考。
使用自然语言进行交流是人类区别于动物的重要标志。随着智人走出非洲,在漫长的“全球化”进程中诞生了无数种语言。农业革命后,人类开启了现代意义的全球化。工业革命后,全球化更是明显加速,其中需要解决的难题之一就是语言交流障碍!解决途径无外乎二,一是靠时间、靠融合,在这个过程中,很多语言退出了历史舞台;二是靠语言翻译,长期以来依赖掌握“双语”或“多语”的人才。
能否用机器来实现语言间的自动翻译?我没有去查文献做详细的调研,但我相信一定有不少古人产生过这种“梦想”,在早期的科幻小说中也出现过这种“机器”。20 世纪初,有科学家开始了这种研究尝试,但直到计算机诞生,才使得利用机器进行语言自动翻译的想法具备了现实可行性。从1949 年机器翻译思想的正式提出,迄今已七十余年,众多学者在此领域做出了艰辛的探索,机器翻译经历了一条曲折的螺旋式上升的发展道路。从早期的过分乐观、过度承诺,到20 世纪60 年代中期开始的10 年遇冷;从20 世纪70 年代中期研究的恢复及其成果的成功商用,到20 世纪80 年代末统计机器翻译方法的兴起;再到新世纪深度学习方法带来的翻译质量的大幅跃升及随后的“井喷式”发展,这实际上也是观察人工智能几度兴衰的一个视角。可喜的是,“热度”在变,方法在变,但梦想未变;需忧的是,跟风仍在,“过度”仍在,应避免“极化”!
机器翻译是一个多学科交叉领域,面临的既有技术问题,也有科学问题,一方面需要依赖语言学、认知科学等学科关于语言表示、理解与生成的科学发现和科学理论,另一方面也需要在技术和工程上设计和实现高效的机器模型、算法及系统。规律和原理的发现是技术突破的基础,在追求技术突破和规模化发展的同时,不能忘记探究其后的科学问题,二者的平衡才是学科健康发展的前提。
机器翻译在70 多年的发展过程中,形成了两大技术途径:基于规则的方法和基于数据的方法,也称规则驱动和数据驱动。规则驱动方法偏重于语言的抽象表示、语言学理论、知识表示等原理性探索,分别出现了提供自然语言抽象表示的中间语言途径、语言学理论指导的基于转换的途径,以及基于语义和知识的途径等。数据驱动方法则依赖语料库和计算力,发展出基于实例的机器翻译、统计机器翻译,以及现在的神经机器翻译等模式。统计机器翻译从早期的不被认可,到随计算力的不断提高及平行语料规模的不断增长,逐步成为机器翻译的主要模式。最近10 年,深度学习技术提升了机器翻译模型从数据中获取知识的能力,深度学习驱动的神经机器翻译也因此成为新一代主流机器翻译技术,其生成的译文质量与人工译文质量之间的距离不断缩小,应用场景和范围不断扩大,如在线机器翻译,已成为人们在互联网上交流不可或缺的工具。
深度学习方法的显著成效带来了新一轮人工智能热潮,热潮中更多呈现的是现有方法的应用。不可回避的是,深度学习模型的强表达能力及高计算特性,使得包括机器翻译在内的很多人工智能领域的研究在科学与技术、理性主义与经验主义之间出现了向技术、经验主义一端“极化”的态势。然而,我们也都认识到,当前的深度学习技术本身存在着诸多问题,如不可解释、鲁棒性差、耗能高等,人工智能的未来发展应该是何走向?我以为,还是应该保持开放的思维,保持研究探索的多样性。规则驱动是否可能随认知科学、语言学等相关学科研究的深入再次螺旋回归?数据驱动结合规则驱动是否能体现“科学”和“技术”的平衡?类脑途径能否成为实现人工智能的通用模式?如此等等。作为非该领域专家,我不敢妄言,只是从科研的基本规律出发,谈自己的期望。
本书介绍的是当前的主流——神经机器翻译技术。全书按两条主线组织,内容主线分四篇,覆盖神经机器翻译的基础知识、神经网络模型原理、引擎实现和部署以及若干前沿研究主题,理论和实践相结合;短评主线交织穿插于内容主线网络中,将相关内容与更广泛的主题关联,如机器翻译的发展历史、自然语言处理研究范式、软件开源、数据驱动、技术创新、实验可复现性、人工智能伦理等。可贵的是,书中的某些短评探讨了被机器翻译技术快速发展掩盖的机器翻译背后的科学问题,并呼吁机器翻译研究需在科学与技术间再平衡;在技术创新发展的同时,机器翻译研究需与其他学科交叉融合,使得相关科学理论可以支撑机器翻译未来更大的发展和突破。同时,作者也从科学研究范式的本源上深入思考了机器翻译的未来。
本书作者熊德意等长期从事机器翻译领域的研究工作,熟悉统计机器翻译和神经机器翻译技术,书中不少思想和观点来源于作者长期的研究、观察、实践及思考。
本书可作为计算机科学及相关专业,对自然语言处理和机器翻译感兴趣的高年级本科生和研究生的学习教材,也可供自然语言处理、机器翻译领域的研究人员和工程技术人员参考。希望读者通过阅读本书,能够了解自然语言处理、机器翻译技术的发展和现状,并对其中乃至人工智能中的科学问题有更深入的思考。
是为序。
梅宏
中国计算机学会理事长
壬寅孟春于北京
前言
本书对神经机器翻译技术进行了全面梳理和系统探讨,按内容分为基础篇、原理篇、实践篇及进阶篇,合计20 章。
61 基础篇:从机器翻译历史发展角度阐述了神经机器翻译的诞生过程,探讨了神经机器翻译与上一代机器翻译技术——统计机器翻译的关系,并进行了多维度对比,系统介绍了与神经机器翻译相关的神经网络、自然语言处理基础知识。
61 原理篇:按照神经机器翻译技术发展的脉络,依次介绍了经典神经机器翻译模型、神经机器翻译注意力机制、基于卷积神经网络的神经机器翻译及基于自注意力的神经机器翻译,对神经机器翻译技术发展过程中面临的主要问题进行了探讨,如集外词、深度模型、快速解码和领域适应等问题,并介绍了相应的解决方案。
61 实践篇:按照完整实现一个神经机器翻译系统的主要步骤,依次介绍了数据的准备、模型的训练、系统的测试及最后的实际部署,并对如何设计和实现一个神经机器翻译软件系统进行了详细探讨。
61 进阶篇:对目前神经机器翻译领域正在研究的前沿课题进行了介绍,包括语篇级神经机器翻译、低资源及无监督神经机器翻译、融合知识的神经机器翻译、鲁棒神经机器翻译、多语言神经机器翻译、语音与视觉多模态神经机器翻译六大主题,梳理了目前在这六大方向上的主要技术路线及开放问题。
我们希望本书不仅仅是一本介绍机器翻译新技术的书。如果对神经机器翻译的介绍仅仅停留在技术的形式化上,只有算法、模型、公式等,那么难免会让读者觉得枯燥乏味。相反,本书力求可以承载更多有意思的内容,如技术背后的思想、技术发展的脉络等。为此,在写作本书过程中,我们始终站在历史发展的角度,对比不同机器翻译范式,希望从对比中窥见技术发展的内在原因。同时,为了能够串联不同技术及同一技术的不同发展阶段,更好地介绍技术背后的思想、争议及发展原因,本书的每一章均附有一篇与该章主题相关的短评。
这些短评少则一两页,多则六七页,共计20 篇,串起了神经机器翻译技术背后的历史、故事、思想、哲学、争议和规范等,如“统计与规则的竞争”“自然语言处理之经验主义与理性主义”“卷积神经机器翻译——实用性倒逼技术创新”“超参数设置——自动优化与实验可重现性”“机器翻译工业部署”“神经机器翻译达到人类同等水平了吗?”“神经机器翻译是疯子吗?兼谈其‘幻想’”“预训练技术争议与语言符号奠基问题”等,有些评论内容已超出神经机器翻译甚至机器翻译的范畴,涉及自然语言处理乃至人工智能等更广泛的议题。这些短评既可以结合相应技术章节阅读,也可以单独阅读。它们不仅包含本书作者的观点,也涉及许多其他机器翻译、自然语言处理研究人员的发现、观察及思考等。因此,这些短评可为机器翻译研究者、实践者、使用者、爱好者和旁观者等不同读者提供一个理解机器翻译技术的新视角。受限于本书作者水平,短评及书中观点难免存在错漏,敬请读者批评指正!
机器翻译是计算机科学与语言学交叉形成的最早的研究方向,计算语言学最初以机器翻译技术研究为中心,在机器翻译初期研究遇到困难之后(ALPAC报告),其他分支开始广泛发展起来。机器翻译本身的高难度及历史发展原因,使机器翻译成为自然语言处理技术的集大成者及发源地。一方面,很多自然语言处理技术在机器翻译中得到广泛应用,如词法分析、句法分析、语义分析、语篇分析、知识图谱和信息检索等;有些自然语言处理技术即使没有直接应用于机器翻译,它们与机器翻译仍然存在诸多交叉重叠之处,如自然语言生成、对话和问答等。另一方面,自然语言处理的很多技术源自机器翻译,如深度学习驱动的自然语言处理,很多底层技术最初是在机器翻译领域提出或最先应用于机器翻译的,如序列到序列编码器-解码器框架、Transformer 等。这些技术最早应用于机器翻译,后来拓展到自然语言处理的其他任务上;有些技术甚至应用到自然语言处理之外的其他领域,如Transformer 应用于计算机视觉、语音等。
鉴于此,本书在介绍机器翻译技术时,尽可能兼顾自然语言处理,对技术的介绍希望从更广的角度展开,如:
61 第16 章介绍的融合知识的方法,对其他自然语言处理任务融合知识具有一定启发意义;
61 第17 章介绍的鲁棒性技术,不仅仅面向神经机器翻译,也面向其他自然语言处理模型;
61 第18 章介绍的大规模多语言神经机器翻译模型的设计及训练方法,也适用于其他自然语言处理大模型,如预训练语言模型。
此外,本书还涉及并讨论了自然语言处理相关的大量概念,如语篇、常识、低资源、语言类型学和语法性别等。
因此,虽然本书的主题是机器翻译,但是对自然语言处理技术感兴趣的读者,也可以将本书作为参考书使用。
熊德意
2021 年6 月1 日