作者寄语
Neural Machine Translation
It is an honor to see my second book on machine translation become available in Chinese. I would like to thank the translators Jiajun Zhang, Yang Zhao and Chengqing Zong to make this possible.
This book arrives at an exciting time for machine translation research in China. While data-driven methods have put a special emphasis on Chinese for two decades, this work has been taken on increasingly by researchers in China, both in academic institutions and the emerging artificial intelligence companies. I am looking forward to their continued contribution to the research field and I hope that the translation of this book may contribute to stimulate broad interest in this topic.
Success of machine translation models in the real world is measured by how useful it is for people to access information and communicate across language barriers. It is my ultimate hope that machine translation can play a role in improving understanding of people across the world, regardless of their native language. Enabling open exchange of ideas is essential not only for scientific research but also to the realization that all of humanity needs to work together to reach the common goal of life, liberty, and pursuit of happiness in harmony with nature.
很高兴看到我的第二本关于机器翻译的作品的中文版问世。感谢三位译者张家俊、赵阳和宗成庆为此所做的一切。
本书的出版恰逢中国机器翻译研究迅猛发展之时。在过去的二十年里,数据驱动方法对中文给予了特别的重视,无论是在学术研究机构内,还是在新兴的人工智能公司中,中国的研究人员都做了大量工作。我期待着他们继续为这一研究领域做出贡献,我也希望本书能够激发人们对这一主题的广泛兴趣。
机器翻译模型在现实世界中成功与否取决于它在获取信息、跨越语言障碍进行交流方面的实用性。我最终希望机器翻译能够让世界各地的人们增进理解,不管他们的母语是什么。开放的思想交流不仅对于科学研究至关重要,而且对于全人类共同努力以实现自由生活,追求与自然和谐相处的幸福这一共同目标同样重要。
译者序
Neural Machine Translation
本书作者菲利普·科恩(Philipp Koehn)于2010年出版了Statistical Machine Translation(剑桥大学出版社出版),该书成为国际统计机器翻译领域颇具影响力的权威之作。宗成庆研究员牵头翻译了该著作并于2012年在国内出版(即《统计机器翻译》),为国内统计机器翻译技术研究和学习提供了一部重要的中文参考文献。就在该书中文版出版一年左右时,神经机器翻译方法被提出,并得到了飞速发展,端到端的神经翻译模型不仅成为该领域的主流范式,而且几乎是所有自然语言处理任务,甚至是众多视频和图像处理任务的首选范式。正是在这种神经模型盛行的大时代背景下,2020年菲利普·科恩出版了Neural Machine Translation(《神经机器翻译》)。这部教材不仅是对《统计机器翻译》的扩充和延伸,也是对神经网络、深度学习及其应用技术的普及和推广。
机械工业出版社刘锋编辑慧眼识珠,以职业编辑敏锐的视角选择了这部优秀著作,并联系我们商讨翻译事宜。基于之前翻译《统计机器翻译》的经验和多年来与菲利普保持的友好关系,而且机器翻译本身就是我们团队研究的主要方向之一,我们毫不犹豫地接受了这项翻译任务。2020年秋天我们开始了全书的翻译工作,经过几轮修改和校对,2021年夏季翻译完成,前后用了近一年时间。
本书前9章主要由赵阳博士翻译,后8章主要由张家俊研究员翻译,宗成庆研究员对全书进行统稿,并对照原文进行了逐词逐句的审校。中国科学院自动化研究所自然语言处理研究组的部分研究生为本书的翻译和初校给予了相应的帮助,他们是金飞虎、陆金梁、王迁、闫璟辉、田科、王晨、伍凌辉、张志扬、王世宁、何灏、贺楚祎、孙静远、韩旭和卢宇。如果没有他们的帮助,本书的出版必然要晚一些,在此谨向他们表示衷心的感谢!
在深度学习时代,机器翻译技术得到了突破性的发展,翻译质量大幅提升。作为从事机器翻译技术研究多年的学者,我们也曾设想是否可以利用当前最好的机器翻译系统协助我们完成本书的翻译工作,但遗憾的是,面对学术著作出版这类严肃的翻译任务,目前尚没有一个机器翻译系统能够胜任,机器译文中大量存在的术语翻译不当、前后翻译不一致、错翻和漏翻等问题让我们不得不放弃这种“投机”幻想。当然,作为机器翻译研究者,我们也深知没有一个公开的商业化机器翻译系统是针对某个特定的技术领域开发的,否则出版社就没必要找我们合作了。
受译者的能力和水平所限,译文中难免会有诸多欠缺和疏漏。为此,我们恳请读者对任何不妥之处给予批评指正,提出宝贵的修改意见或建议!
当本书作者菲利普·科恩教授得知我们正在将他这本最新著作翻译成中文版时非常高兴,欣然为中文版读者撰写了寄语。在此,我们向科恩教授表示衷心的感谢!
译者
2021年7月
前 言
Neural Machine Translation
在Statistical Machine Translation出版十年后,机器翻译技术发生了翻天覆地的变化。与人工智能中的其他领域一样,深度神经网络已经成为主流范式,在提高翻译质量的同时也带来了新的挑战。
你手里拿着的这本书于几年前开始撰写,并准备作为我之前那本教科书第二版的一章,但是新的技术发展得如此迅速,以前的统计翻译方法目前已经很少使用,以至于原先准备的一章内容发展成了一本书。除了关于机器翻译评价的章节,这两本书之间几乎没有重叠。对于对机器翻译感兴趣的新读者来说,这是个好消息。我们都是在几年前才重新开始了解该领域的,所以你们也并不落后。
虽然机器翻译是自然语言处理的一个具体应用,而且本书仅限于这种应用,但这里介绍的概念仍然是解决许多其他语言问题的关键基础。文本分类、情感分析、信息抽取、文本摘要、自动问答与对话系统等应用任务都采用了相似的模型和方法,因此本书介绍的技术适用于更加广泛的领域,甚至其他类型的任务,如语音识别、游戏、计算机视觉乃至自动驾驶汽车,都建立在同样的原理之上。
这本书能够出版,得益于许多人的建议和反馈。我要特别感谢约翰斯·霍普金斯大学研究实验室以及语言和语音处理中心的同事Kevin Duh、Matt Post、Ben Van Durme、Jason Eisner、David Yarowsky、Sanjeev Khudanpur、Najim Dehak、Dan Povey、Raman Arora、Mark Dredze、Paul McNamee、Hynek Hermansky、Tom Lippincott、Shinji Watanabe,以及我的博士生Rebecca Knowles、Adi Renduchitala、Gaurav Kumar、Shuoyang Ding、Huda Khayrallah、Brian Thompson、Becky Marvin、Kelly Marchisio和Xutai Ma。还要感谢我之前工作过的爱丁堡大学,那里的Barry Haddow、Lexi Birch、Rico Sennrich和Ken Heafield是神经机器翻译领域的先驱。我与许多研究人员进行了卓有成效的讨论,这拓宽了我的视野,虽然无法将他们一一列出,但我要明确感谢Holger Schwenk、Marcin Junczys-Dowmunt、Chris Dyer、Graham Neubig、Alexander Fraser、Marine Carpuat、Lucia Specia、Jon May、George Foster和Collin Cherry。这本书也得益于我在机器翻译技术的实际部署上的经验。我曾与Meta合作,为上百种语言开发了机器翻译技术,我要感谢Paco Guzmán、Vishrav Chaudhary、Juan Pino、Ahmed Kishky、Benxing Wu、Javad Dousti、Yuqing Tang、Don Husa、Denise Diaz、Qing Sun、Hongyu Gong、Shuohui、Ves Stoyanov、Xian Li、James Cross、Liezl Puzon、Dmitriy Genzel、Fazil Ayan、Myle Ott、Michael Auli和Franz Och。在与Dion Wiggins和Gregory Binger领导的Omniscien Technology的长期合作中,我了解了商业机器翻译市场的变化趋势。我从Achim Ruopp、Kelly Marchisio、Kevin Duh、Mojtaba Sabbagh-Jafari、Parya Razmdide、Kyunghyun Cho、Chris Dyer和Rico Sennrich那里获得了对本书初稿的宝贵反馈意见。
林***师 2022-04-26 12:22:39
这本书,是神经机器翻译的经典之作,涉及机器翻译的神经语言模型,学习技巧,平行语料库,分析可视化等一系列过程,非常的经典