前言
自然语言是人类思维的载体和交流的基本工具,也是人类区别于动物的根本标志,更是人类智能发展的重要外在体现形式。自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论与方法,属于人工智能领域的一个重要的甚至核心的分支。随着互联网的快速发展,网络文本规模呈爆炸性增长,对自然语言处理提出了巨大的应用需求。同时,自然语言处理研究也为人们更深刻地理解语言的机理和社会的机制提供了一条重要的途径,因此具有重要的科学意义。
自然语言处理技术经历了从早期的理性主义到后来的经验主义的转变。近十年来,深度学习技术快速发展,引发了自然语言处理领域的一系列变革。但是基于深度学习的算法有一个严重的缺点,就是过度依赖大规模的有标注数据。2018 年以来,以BERT、GPT 为代表的预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点,帮助自然语言处理取得了一系列的突破,包括阅读理解在内的众多自然语言处理任务的性能都得到了大幅提高,在有些数据集上甚至达到或超过了人类水平。2022 年底,OpenAI 推出的大语言模型ChatGPT,以其强大的语言理解、生成及知识推理能力,彻底颠覆了自然语言处理领域的格局,成为自然语言处理乃至整个人工智能领域的统一范式。那么,预训练语言模型以及后来的大语言模型是如何获得如此强大的威力甚至“魔力”的呢?希望本书能够为各位读者揭开大语言模型的神秘面纱。
本书主要内容
本书在《自然语言处理:基于预训练模型的方法》(电子工业出版社,2021)一书的基础上,针对近期自然语言处理领域,尤其是大语言模型方面技术与应用的最新进展,进行了全面的修订和补充。本书主要内容包括三部分:基础知识、预训练语言模型和大语言模型。各部分内容安排如下。
第1 部分:基础知识,包括第1~4 章,主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。
第2 章首先介绍文本的向量表示方法,重点介绍词嵌入表示。其次介绍自然语言处理的三大任务,包括语言模型、基础任务和应用任务。虽然这些任务看似纷繁复杂,但是基本可以归纳为三类问题,即文本分类问题、结构预测问题和序列到序列问题。最后介绍自然语言处理任务的评价方法。
第3 章首先介绍三种常用的自然语言处理基础工具集——tiktoken、NLTK 和LTP。其次介绍本书使用的深度学习框架PyTorch。最后介绍自然语言处理中常用的大规模预训练数据。
第4 章首先介绍自然语言处理中常用的四种神经网络模型:多层感知器模型、卷积神经网络、循环神经网络和以Transformer 为代表的自注意力模型。其次介绍模型的参数优化方法。最后通过两个综合性的实战项目,介绍如何使用深度学习模型解决一个实际的自然语言处理问题。
第2 部分:预训练语言模型,包括第5~7 章,主要介绍语言模型、预训练词向量以及预训练语言模型的实现方法及应用。
第5 章首先介绍语言模型的基本概念,其次介绍经典的N 元语言模型及现代的神经网络语言模型的概念和实现方法,最后介绍语言模型的评价方法。
第6 章介绍词向量的基本概念,以及静态词向量和动态词向量两类预训练词向量的方法及其在自然语言处理任务中的应用。
第7 章首先介绍基于大规模文本预训练的语言模型,其次重点介绍预训练语言模型的三种基本结构及代表性的预训练语言模型,最后介绍预训练语言模型的应用场景和方法。
第3 部分:大语言模型,包括第8~13 章,首先介绍大语言模型的预训练方法,其次介绍大语言模型的适配、应用及评估方法,最后介绍基于预训练语言模型思想的各种延伸技术。
第8 章首先以几种经典的开源大语言模型为例,介绍大语言模型的两种基本结构,其次介绍大语言模型预训练过程中的若干关键技术,最后介绍大语言模型的并行训练策略。
第9 章介绍在将大语言模型应用于具体的现实任务或领域时所需的适配技术,包括基于提示的推断、多任务指令微调、基于人类反馈的强化学习、典型的参数高效精调方法、模型压缩方法,以及大语言模型的中文适配方法等。
第10 章介绍如何将大语言模型有效应用于各种应用场景,包括在常见任务中的应用方法、利用大语言模型生成指令数据以用于大语言模型的精调、大语言模型的量化与部署、本地化开发与应用、利用大语言模型进行工具调用及实现自动化等方法。
第11 章介绍大语言模型的能力评估方法,包括通用领域及任务评估、特定领域及任务评估、模型对齐能力评估、大语言模型的评价方法等。
第12 章介绍预训练语言模型的延伸技术,包括多语言的预训练模型及其在跨语言任务上的应用、代码预训练模型、多模态预训练模型,以及基于大语言模型实现的具身预训练模型。
第13 章以DeepSeek 系列模型为例,介绍大语言模型的最新技术进展,包括DeepSeek 系列模型的技术原理、模型架构优化和基于强化学习获得的推理能力学习等。
致谢
本书第1~5 章及第12 章由哈尔滨工业大学车万翔教授编写;第6、11 章由美国麻省理工学院(MIT)郭江博士后编写;第7、8 、10 章由科大讯飞北京研究院副院长崔一鸣编写;第9 章及第13 章由三位作者联合编写。全书由哈尔滨工业大学刘挺教授主审。本书的编写参阅了大量的著作和相关文献,在此一并表示衷心的感谢!
感谢宋亚东先生和电子工业出版社博文视点对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。