自然语言处理:基于大语言模型的方法

  • 书籍语言:简体中文
  • 下载次数:1932
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-05-05 09:11:04
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:车万翔
  • ISBN:9787121495984
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命,尤其是近年来出现的基于大语言模型的方法,已成为研究自然语言处理的新范式。《自然语言处理:基于大语言模型的方法》在介绍自然语言处理、深度学习等基本概念的基础上,重点介绍新的基于预训练语言模型和大语言模型的自然语言处理技术。本书包括基础知识、预训练语言模型和大语言模型三部分:基础知识部分主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集;预训练语言模型部分主要介绍语言模型、预训练词向量、预训练语言模型的实现方法和应用;大语言模型部分首先介绍大语言模型的预训练方法,其次介绍大语言模型的适配、应用和评估方法,接着介绍基于预训练语言模型思想的各种延伸技术,最后以DeepSeek 系列模型为例,介绍大语言模型的最新技术进展。除了理论知识,本书还有针对性地结合具体案例提供相应的PyTorch 代码实现,让读者不仅能对理论有更深刻的理解,还能快速地实现自然语言处理模型,达到理论和实践的统一。

《自然语言处理:基于大语言模型的方法》既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深入研究自然语言处理算法的计算机工程师阅读,也适合对人工智能、深度学习、大语言模型和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。


作者简介

车万翔

哈尔滨工业大学计算学部长聘教授/博士生导师,人工智能研究院副院长,国家级青年人才,龙江学者“青年学者”,斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;国际顶级会议ACL 2025程序委员会共同主席。承担国家自然科学基金重点项目和专项项目、2030“新一代人工智能”重大项目课题等多项科研项目。曾获AAAI 2013最佳论文提名奖、黑龙江省科技进步一等奖、黑龙江省青年科技奖等奖励。

郭江

博士,现从事大模型、检索增强生成技术及企业数据智能等领域的研究,专注于相关技术在云服务中的应用与开发。曾任麻省理工学院计算机科学与人工智能实验室(CSAIL)博士后研究员,博士毕业于哈尔滨工业大学,并于约翰斯·霍普金斯大学联合培养。在人工智能与自然语言处理领域发表学术论文30余篇,累计被引用2400余次(据Google Scholar统计),并出版学术专著与译著各一部。曾获百度奖学金(全球每年仅授予10人)及中文信息学会“优秀博士学位论文”提名奖(2018年)。多次受邀担任国际顶级学术会议高级程序委员会委员和领域主席。

崔一鸣

博士,高级工程师,现任科大讯飞研究院资深科学家、科大讯飞北京研究院副院长,IEEE高级会员、CCF高级会员。博士毕业于哈尔滨工业大学。主要从事大模型、预训练模型、机器阅读理解等相关领域的研究工作,曾获得相关领域国际评测20余项冠军。所牵头研制的中文预训练模型、大模型开源项目(如Chinese-BERT-wwm、Chinese-LLaMA-Alapca系列),在开源平台累计获得4万次以上star,多次登顶GitHub Trending全球项目及开发者排行榜。在ACL、EMNLP、AAAI、IEEE/ACM TASLP等会议或期刊发表学术论文40余篇,其中ESI高被引论文1篇。曾获国际语义评测SemEval-2022最佳论文提名奖,2篇论文入选Paper Digest评选的最具影响力论文,多次入选“全球前2%顶尖科学家”。申请发明专利40余项、获授权专利16项。担任ACL 2025高级领域主席,EMNLP 2021、AACL 2022领域主席,ARR行动编辑,TACL常任审稿人等学术职务。


编辑推荐

适读人群 :本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深入研究自然语言处理算法的计算机工程师阅读,也适合对人工智能、深度学习、大语言模型和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。

汇聚大模型最新研究成果,开启自然语言处理新范式。哈尔滨工业大学车万翔教授领衔撰写!清华大学人工智能研究院常务副院长孙茂松倾情作序,中国工程院院士廖湘科、中国工程院院士尼玛扎西、中国科学院院士李惠力荐!

涵盖DeepSeek等大语言模型的核心原理、实现方式、应用场景及延伸技术,提供详细示例代码和实践指导。

针对自然语言处理领域,尤其是大语言模型方面技术与应用的最新进展,进行了全面的修订和补充。对于大语言模型部分,首先介绍大语言模型的预训练方法,其次介绍大语言模型的适配、应用及评估方法,最后介绍基于预训练语言模型思想的各种延伸技术,包括多语言的预训练模型及其在跨语言任务上的应用、代码预训练模型、多模态预训练模型,以及基于大语言模型实现的具身预训练模型。


下载地址

序言

前言

自然语言是人类思维的载体和交流的基本工具,也是人类区别于动物的根本标志,更是人类智能发展的重要外在体现形式。自然语言处理(Natural Language Processing,NLP)主要研究用计算机理解和生成自然语言的各种理论与方法,属于人工智能领域的一个重要的甚至核心的分支。随着互联网的快速发展,网络文本规模呈爆炸性增长,对自然语言处理提出了巨大的应用需求。同时,自然语言处理研究也为人们更深刻地理解语言的机理和社会的机制提供了一条重要的途径,因此具有重要的科学意义。

自然语言处理技术经历了从早期的理性主义到后来的经验主义的转变。近十年来,深度学习技术快速发展,引发了自然语言处理领域的一系列变革。但是基于深度学习的算法有一个严重的缺点,就是过度依赖大规模的有标注数据。2018 年以来,以BERT、GPT 为代表的预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点,帮助自然语言处理取得了一系列的突破,包括阅读理解在内的众多自然语言处理任务的性能都得到了大幅提高,在有些数据集上甚至达到或超过了人类水平。2022 年底,OpenAI 推出的大语言模型ChatGPT,以其强大的语言理解、生成及知识推理能力,彻底颠覆了自然语言处理领域的格局,成为自然语言处理乃至整个人工智能领域的统一范式。那么,预训练语言模型以及后来的大语言模型是如何获得如此强大的威力甚至“魔力”的呢?希望本书能够为各位读者揭开大语言模型的神秘面纱。

本书主要内容

本书在《自然语言处理:基于预训练模型的方法》(电子工业出版社,2021)一书的基础上,针对近期自然语言处理领域,尤其是大语言模型方面技术与应用的最新进展,进行了全面的修订和补充。本书主要内容包括三部分:基础知识、预训练语言模型和大语言模型。各部分内容安排如下。

第1 部分:基础知识,包括第1~4 章,主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。

第2 章首先介绍文本的向量表示方法,重点介绍词嵌入表示。其次介绍自然语言处理的三大任务,包括语言模型、基础任务和应用任务。虽然这些任务看似纷繁复杂,但是基本可以归纳为三类问题,即文本分类问题、结构预测问题和序列到序列问题。最后介绍自然语言处理任务的评价方法。

第3 章首先介绍三种常用的自然语言处理基础工具集——tiktoken、NLTK 和LTP。其次介绍本书使用的深度学习框架PyTorch。最后介绍自然语言处理中常用的大规模预训练数据。

第4 章首先介绍自然语言处理中常用的四种神经网络模型:多层感知器模型、卷积神经网络、循环神经网络和以Transformer 为代表的自注意力模型。其次介绍模型的参数优化方法。最后通过两个综合性的实战项目,介绍如何使用深度学习模型解决一个实际的自然语言处理问题。

第2 部分:预训练语言模型,包括第5~7 章,主要介绍语言模型、预训练词向量以及预训练语言模型的实现方法及应用。

第5 章首先介绍语言模型的基本概念,其次介绍经典的N 元语言模型及现代的神经网络语言模型的概念和实现方法,最后介绍语言模型的评价方法。

第6 章介绍词向量的基本概念,以及静态词向量和动态词向量两类预训练词向量的方法及其在自然语言处理任务中的应用。

第7 章首先介绍基于大规模文本预训练的语言模型,其次重点介绍预训练语言模型的三种基本结构及代表性的预训练语言模型,最后介绍预训练语言模型的应用场景和方法。

第3 部分:大语言模型,包括第8~13 章,首先介绍大语言模型的预训练方法,其次介绍大语言模型的适配、应用及评估方法,最后介绍基于预训练语言模型思想的各种延伸技术。

第8 章首先以几种经典的开源大语言模型为例,介绍大语言模型的两种基本结构,其次介绍大语言模型预训练过程中的若干关键技术,最后介绍大语言模型的并行训练策略。

第9 章介绍在将大语言模型应用于具体的现实任务或领域时所需的适配技术,包括基于提示的推断、多任务指令微调、基于人类反馈的强化学习、典型的参数高效精调方法、模型压缩方法,以及大语言模型的中文适配方法等。

第10 章介绍如何将大语言模型有效应用于各种应用场景,包括在常见任务中的应用方法、利用大语言模型生成指令数据以用于大语言模型的精调、大语言模型的量化与部署、本地化开发与应用、利用大语言模型进行工具调用及实现自动化等方法。

第11 章介绍大语言模型的能力评估方法,包括通用领域及任务评估、特定领域及任务评估、模型对齐能力评估、大语言模型的评价方法等。

第12 章介绍预训练语言模型的延伸技术,包括多语言的预训练模型及其在跨语言任务上的应用、代码预训练模型、多模态预训练模型,以及基于大语言模型实现的具身预训练模型。

第13 章以DeepSeek 系列模型为例,介绍大语言模型的最新技术进展,包括DeepSeek 系列模型的技术原理、模型架构优化和基于强化学习获得的推理能力学习等。

致谢

本书第1~5 章及第12 章由哈尔滨工业大学车万翔教授编写;第6、11 章由美国麻省理工学院(MIT)郭江博士后编写;第7、8 、10 章由科大讯飞北京研究院副院长崔一鸣编写;第9 章及第13 章由三位作者联合编写。全书由哈尔滨工业大学刘挺教授主审。本书的编写参阅了大量的著作和相关文献,在此一并表示衷心的感谢!

感谢宋亚东先生和电子工业出版社博文视点对本书的重视,以及为本书出版所做的一切。

由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。


目录

推荐序III

推荐语IV

前言VI

数学符号X

第1 部分基础知识

第1 章绪论2

1.1 自然语言处理的概念3

1.2 自然语言处理的难点.3

1.3 自然语言处理任务体系5

1.3.1 任务层级5

1.3.2 任务类别6

1.3.3 研究对象与层次6

1.4 自然语言处理技术发展历史7

第2 章自然语言处理基础11

2.1 文本的表示12

2.1.1 词的独热表示12

2.1.2 词的分布表示13

2.1.3 词嵌入表示18

2.1.4 文本的词袋表示18

2.2 自然语言处理任务19

2.2.1 自然语言处理基础任务19

2.2.2 自然语言处理应用任务25

2.3 基本问题30

2.3.1 文本分类问题30

2.3.2 结构预测问题30

2.3.3 序列到序列问题33

2.4 评价指标34

2.4.1 自然语言理解类任务的评价指标35

2.4.2 自然语言生成类任务的评价指标36

2.5 小结37

第3 章基础工具集与常用数据集38

3.1 tiktoken 子词切分工具39

3.2 NLTK 工具集40

3.2.1 常用语料库和词典资源41

3.2.2 常用自然语言处理工具集43

3.3 LTP 工具集45

3.3.1 中文分词45

3.3.2 其他中文自然语言处理功能45

3.4 PyTorch 基础46

3.4.1 张量的基本概念46

3.4.2 张量的基本运算47

3.4.3 自动微分 51

3.4.4 调整张量形状52

3.4.5 广播机制53

3.4.6 索引与切片54

3.4.7 降维与升维54

3.5 大规模预训练数据集55

3.5.1 维基百科数据55

3.5.2 原始数据的获取55

3.5.3 语料处理方法56

3.5.4 其他文本预训练数据集59

3.5.5 文本预训练数据集讨论60

3.6 更多数据集60

3.7 小结62

第4 章自然语言处理中的神经网络基础63

4.1 多层感知器模型64

4.1.1 感知器64

4.1.2 线性回归64

4.1.3 Logistic 回归65

4.1.4 Softmax 回归66

4.1.5 多层感知器67

4.1.6 模型实现68

4.2 卷积神经网络70

4.2.1 模型结构70

4.2.2 模型实现72

4.3 循环神经网络74

4.3.1 模型结构74

4.3.2 长短时记忆网络75

4.3.3 模型实现77

4.3.4 基于循环神经网络的序列到序列模型79

4.4 Transformer 模型79

4.4.1 注意力机制79

4.4.2 自注意力模型80

4.4.3 Transformer81

4.4.4 基于Transformer 的序列到序列模型85

4.4.5 Transformer 模型的优缺点85

4.4.6 PyTorch 内置模型实现 86

4.5 神经网络模型的训练87

4.5.1 损失函数87

4.5.2 梯度下降89

4.6 自然语言处理中的神经网络实战92

4.6.1 情感分类实战92

4.6.2 词性标注实战102

4.7 小结104

第2 部分预训练语言模型

第5 章语言模型107

5.1 语言模型的基本概念108

5.2 N 元语言模型108

5.2.1 N 元语言模型的基本概念108

5.2.2 N 元语言模型的实现109

5.2.3 N 元语言模型的平滑111

5.3 神经网络语言模型112

5.3.1 前馈神经网络语言模型113

5.3.2 循环神经网络语言模型114

5.3.3 Transformer 语言模型116

5.3.4 基于神经网络语言模型生成文本 117

5.4 语言模型的实现118

5.4.1 数据准备 118

5.4.2 前馈神经网络语言模型119

5.4.3 循环神经网络语言模型122

5.4.4 Transformer 语言模型125

5.5 语言模型性能评价129

5.6 小结130

第6 章预训练词向量131

6.1 预训练静态词向量132

6.1.1 基于神经网络语言模型的静态词向量预训练132

6.1.2 Word2vec 词向量132

6.1.3 负采样135

6.1.4 GloVe 词向量136

6.1.5 模型实现137

6.1.6 评价与应用143

6.2 预训练动态词向量148

6.2.1 双向语言模型149

6.2.2 ELMo 词向量151

6.2.3 模型实现 152

6.2.4 评价与应用162

6.3 小结 164

第7 章预训练语言模型166

7.1 概述167

7.2 Decoder-only 模型167

7.2.1 GPT 168

7.2.2 GPT-2 172

7.2.3 GPT-3 173

7.3 Encoder-only 模型174

7.3.1 BERT 174

7.3.2 RoBERTa 185

7.3.3 ALBERT 189

7.3.4 ELECTRA 191

7.3.5 MacBERT 194

7.3.6 模型对比196

7.4 Encoder-Decoder 模型196

7.4.1 T5 197

7.4.2 BART 198

7.5 预训练模型的任务微调:NLU 类201

7.5.1 单句文本分类202

7.5.2 句对文本分类205

7.5.3 阅读理解207

7.5.4 序列标注211

7.6 预训练模型的任务微调:NLG 类216

7.6.1 文本生成216

7.6.2 机器翻译217

7.7 小结220

第3 部分 大语言模型

第8 章 大语言模型的预训练222

8.1 大语言模型的基本结构223

8.1.1 Llama 223

8.1.2 Mixtral 226

8.1.3 缩放法则228

8.1.4 常见大语言模型对比230

8.2 注意力机制的优化230

8.2.1 稀疏注意力231

8.2.2 多查询注意力与分组查询注意力233

8.2.3 FlashAttention 234

8.3 位置编码策略237

8.3.1 RoPE 237

8.3.2 ALiBi 240

8.4 长上下文处理策略242

8.4.1 位置插值法242

8.4.2 基于NTK 的方法245

8.4.3 LongLoRA 246

8.4.4 YaRN 247

8.5 并行训练策略251

8.5.1 数据并行251

8.5.2 模型并行252

8.5.3 流水线并行254

8.5.4 混合并行254

8.5.5 零冗余优化255

8.5.6 DeepSpeed 256

8.6 小结257

第9 章大语言模型的适配258

9.1 引言259

9.2 基于提示的推断259

9.2.1 提示工程260

9.2.2 检索与工具增强267

9.3 多任务指令微调269

9.3.1 现有数据集转换271

9.3.2 自动生成指令数据集271

9.3.3 指令微调的实现273

9.4 基于人类反馈的强化学习276

9.4.1 基于人类反馈的强化学习算法的原理276

9.4.2 基于人类反馈的强化学习算法的改进279

9.4.3 人类偏好数据集280

9.5 参数高效精调280

9.5.1 LoRA 281

9.5.2 QLoRA 284

9.5.3 Adapter 288

9.5.4 Prefix-tuning 289

9.5.5 P-tuning 290

9.5.6 Prompt-tuning 291

9.6 大语言模型的中文适配 292

9.6.1 中文词表扩充 292

9.6.2 中文增量训练 295

9.7 大语言模型压缩 296

9.7.1 知识蒸馏 296

9.7.2 模型裁剪 302

9.7.3 参数量化 305

9.8 小结 310

第10 章大语言模型的应用311

10.1 大语言模型的应用示例312

10.1.1 知识问答 312

10.1.2 人机对话 313

10.1.3 文本摘要 314

10.1.4 代码生成 315

10.2 生成指令数据 316

10.2.1 Self-Instruct 316

10.2.2 Alpaca 319

10.2.3 WizardLM 322

10.3 大语言模型的量化与部署324

10.3.1 llama.cpp 324

10.3.2 transformers 329

10.3.3 vLLM 332

10.4 本地化开发与应 335

10.4.1 LangChain 335

10.4.2 privateGPT 338

10.5 工具调用与自动化 342

10.5.1 AutoGPT 342

10.5.2 HuggingGPT 346

10.6 小结348

第11 章大语言模型的能力评349

11.1 引言350

11.2 通用领域及任务评估350

11.2.1 语言理解能力350

11.2.2 文本生成能力352

11.2.3 知识与推理能力357

11.3 特定领域及任务评估360

11.3.1 数学360

11.3.2 代码360

11.4 模型对齐能力评估362

11.4.1 有用性363

11.4.2 无害性365

11.4.3 安全性367

11.4.4 真实性367

11.5 大语言模型的评价方法368

11.5.1 评价设置:适配368

11.5.2 自动评价方法369

11.5.3 人工评价方法370

11.5.4 红队测试371

11.6 小结372

第12 章预训练语言模型的延伸374

12.1 多语言预训练模型375

12.1.1 多语言BERT 375

12.1.2 跨语言预训练语言模型376

12.1.3 多语言预训练语言模型的应用378

12.1.4 大规模多语言模型379

12.2 代码预训练模型379

12.2.1 代表性代码预训练模型380

12.2.2 代码预训练模型的对齐383

12.2.3 代码预训练模型的应用383

12.3 多模态预训练模型384

12.3.1 掩码图像模型384

12.3.2 基于对比学习的多模态预训练模型.386

12.3.3 图到文预训练模型388

12.3.4 图像或视频生成390

12.4 具身预训练模型392

12.5 小结394

第13 章DeepSeek 系列模型原理简介395

13.1 DeepSeek 系列模型概述396

13.2 模型架构优化398

13.2.1 算法优化398

13.2.2 基础设施优化 402

13.3 基于强化学习习得推理能力405

13.3.1 DeepSeek-R1-Zero:仅通过强化学习习得推理能力405

13.3.2 DeepSeek-R1:规范性和泛化性408

13.3.3 蒸馏: 推理能力的迁移 411

13.4 小结 411

参考文献413

术语表421


短评

    产品特色