机器学习方法 收藏

  • 书籍语言:简体中文
  • 下载次数:2280
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-08-28 20:10:03
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:李航
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

机器学习是以概率论、统计学、信息论、最优化理论、计算理论等为基础的计算机应用理论学科,也是人工智能、数据挖掘等领域的基础学科。本书全面系统地介绍了机器学习的主要方法,共分4篇。第一篇介绍监督学习的主要方法,包括线性回归、感知机、支持向量机、最大熵模型与逻辑斯谛回归、提升法、隐马尔可夫模型和条件随机场等;第二篇介绍无监督学习的主要方法,包括聚类、奇异值分解、主成分分析、马尔可夫链蒙特卡罗法、EM算法、潜在语义分析、潜在狄利克雷分配等。第三篇介绍深度学习的主要方法,包括前馈神经网络、卷积神经网络、循环神经网络、Transformer、扩散模型、生成对抗模型等。第四篇介绍强化的主要方法,包括马尔可夫决策、多臂老虎机、近端策略优化、深度Q网络等。书中每章介绍一两种机器学习方法。详细叙述各个方法的模型、策略和算法。从具体例子入手,由浅入深,帮助读者直观地理解基本思路,同时从理论角度出发,给出严格的数学推导,严谨详实,让读者更好地掌握基本原理和概念。目的是使读者能学会和使用这些机器学习的基本技术。为满足读者进一步学习的需要,书中还对各个方法的要点进行了总结,给出了一些习题,并列出了主要参考文献。《机器学习方法(第2版)》是机器学习及相关课程的教学参考书,适合人工智能、数据挖掘等专业的本科生、研究生使用,也可供计算机各个领域的专业研发人员参考。

作者简介

李航:ACMFellow,ACLFellow,IEEEFellow。京都大学毕业,东京大学博士。曾就职于NEC公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室。目前在字节跳动Seed部门工作。主要研究方向为自然语言处理、信息检索、机器学习、数据挖掘。

编辑推荐

适读人群 :大众

人工智能时代的硬核知识基建,系统构建知识体系,夯实机器学习基础,用基础的数学知识解读机器学习的原理和方法,机器学习经典参考书籍。

下载地址

序言

序言

本书旨在全面而深入地介绍机器学习的核心技术,全书共分为 4册(或 4篇),对应监督学习、无监督学习、深度学习和强化学习 4个主要分支。以方法为切入点,对机器学习技术加以梳理与总结,是本书的一大特点。在内容上,本书覆盖了传统机器学习(即统计机器学习)、深度学习以及强化学习领域中最为基础且最为广泛使用的方法,力求为读者呈现一幅完整且清晰的机器学习技术画卷。
近年来,机器学习领域取得了极大的发展,在人工智能的诸多领域应用中实现了重大突破。然而最基本、最常用的机器学习技术还是集中在一小部分核心内容上,例如, GBDT、EM算法、 Transformer、扩散模型、 PPO算法等。也正因如此,作者得以将这些关键技术梳理并总结,呈献给读者。
在每一篇的开头,先对本篇内容做一简单概述;然后在后面的章节中,详细讲解 8~10个具体的方法,每章介绍一两个方法。在行文上力求严谨精练,尽量使用数学语言进行描述;同时也尽量给出直观的解释,并提供一些例子,帮助读者理解。每篇和每章都相对独立,读者可以全书阅读,也可以根据自己的情况选择性阅读。
本书主要定位为大学教材或辅助读物,以及专业人员的参考书。假设读者已具备一定的微积分、线性代数、概率统计和计算机科学知识。本书并不试图涵盖所有内容,而是希望对最基本、最常用的技术进行透彻的讲解和分析,帮助读者学习和掌握。希望本书不仅方便初学者了解与学习,而且也能供精通者复习总结并融会贯通。
自 2012年《统计学习方法》(第 1版)出版以来,受到广大读者的广泛好评。截至 2024年 12月 1日,已发行 35万册。不少大学将此书作为机器学习课程的教材。在 B站等网站,有多位讲者对本书内容进行了详细讲解。在 GitHub上,有多位开发者实现了本书介绍的机器学习算法,并且为书中的习题提供了解答。这些都为大家进一步学习提供了便利,也使笔者受到很大鼓舞和激励,持续利用业余时间写作,修改、完善、提高本书的内容。
在之前的三个版本(《统计学习方法》《统计学习方法(第 2版)》《机器学习方法》)的基础之上,这一版本主要增加了第 4篇强化学习;还增加了若干监督学习和深度学习方法,如线性回归、扩散模型;基于读者的反馈对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改;删除了一部分目前已不常用的技术,如部分机器学习优化算法;整本书中尽量统一了符号用法;增加了习题;修改了大大小小几十处错误;重新绘制了几乎所有的插图。
本书初稿完成之后,徐佳锋、周奕、袁璟、张晓颖、郑在翔对部分章节提出了宝贵的修改意见。责任编辑孙亚楠为本书的出版做了大量的工作。在此对他们表示衷心的感谢。
本书这一版的质量相比前三个版本应该又有了大幅提升。由于笔者水平有限,虽然尽了
4序言
很大努力,在写作过程中力求准确和严谨,但仍然不能保证内容上完全无误。希望读者见谅并批评指正。
笔者有幸在 20世纪 90年代进入自然语言处理和机器学习领域,从事科学研究与技术开发。得益于导师和前辈的指导和帮助,以及合作者的支持和协作,在研究上取得了一些成果,并对该领域的技术有了一定的理解和掌握。也希望将自己学到的知识贡献给国家和全人类,为整个领域的未来发展尽一份绵薄之力。
李航
2024年 12月

目录

目 录
草 1 蒲 且督学习
第 1 章 机器学习简介 3
1.1 机器学习的定义 3
1.2 本书内容 5
第 2 章 监督学习简介 6
2.1 监督学习概述 6
2.1.1 监督学习的形式化 6
2.1.2 监督学习三要素 8
2.1.3 模型评估与模型选择 12
2.1.4 正则化与交叉验证 17
2.1.5 泛化能力 18
2.2 监督学习问题 21
2.2.1 分类问题 21
2.2.2 回归问题 22
2.2.3 序列标注问题 23
2.3 监督学习方法概述 24
2.3.1 生成方法与判别方法 25
2.3.2 分类方法 25
2.3.3 回归方法 28
2.3.4 序列标注方法 29
本篇内容 29
继续阅读 30
习题 30
参考文献 30
第 3 章 线性回归 31
3.1 线性回归模型 31
3.1.1 模型定义 31
3.1.2 概率模型表示 32
3.1.3 基函数和模型的扩展 32
3.2 线性回归学习算法 34
3.2.1 最小二乘法 34
3.2.2 正规方程 35
3.2.3 梯度下降 36
3.3 岭回归和 Lasso 38
本章概要 40
继续阅读 41
习题 42
参考文献 42
第 4 章 感知机 43
4.1 感知机模型 43
4.2 感知机学习策略 44
4.2.1 数据集的线性可分性 44
4.2.2 感知机学习策略 45
4.3 感知机学习算法 46
4.3.1 感知机学习算法的原始形式 46
4.3.2 算法的收敛性 49
4.3.3 感知机学习算法的对偶形式 50
本章概要 52
继续阅读 53
习题 53
参考文献 54
第 5 章 k 近邻法 55
5.1 k 近邻算法 55
5.2 k 近邻模型 56
5.2.1 模型 56
5.2.2 距离度量 57
5.2.3 k 值的选择 58
5.2.4 决策规则 58
5.3 k 近邻法的实现:k-d 树 59
5.3.1 构建 k-d 树 59
5.3.2 搜索 k-d 树 60
本章概要 62
继续阅读 62
习题 63
参考文献 63
第 6 章 朴素贝叶斯法 64
6.1 朴素贝叶斯模型 64
6.1.1 模型定义 64
6.1.2 分类决策 66
6.1.3 概率模型 66
6.1.4 生成模型与判别模型 67
6.2 朴素贝叶斯学习 67
6.2.1 学习问题 67
6.2.2 极大似然估计 67
6.2.3 学习和分类算法 68
6.2.4 贝叶斯估计 69
本章概要 71
继续阅读 71
习题 71
参考文献 72
第 7 章 决策树 73
7.1 决策树模型与学习 73
7.1.1 决策树 73
7.1.2 决策树模型 74
7.1.3 决策树学习 75
7.2 特征选择 76
7.2.1 特征选择问题 76
7.2.2 娟、条件娟和互信息 78
7.2.3 信息增益与特征选择 79
7.3 分类树的生成 81
7.4 分类树的剪枝 82
7.5 CART 算法 83
7.5.1 CART 生成 84
7.5.2 CART 剪枝 88
本章概要 89
继续阅读 91
习题 91
参考文献 92
第 8 章 逻辑斯谛回归和最大烟模型 93
8.1 逻辑斯谛回归模型 93
8.1.1 逻辑斯谛分布 93
8.1.2 二项逻辑斯谛回归 94
8.1.3 多项逻辑斯谛回归 96
8.2 最大娟模型 97
8.2.1 最大娟原理 97
8.2.2 最大娟模型的定义 99
8.2.3 最大娟模型的学习 100
8.2.4 最大娟模型的极大似然估计 104
8.2.5 与逻辑斯谛回归模型的关系 105
8.2.6 与指数分布族的关系 105
8.3 学习算法 106
8.3.1 梯度下降 106
8.3.2 拟牛顿法 108
本章概要 110
继续阅读 111
习题 111
参考文献 111
第 9 章 支持向量机 113
9.1 线性可分支持向量机与硬间隔最大化 113
9.1.1 线性可分支持向量机 113
9.1.2 函数间隔和几何间隔 115
9.1.3 间隔最大化 116
9.1.4 对偶问题的算法 120
9.2 线性支持向量机与软间隔最大化 125
9.2.1 线性支持向量机 125
9.2.2 对偶问题的算法 126
9.2.3 支持向量 129
9.2.4 无约束最优化算法 129
9.3 非线性支持向量机与核函数 133
9.3.1 核技巧 133
9.3.2 正定核 136
9.3.3 常用核函数 140
9.3.4 非线性支持向量分类机 141
本章概要 142
继续阅读 144
习题 144
参考文献 145
第 10 章 提升方法 147
10.1 AdaBoost 算法 147
10.1.1 基本想法 147
10.1.2 算法 148
10.1.3 AdaBoost 的例子 150
10.1.4 训练误差分析 152
10.1.5 前向分步算法解释 153
10.2 梯度提升 157
10.2.1 基本想法 157
10.2.2 GBDT 用于回归 158
10.2.3 GBDT 算法 161
本章概要 163
继续阅读 165
习题 165
参考文献 166
第 11 章 隐马尔可夫模型 167
11.1 隐马尔可夫模型的基本概念 167
11.1.1 模型的定义 167
11.1.2 模型的特点 169
11.1.3 基本问题 171
11.2 概率计算算法 171
11.2.1 直接计算法 171
11.2.2 前向算法 172
11.2.3 后向算法 174
11.2.4 前向-后向算法 176
11.2.5 一些概率与期望值的计算 176
11.3 学习算法 177
11.3.1 监督学习方法 177
11.3.2 Baum-Welch 算法 178
11.3.3 模型参数估计 180
11.4 预测算法 181
11.4.1 近似算法 181
11.4.2 维特比算法 181
本章概要 185
继续阅读 186
习题 187
参考文献 187
第 12 章 条件随机场 188
12.1 概率无向图模型 188
12.1.1 模型的定义 188
12.1.2 概率无向图模型的因子分解 191
12.1.3 概率无向图模型的例子 193
12.2 条件随机场的基本概念 194
12.2.1 模型的定义 194
12.2.2 模型的形式 195
12.2.3 基本问题 199
12.3 概率计算算法 200
12.3.1 前向算法 200
12.3.2 后向算法 201
12.3.3 前向-后向算法 201
12.3.4 期望值的计算 202
12.4 学习算法 202
12.4.1 监督学习算法 203
12.4.2 拟牛顿法 203
12.5 预测算法 204
本章概要 207
继续阅读 209
习题 209
参考文献 210
第 13 章 监督学习方法总结 211
草 2 蒲 元且督学习
第 14 章 无监督学习简介 219
14.1 无监督学习问题 219
14.1.1 聚类问题 219
14.1.2 降维问题 220
14.1.3 话题分析问题 221
14.1.4 概率模型估计问题 223
14.2 无监督学习方法概述 223
14.2.1 机器学习三要素 223
14.2.2 聚类方法 224
14.2.3 降维方法 224
14.2.4 话题分析方法——非概率模型 225
14.2.5 话题分析方法——概率模型 226
14.2.6 概率模型估计方法 227
本篇内容 228
继续阅读 228
参考文献 228
第 15 章 聚类方法 229
15.1 聚类的基本概念 229
15.1.1 相似度或距离 229
15.1.2 类或簇 232
15.1.3 类与类之间的距离 233
15.2 层次聚类 234
15.3 k 均值聚类 235
15.3.1 模型 236
15.3.2 策略 236
15.3.3 算法 237
15.3.4 算法特性 238
本章概要 239
继续阅读 240
习题 240
参考文献 240
第 16 章 奇异值分解 242
16.1 奇异值分解的定义与性质 242
16.1.1 定义与定理 242
16.1.2 紧奇异值分解与截断奇异值分解 246
16.1.3 几何解释 248
16.1.4 主要性质 250
16.2 奇异值分解的计算 251
16.3 奇异值分解与矩阵近似 254
16.3.1 弗罗贝尼乌斯范数 254
16.3.2 矩阵的最优近似 255
16.3.3 矩阵的外积展开式 258
本章概要 260
继续阅读 261
习题 261
参考文献 262
第 17 章 主成分分析 263
17.1 总体主成分分析 263
17.1.1 基本想法 263
17.1.2 定义和导出 265
17.1.3 主要性质 266
17.1.4 主成分分析与降维 270
17.1.5 规范化的总体主成分 273
17.2 样本主成分分析 274
17.2.1 定义和性质 274
17.2.2 相关矩阵的特征值分解算法 276
17.2.3 样本矩阵的奇异值分解算法 279
本章概要 280
继续阅读 282
习题 282
参考文献 283
第 18 章 EM 算法和变分 EM 算法 284
18.1 EM 算法 284
18.1.1 简单例子 285
18.1.2 基本算法 287
18.1.3 基本原理 288
18.1.4 算法收敛性 290
18.1.5 广义算法 291
18.2 高斯混合模型的 EM 算法 293
18.2.1 高斯混合模型 293
18.2.2 EM 算法 293
18.2.3 与 k 均值的关系 296
18.3 变分 EM 算法 297
18.3.1 变分贝叶斯方法 297
18.3.2 基本算法 299
18.3.3 EM 算法和变分 EM 算法的比较 300
本章概要 300
继续阅读 302
习题 302
参考文献 303
第 19 章 马尔可夫链蒙特卡罗法 304
19.1 蒙特卡罗法 304
19.1.1 随机抽样 304
19.1.2 数学期望估计 305
19.2 积分计算 307
19.3 马尔可夫链 308
19.3.1 基本定义 308
19.3.2 离散状态马尔可夫链 309
19.3.3 连续状态马尔可夫链 314
19.3.4 马尔可夫链的性质 315
19.4 马尔可夫链蒙特卡罗法 319
19.4.1 基本想法 319
19.4.2 基本步骤 320
19.5 马尔可夫链蒙特卡罗法与机器学习 320
19.6 Metropolis-Hastings 算法 321
19.6.1 基本原理 321
19.6.2 Metropolis-Hastings 算法 324
19.6.3 单分量 Metropolis-Hastings 算法 324
19.7 吉布斯抽样 325
19.7.1 基本原理 326
19.7.2 吉布斯抽样算法 327
19.7.3 抽样计算 328
本章概要 329
继续阅读 330
习题 331
参考文献 332
第 20 章 潜在语义分析和非负矩阵分解 333
20.1 单词向量空间与话题向量空间 333
20.1.1 单词向量空间 333
20.1.2 话题向量空间 335
20.2 潜在语义分析算法 338
20.2.1 矩阵奇异值分解算法 338
20.2.2 例子 340
20.3 非负矩阵分解算法 341
20.3.1 非负矩阵分解 341
20.3.2 话题分析 342
20.3.3 非负矩阵分解的形式化 342
20.3.4 算法 343
本章概要 345
继续阅读 346
习题 346
参考文献 347
第 21 章 概率潜在语义分析 348
21.1 概率潜在语义分析模型 348
21.1.1 基本想法 348
21.1.2 生成模型 349
21.1.3 共现模型 350
21.1.4 模型性质 351
21.2 概率潜在语义分析的算法 353
本章概要 355
继续阅读 356
习题 356
参考文献 357
第 22 章 潜在狄利克雷分配 358
22.1 狄利克雷分布 358
22.1.1 分布定义 358
22.1.2 共辄先验 361
22.2 潜在狄利克雷分自模型 362
22.2.1 基本想法 362
22.2.2 模型定义 363
22.2.3 概率图模型 365
22.2.4 随机变量序列的可交换性 366
22.2.5 概率公式 366
22.3 LDA 的吉布斯抽样算法 367
22.3.1 基本想法 367
22.3.2 算法的主要部分 368
22.3.3 算法的后处理 370
22.3.4 算法 370
22.4 LDA 的变分 EM 算法 372
22.4.1 算法推导 372
22.4.2 算法总结 378
本章概要 378
继续阅读 379
习题 379
参考文献 380
第 23 章 无监督学习方法总结 381
23.1 无监督学习方法的关系和特点 381
23.1.1 方法之间的关系 381
23.1.2 无监督学习方法 381
23.1.3 基础机器学习方法 382
23.2 话题模型之间的关系和特点 382
参考文献 383
草 3 蒲 深反学习
第 24 章 深度学习简介 387
24.1 深度学习问题 387
24.1.1 监督学习问题 387
24.1.2 无监督学习问题 389
24.2 深度学习方法概述 391
24.2.1 基本原理 391
24.2.2 基本工具 391
24.2.3 监督学习模型 395
24.2.4 无监督学习模型 397
24.2.5 基本算法 398
24.2.6 预训练 398
24.3 深度学习应用 399
本篇内容 399
参考文献 400
第 25 章 前馈神经网络 401
25.1 前馈神经网络的模型 401
25.1.1 前馈神经网络定义 402
25.1.2 前馈神经网络的例子 412
25.1.3 前馈神经网络的表示能力 416
25.2 前馈神经网络的学习算法 419
25.2.1 前馈神经网络学习 419
25.2.2 前馈神经网络学习的优化算法 421
25.2.3 反向传播算法 424
25.2.4 在计算图上的实现 427
25.2.5 算法的实现技巧 431
25.3 前馈神经网络学习的正则化 436
25.3.1 深度学习中的正则化 436
25.3.2 早停法 437
25.3.3 暂返法 438
本章概要 441
继续阅读 443
习题 444
参考文献 444
第 26 章 卷积神经网络 446
26.1 卷积神经网络的模型 446
26.1.1 背景 446
26.1.2 卷积 447
26.1.3 汇聚 455
26.1.4 卷积神经网络 458
26.1.5 卷积神经网络性质 461
26.2 卷积神经网络的学习算法 463
26.2.1 卷积导数 463
26.2.2 反向传播算法 464
26.3 图片分类中的应用 467
26.3.1 AlexNet 467
26.3.2 残差网络 468
本章概要 472
继续阅读 474
习题 475
参考文献 476
第 27 章 循环神经网络 478
27.1 简单循环神经网络 478
27.1.1 模型 478
27.1.2 学习算法 481
27.2 常用循环神经网络 485
27.2.1 长短期记忆网络 485
27.2.2 门控循环单元网络 488
27.2.3 深度循环神经网络 489
27.2.4 双向循环神经网络 490
27.3 自然语言生成中的应用 491
27.3.1 词向量 491
27.3.2 语言生成与语言模型 494
本章概要 496
继续阅读 498
习题 498
参考文献 499
第 28 章 Transformer 501
28.1 序列到序列基本模型 501
28.1.1 序列到序列 501
28.1.2 基本模型 503
28.2 RNN Search 模型 504
28.2.1 注意力 504
28.2.2 模型定义 506
28.2.3 模型特点 507
28.3 Transformer 模型 508
28.3.1 模型架构 508
28.3.2 模型特点 515
本章概要 516
继续阅读 518
习题 518
参考文献 519
第 29 章 GPT 和 BERT 520
29.1 预训练语言模型 520
29.2 GPT 模型 522
29.2.1 模型和学习 522
29.2.2 模型特点 526
29.3 BERT 模型 526
29.3.1 模型和学习 526
29.3.2 模型特点 531
本章概要 532
继续阅读 533
习题 533
参考文献 534
第 30 章 变分自编码器 535
30.1 自编码器 535
30.2 去噪自编码器 536
30.3 变分自编码器 537
30.3.1 方法概述 537
30.3.2 模型 538
30.3.3 学习策略 540
30.3.4 学习算法 542
30.3.5 于写数字例 544
本章概要 545
继续阅读 547
习题 547
参考文献 547
第 31 章 生成对抗网络 549
31.1 GAN 基本模型 549
31.1.1 模型 549
31.1.2 学习算法 551
31.1.3 理论分析 552
31.2 图片生成中的应用 553
31.2.1 转置卷积 554
31.2.2 DCGAN 556
本章概要 558
继续阅读 559
习题 559
参考文献 560
第 32 章 扩散模型 561
32.1 去噪扩散概率模型 561
32.1.1 直观解释 562
32.1.2 模型的定义和性质 562
32.1.3 学习和生成算法 567
32.2 分数匹自加朗之万动力学 571
32.2.1 分数匹自 571
32.2.2 朗之万动力学 573
32.2.3 学习和生成算法 574
32.3 扩散模型之间的关系 577
32.3.1 分数函数学习 577
32.3.2 随机微分方程 578
32.4 图像生成 580
32.4.1 扩散模型用于图像生成 580
32.4.2 隐空间中的生成 581
32.4.3 有条件的生成 582
本章概要 583
继续阅读 586
习题 586
参考文献 587
第 33 章 深度学习方法总结 588
33.1 深度学习的模型 588
33.2 深度学习的算法 590
33.3 深度学习的优缺点 592
参考文献 593
草 4 蒲 强忧学习
第 34 章 强化学习简介 597
34.1 强化学习问题 597
34.1.1 强化学习的定义 597
34.1.2 相关问题 600
34.2 强化学习原理和方法 601
34.2.1 强化学习方法 601
34.2.2 强化学习原理 601
34.2.3 深度强化学习 602
34.3 强化学习应用 603
本篇内容 604
习题 605
参考文献 605
第 35 章 马尔可夫决策过程 606
35.1 马尔可夫决策过程定义 606
35.1.1 基本概念 606
35.1.2 最优策略 610
35.1.3 MDP 例子 611
35.2 动态规划算法 614
35.2.1 规划问题 614
35.2.2 贝尔曼方程 614
35.2.3 策略评估 617
35.2.4 策略迭代 620
35.2.5 价值迭代 622
35.2.6 算法的比较和扩展 625
本章概要 626
继续阅读 629
习题 629
参考文献 630
第 36 章 多臂老虎机 631
36.1 多臂老虎机概述 631
36.1.1 问题的定义 631
36.1.2 探索和利用的权衡 633
36.2 基本算法 634
36.2.1 探索优先算法 634
36.2.2 ε 贪心算法 634
36.2.3 UCB 算法 636
36.2.4 汤普森采样 638
本章概要 641
继续阅读 642
习题 642
参考文献 643
第 37 章 基于价值的方法 644
37.1 基于价值的方法概述 644
37.2 模型无关预测 645
37.2.1 蒙特卡罗预测 645
37.2.2 才序差分预测 648
37.2.3 预测方法的总结 650
37.3 模型无关控制 652
37.3.1 蒙特卡罗控制 652
37.3.2 SARSA 算法 655
37.3.3 Q 学习 658
37.3.4 在策略和离策略学习 660
37.4 基于价值的方法的总结 661
本章概要 662
继续阅读 663
习题 664
参考文献 664
第 38 章 深度 Q 网络 665
38.1 价值函数近似法 665
38.2 DQN 方法 669
本章概要 671
继续阅读 672
习题 672
参考文献 672
第 39 章 基于策略的方法 673
39.1 基于策略的方法概述 673
39.2 REINFORCE 算法 675
39.2.1 REINFORCE 算法 675
39.2.2 带基线的 REINFORCE 算法 678
39.2.3 策略函数 680
39.3 演员-评论员算法 681
39.4 策略梯度方法总结 683
39.4.1 一般形式 683
39.4.2 策略梯度定理 684
39.5 策略梯度的应用例 686
本章概要 687
继续阅读 689
习题 689
参考文献 690
第 40 章 近端策略优化 PPO 691
40.1 TRPO 算法 691
40.1.1 背景和动机 691
40.1.2 基本形式 692
40.1.3 算法和理论推导 693
40.1.4 具体算法 696
40.2 PPO 算法 697
40.2.1 算法概述 697
40.2.2 PPO-Clip 698
40.2.3 具体算法 699
40.3 大语言模型的应用 700
40.3.1 LLM 概述 700
40.3.2 预训练 701
40.3.3 SFT 701
40.3.4 RLHF 702
40.3.5 LLM 的特点 703
本章概要 703
继续阅读 705
习题 705
参考文献 705
第 41 章 强化学习方法总结 706
41.1 强化学习的重要性 706
41.1.1 强化学习 706
41.1.2 强化学习与监督学习 706
41.1.3 强化学习与生物学习 707
41.2 强化学习方法之间的关系 707
41.2.1 强化学习方法 707
41.2.2 基于模型、价值、策略的方法 709
41.3 其他强化学习问题和方法 710
41.4 强化学习的机遇和挑战 710
参考文献 711
附录 A 梯度下降法 712
附录 B 牛顿法和拟牛顿法 714
附录 C 拉格朗日对偶性 719
附录 D 矩阵空间 722
附录 E KL 散度和狄利克雷分布 725
附录 F 深度学习中的偏导数 727
附录 G 深度学习的优化算法 729

短评