图解大模型+图解DeepSeek技术 京东套装2册 图灵出品 收藏

  • 书籍语言:简体中文
  • 下载次数:5927
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-09-08 10:10:02
  • 发布日期:2025-09-08
  • 连载状态:全集
  • 书籍作者:杰伊·阿拉马尔
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

《图解DeepSeek技术》

本书以通俗易懂、大量图解的方式剖析了DeepSeek的底层技术。

全书分为3章和附录,第1章详细分析了推理大模型的范式转变,即从“训练时计算”到“测试时计算”;第2章解读了DeepSeek-R1的架构——混合专家(MoE);第3章展示了DeepSeek-R1详细的训练过程及核心技术,涵盖基于GRPO的强化学习等;附录分享了DeepSeek开源周活动。

本书适合大模型从业人员和对大模型底层技术感兴趣的读者。书中通过丰富的图解将复杂的技术解释得简单、清晰、通透,是学习大模型技术难得一见的参考书。


《图解大模型:生成式AI原理与实战(全彩)》

本书全程图解式讲解,通过大量全彩插图拆解概念,让读者真正告别学习大模型的枯燥和复杂。

全书分为三部分,依次介绍语言模型的原理、应用及优化。第一部分 理解语言模型(第1~3章),解析语言模型的核心概念,包括词元、嵌入向量及Transformer架构,帮助读者建立基础认知。第二部分 使用预训练语言模型(第4~9章),介绍如何使用大模型进行文本分类、聚类、语义搜索、文本生成及多模态扩展,提升模型的应用能力。第三部分 训练和微调语言模型(第10~12章),探讨大模型的训练与微调方法,包括嵌入模型的构建、分类任务的优化及生成式模型的微调,以适应特定需求。

本书适合对大模型感兴趣的开发者、研究人员和行业从业者。读者无须深度学习基础,只要会用Python,就可以通过本书深入理解大模型的原理并上手大模型应用开发。书中示例还可以一键在线运行,让学习过程更轻松。


作者简介

《图解DeepSeek技术》

Jay Alammar(杰伊·阿拉马尔)

Cohere总监兼工程研究员,知名大模型技术博客Language Models & Co作者,DeepLearning.AI和Udacity热门机器学习和自然语言处理课程作者。


Maarten Grootendorst(马尔滕·格鲁滕多斯特)

IKNL(荷兰综合癌症中心)高级临床数据科学家,知名大模型技术博客博主,BERTopic等开源大模型软件包作者(下载量超过百万次),DeepLearning.AI和Udacity课程作者。


Jay & Maarten撰写的图解系列文章广受赞誉,累计吸引了数百万专业读者的目光。其中,Jay 的“The Illustrated Transformer”“The Illustrated DeepSeek-R1”、Maarten的“A Visual Guide to Reasoning LLMs”在全网热度极高。


Jay & Maarten的第一部作品《图解大模型:生成式AI原理与实战》(Hands-On Large Language Models)是业内广受赞誉的经典。《图解DeepSeek技术》是Jay & Maarten的第二部作品,人民邮电出版社图灵全球独家发布,是解读DeepSeek原理与训练的宝贵读物。


李博杰

智能体初创公司PINE AI联合创始人、首席科学家。曾任华为计算机网络与协议实验室副首席专家,入选华为首批“天才少年”项目。2019年获中国科学技术大学与微软亚洲研究院联合培养博士学位,曾获ACM中国优秀博士学位论文奖和微软学者奖学金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等顶级会议上发表多篇论文。


孟佳颖

中国科学技术大学博士。现任北京中关村实验室助理研究员,主要从事网络协议栈的漏洞挖掘与风险分析技术的研究工作。


编辑推荐

适读人群 :大众读者 大模型从业人员 对大模型底层技术感兴趣的读者

《图解DeepSeek技术》

1.【短小精悍】2小时搞懂DeepSeek底层技术

2.【通俗图解】近120幅全彩插图通俗解读,不枯燥

3.【内容系统】从推理模型原理到DeepSeek-R1训练

4.【作者资深】大模型领域知名专家Jay & Maarten作品

5.【图解系列】袋鼠书《图解大模型》同系列,广受欢迎


《图解大模型:生成式AI原理与实战(全彩)》

1.【直观】300幅全彩插图,极致视觉化呈现

2.【全面】涵盖大模型原理、应用开发、优化

3.【实操】真实数据集,实用项目,典型场景

4.【热点】18幅图深度解读DeepSeek底层原理

5.【附赠】一键运行代码+大模型面试题200问

6.【视频】大量线上拓展资料,包括文章、视频


下载地址

目录

《图解DeepSeek技术》

译者序

前言

第 1 章 测试时计算

1.1 什么是推理大模型 1

1.2 什么是训练时计算 3

1.3 什么是测试时计算 7

1.3.1 缩放定律 10

1.3.2 测试时计算的分类 12

1.4 基于验证器的搜索 16

1.4.1 多数投票法 17

1.4.2 Best-of-N 采样 17

1.4.3 基于过程奖励模型的束搜索 20

1.4.4 蒙特卡洛树搜索 21

1.5 调整提议分布 24

1.5.1 提示工程 25

1.5.2 STaR 方法 26

1.6 小结 28

1.7 延伸阅读 29


第 2 章 架构设计 31

2.1 稠密层 31

2.2 MoE 层 34

2.2.1 专家机制 35

2.2.2 路由机制 40

2.2.3 DeepSeekMoE 44

2.3 小结 50


第 3 章 DeepSeek-R1 训练方案 51

3.1 回顾:大模型的训练原理 51

3.2 DeepSeek-R1-Zero 的推理能力 55

3.2.1 示例:推理问题的自动验证 57

3.2.2 DeepSeek-R1-Zero 的完整训练过程 62

3.3 DeepSeek-V3 的效率优化策略 64

3.3.1 多头潜在注意力机制 64

3.3.2 混合精度训练 66

3.3.3 多词元预测 70

3.4 构建 DeepSeek-R1 72

3.5 通过 DeepSeek-R1 蒸馏推理能力 77

3.6 未成功的尝试 78

3.7 基于 GRPO 的强化学习 78

3.7.1 奖励值与优势值 79

3.7.2 KL 散度惩罚项 83

3.7.3 GRPO 目标函数 85

3.7.4 GRPO 算法 86

3.7.5 GRPO 参考实现 87

3.8 小结 87


附录 DeepSeek 开源周 89


《图解大模型:生成式AI原理与实战(全彩)》

对本书的赞誉 xi

对本书中文版的赞誉 xiii

译者序 xv

中文版序 xxi

前言 xxiii

第 一部分 理解语言模型

第 1章 大语言模型简介 3

1.1 什么是语言人工智能 4

1.2 语言人工智能的近期发展史 4

1.2.1 将语言表示为词袋模型 5

1.2.2 用稠密向量嵌入获得更好的表示 7

1.2.3 嵌入的类型 9

1.2.4 使用注意力机制编解码上下文 10

1.2.5 “Attention Is All You Need” 13

1.2.6 表示模型:仅编码器模型 16

1.2.7 生成模型:仅解码器模型 18

1.2.8 生成式AI元年 20

1.3 “LLM”定义的演变 22

1.4 LLM的训练范式 22

1.5 LLM的应用 23

1.6 开发和使用负责任的LLM 24

1.7 有限的资源就够了 25

1.8 与LLM交互 25

1.8.1 专有模型 26

1.8.2 开源模型 26

1.8.3 开源框架 27

1.9 生成你的第 一段文本 28

1.10 小结 30

第 2章 词元和嵌入 31

2.1 LLM的分词 32

2.1.1 分词器如何处理语言模型的输入 32

2.1.2 下载和运行LLM 33

2.1.3 分词器如何分解文本 36

2.1.4 词级、子词级、字符级与字节级分词 37

2.1.5 比较训练好的LLM分词器 39

2.1.6 分词器属性 47

2.2 词元嵌入 48

2.2.1 语言模型为其分词器的词表保存嵌入 49

2.2.2 使用语言模型创建与上下文相关的词嵌入 49

2.3 文本嵌入(用于句子和整篇文档) 52

2.4 LLM之外的词嵌入 53

2.4.1 使用预训练词嵌入 53

2.4.2 word2vec算法与对比训练 54

2.5 推荐系统中的嵌入 57

2.5.1 基于嵌入的歌曲推荐 57

2.5.2 训练歌曲嵌入模型 58

2.6 小结 60

第3章 LLM的内部机制 61

3.1 Transformer模型概述 62

3.2 Transformer架构的最新改进 79

3.3 小结 87

第二部分 使用预训练语言模型

第4章 文本分类 91

4.1 电影评论的情感分析 92

4.2 使用表示模型进行文本分类 93

4.3 模型选择 94

4.4 使用特定任务模型 96

4.5 利用嵌入向量的分类任务 99

4.6 使用生成模型进行文本分类 105

4.7 小结 113

第5章 文本聚类和主题建模 114

5.1 ArXiv文章:计算与语言 115

5.2 文本聚类的通用流程 116

5.3 从文本聚类到主题建模 122

5.4 小结 138

第6章 提示工程 140

6.1 使用文本生成模型 140

6.2 提示工程简介 145

6.3 高级提示工程 149

6.4 使用生成模型进行推理 155

6.5 输出验证 161

6.6 小结 167

第7章 高级文本生成技术与工具 168

7.1 模型输入/输出:基于LangChain加载量化模型 169

7.2 链:扩展LLM的能力 171

7.3 记忆:构建LLM的对话回溯能力 177

7.4 智能体:构建LLM系统 185

7.5 小结 190

第8章 语义搜索与RAG 191

8.1 语义搜索与RAG技术全景 191

8.2 语言模型驱动的语义搜索实践 193

8.3 RAG 211

8.4 小结 218

第9章 多模态LLM 219

9.1 视觉Transformer 220

9.2 多模态嵌入模型 222

9.3 让文本生成模型具备多模态能力 231

9.4 小结 242

第三部分 训练和微调语言模型

第 10章 构建文本嵌入模型 247

10.1 嵌入模型 247

10.2 什么是对比学习 249

10.3 SBERT 251

10.4 构建嵌入模型 253

10.5 微调嵌入模型 265

10.6 无监督学习 271

10.7 小结 276

第 11章 为分类任务微调表示模型 277

11.1 监督分类 277

11.2 少样本分类 286

11.3 基于掩码语言建模的继续预训练 292

11.4 命名实体识别 297

11.5 小结 305

第 12章 微调生成模型 306

12.1 LLM训练三步走:预训练、监督微调和偏好调优 306

12.2 监督微调 308

12.3 使用QLoRA进行指令微调 317

12.4 评估生成模型 322

12.5 偏好调优、对齐 326

12.6 使用奖励模型实现偏好评估自动化 327

12.7 使用DPO进行偏好调优 333

12.8 小结 337

附录 图解DeepSeek-R1 338

后记 349

短评