强化学习的数学原理

  • 书籍语言:简体中文
  • 下载次数:4903
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-04-25 10:10:03
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:赵世钰
  • ISBN:9787302685678
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不再重复造轮子。


本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。


它不需要读者有任何关于强化学习的背景,因为它会从最基本的概念开始介绍。如果读者已经有一些 强化学习的背景,这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。


本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。


作者简介

赵世钰目前是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室主任、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师,该系是英国唯一一个专注于自动控制领域的院系。


赵世钰在系统与控制领域具有丰富的理论和实践研究经验,他已在控制与机器人领域的国际期刊和会议发表研究论文50余篇。主要代表性研究成果为多机器人协同控制与估计,特别是方位刚性理论及其在网络系统中的应用,相关成果以综述论文的形式发表在IEEE控制系统学会权威官方杂志IEEE Control Systems Magazine。他是绝大多数控制和机器人领域的国际顶级期刊和会议的审稿人。他是多个国际重要会议的编委(包括IEEE IROS, CDC, ACC, ICCA, ICARCV, ICUAS),IEEE控制系统协会编委会委员,并担任ICCA2018的英国区域主席和ICCA2019的程序委员会主席。此外,他是国际期刊Unmanned Systems的编委。赵世钰曾获得领跑者5000——中国精品科技期刊顶尖论文、2014年第33届中国控制会议关肇直奖。


下载地址

序言


本书旨在成为一本数学但是友好的教材,能帮助读者“从零开始”实现对强化学习原理的“透彻理解”。本书的特点如下所述。

. 第一,从数学的角度讲故事,让读者不仅了解算法的流程,更能理解为什么一个算法最初设计成这个样子、为什么它能有效地工作等基本问题。


. 第二,数学的深度被控制在恰当的水平,数学内容也以精心设计的方式呈现,从而确保本书的易读性。读者可以根据自己的兴趣选择性地阅读灰色方框中的数学材料。


. 第三,提供了大量例子,能够帮助读者更好地理解概念和算法。特别是本书广泛使用了网格世界的例子,这个例子非常直观,对理解概念和算法非常有帮助。


. 第四,在介绍算法时尽可能将其核心思想与一些不太重要但是可能让算法看起来很复杂的东西分离开来。通过这种方式,读者可以更好地把握算法的核心思想。


. 第五,本书采用了新的内容组织架构,脉络清晰,易于建立宏观理解,内容层层递进,每一章都依赖于前一章且为后续章节奠定基础。



本书适合对强化学习感兴趣的高年级本科生、研究生、科研人员和工程技术人员阅读。由于本书会从最基本的概念开始介绍,因此不要求读者有任何强化学习的背景。当然,如果读者已经有一些强化学习的背景,我相信本书可以帮助大家更深入地理解一些问题或者提供不同的视角。此外,本书要求读者具备一些概率论和线性代数的知识,这些知识在本书附录中已经给出。

自 2019年以来,我一直在教授研究生的强化学习课程,我要感谢课程中的学生对我的教学提出的反馈建议。自 2022年 8月把这本书的草稿在线发布在 GitHub,到目前为止我收到了许多读者的宝贵反馈,在此对这些读者表示衷心感谢。此外,我还要感谢我的团队成员吕嘉玲在编辑书稿和课程视频方面所做的大量琐碎但是重要的工作;感谢助教李佳楠和米轶泽在我的教学中的勤恳工作;感谢我的博士生郑灿伦在设计书

中图片方面的帮助,以及我的家人的大力支持。


最后,我要感谢清华大学出版社的郭赛编辑和施普林格自然出版社的常兰兰博士,他们对于书稿的顺利出版给予了大力支持。我真诚地希望这本书能够帮助读者顺利进入强化学习这一激动人心的领域。

赵世钰


短评

    产品特色