前言
“数学是上帝用来书写宇宙的语言. ”——伽利略
机器学习的初学者经常面临缺失线性代数和最优化理论方面的基础知识的挑战. 然而,现有的关于线性代数和最优化理论的课程内容并不是针对机器学习的. 因此,初学者通常需要完成比机器学习所需的更多基础课程的学习. 此外,与其他以应用为主题的问题相比,机器学习问题更频繁地使用了最优化和线性代数中的某些思想和处理技巧. 于是,从机器学习的特定视角介绍线性代数和最优化理论具有重要的价值.
从事机器学习的研究者在探究机器学习应用的解决方案时通常会潜移默化地拾取线性代数和最优化理论方面的缺失部分. 然而,这种非系统方法并不令人满意,因为机器学习的首要聚焦点是在新的情况和应用中以一种可推广的方式来学习线性代数和最优化知识. 因此,我们重置了本书的重点,将线性代数和最优化理论作为本书所要介绍的主要内容,而将机器学习问题的求解方法作为机器学习的应用. 换句话说,本书通过将机器学习问题的求解作为示例来讲授线性代数和最优化理论方面的知识. 在此指导思想下,本书重点关注与机器学习紧密相关的线性代数和最优化理论,同时教授读者如何运用这些理论知识来处理机器学习中的相关应用. 附带的好处是,读者可以掌握机器学习中的几个基础性问题及其求解方法. 通过学习本书内容,读者还将熟悉许多以线性代数和最优化为中心的基本机器学习算法. 尽管本书并非旨在提供有关机器学习内容的详尽介绍,但它可以作为掌握机器学习中关键模型和最优化方法的“技术入门”指南. 甚至对于经验丰富的机器学习从业者
来说,从新的视角全面而系统地了解基本的线性代数和最优化方法也大有裨益.
本书的内容组织如下:
1. 线性代数及其应用:这几章聚焦线性代数的基础知识以及它们在奇异值分解、矩阵分解、相似矩阵(核方法)和图分析方面的常见应用,提供了许多诸如谱聚类、基于核的分类和异常值检测等机器学习方面的应用示例. 线性代数方法与机器学习示例的紧密整合使本书区别于现有的线性代数教材. 显然,本书的重点是介绍机器学习中与线性代数最相关的概念,并同时给读者讲授如何应用这些概念.
2. 最优化理论及其应用:许多机器学习模型都是作为优化问题提出来的,其中人们试图最大化回归和分类模型的准确性. 从最优化理论的视角,机器学习的最基础性问题本质上是一个最小二乘回归. 有意思的是,最小二乘回归问题同时出现在线性代数和最优化理论中,它是将这两个领域相互联系起来的关键问题之一. 最小二乘回归也是支持向量机、Logistic 回归和推荐系统的基础. 此外,降维和矩阵分解的方法也需要用到最优化方法. 这里还讨论了计算图中优化的一般观点及其在神经网络反向传播中的应用.
本书每章的正文提供了大量相关问题的练习,章末还提供了丰富的习题. 每章正文中的问题应该在学习本章内容的过程中解决以巩固对相关概念的理解. 对于每章正文中的这些问题,书中提供了相关的求解提示,可以帮助读者进一步掌握问题中所涉及的相关概念.每章末尾的习题旨在帮助读者巩固所学知识.
下面的符号说明将贯穿全书. 在符号顶部加一个上横线表示一个向量或者一个多维数
据点,例如,X 或 y. 一个向量或多维点可以用小写字母或大写字母来表示,但字母顶部会
有一个上横线. 两个向量的点积用中心点来表示,例如,X · Y . 用一个没有上横线的大写
字母来表示一个矩阵,例如,R. 设有 n 个 d 维数据点,那么用 D 表示所有数据点所对应
的 n × d 数据矩阵. 于是,D 中的每个个体数据点都是 d 维行向量,用 X1, · · · ,Xn 来表示. 对应所有数据点在某个分量上的元素所形成的向量是一个 n 维列向量. 例如:n 个数据
点的类变量 y 是一个 n 维列向量. 在观测值 yi 顶部加一个符号., 即用 .yi 来表示 yi 的
预测值.
查鲁·C. 阿加沃尔
于美国纽约州约克敦海茨