《实用机器学习》的读者对象是针对想要把机器学习应用于实际问题的人。它详细阐述了机器学习的主要组成部分:工作流程、算法和工具。关注点是著名算法的实际应用,而不是创建一个算法。构建和使用机器学习模型的每个步骤都有详细描述,并有从简单到中等复杂的实例与之对应。
主要内容
第1部分,“机器学习工作流程”介绍基本的机器学习工作流程,并分章节对每个步骤加以介绍。
第1章,“什么是机器学习”介绍机器学习的应用领域和用途。
第2章,“实用数据处理”,详细介绍机器学习流程中的数据处理和准备工作。
第3章,“建模和预测”,介绍构建简单的机器学习模型,并利用应用广泛的算法和库进行预测。
第4章,“模型评估和优化”,深入研究机器学习模型,并对其进行评估和性能优化。
第5章,“基础特征工程”,介绍利用领域知识对原始数据进行提高的常用方法。
第2部分,“实际应用”,介绍模型规模化和从文本、图片和时间序列数据中提取特征的技术,来提高绝大多数现代机器学习的性能。本部分包括3个有完整实例的章节。
第6章,“实例:NYC出租车数据”,这是第一个完整实例章节,会预测乘客的倾向性行为。
第7章,“高级特征工程”,包含高级特征工程过程,介绍从自然语言的文本、图片和时序序列数据中提取有价值的数据。
第8章,“NLP高级案例:电影评论情感预测”,运用高级特征工程知识预测在线电影评论的情感。
第9章,“扩展机器学习流程”,介绍扩大机器学习系统的数据规模、预测吞吐量和降低预测间隔的技术。
第10章,“案例:数字显示广告”,构建大型数据的模型,预测数字广告点击行为。
如何使用本书
如果你是机器学习新手,第1~5章将引导你学习研究和准备数据、特征工程、建模和模型评估过程。Python实例采用流行的数据处理、pandas和Scikit-Learn机器学习库。第6~10章,包括3个实际机器学习案例、高级特征工程和优化的话题。由于学习库封装了大部分的复杂性,因此代码示例可以很容易地应用到你自己的机器学习系统中。
目标读者
本书可以使程序员、数据分析师、统计学家、数据科学家和其他专业人士将机器学习应用于实际问题,或者简单地理解它。他们将获得实用数据建模、优化和开发机器学习系统的经验,而没必要了解特定算法的理论推导。机器学习的数学基础是针对感兴趣的人的,某些算法在较高的层次上进行解释,本书提供给那些想深入学习的人,我们的焦点是获得实际结果以解决手头的问题。
代码约定,下载和软件需求
本书包含许多示例源代码,或者以编号的清单出现,或者嵌入在正文中,但无论哪种情况,都以固定宽度的这种字体显示,以区别于正常的文本。
源代码使用Python,pandas和Scikit-Learn编写。与章节相应的iPython笔记文件可在GitHub上下载,地址为https://githubcom/brinkar/real-world-machine-learning,也可以通过关注机械工业出版社计算机分社官方微信订阅号“IT有得聊”,输入5位数号“56922”后获得资源下载链接,还可以登录golden-book.com搜索本书并进行下载。
笔记文件(扩展名为ipynb)与章节相对应。样本数据包含在data文件夹中,只要必需的库随iPython一起安装,那么所有的笔记文件都能执行。图形由matplotlib和Seaborn的pyplot模块生成。
在有些情况下,由iPython产生的图形被提取出来作为本书的插图(为了适应打印质量和电子书显示,有些已经做了修改)。