前言
致广大读者朋友:
欢迎各位购买和阅读《Python机器学习实践》!
该书的编写旨在帮助大量对机器学习和数据挖掘应用感兴趣的读者朋友,整合并实践时下最流行的基于Python语言的程序库:如Scikit-learn、NLTK、gensim、XGBoost、TensorFlow等;而且针对现实中的科研问题,甚至是Kaggle竞赛(当前世界最流行的机器学习竞赛平台)中的分析任务,快速搭建有效的机器学习系统。
朋友们在阅读了几个章节之后,就会发现这本书的特别之处。笔者力求减少读者对编程技能和数学知识的过分依赖,进而降低理解本书与实践机器学习模型的门槛;并试图让更多的兴趣爱好者体会到使用经典模型,乃至更加高效的方法解决实际问题的乐趣。同时,笔者对书中每一处的关键术语都提供了标准的英文表述,也方便读者朋友更加快速查阅和理解相关的英文文献。
由于本书不涉及对大量数学模型和复杂编程知识的讲解,因此受众非常广泛。这其中就包括:在互联网、IT相关领域从事机器学习和数据挖掘相关任务的研发人员;于高校就读的博士、硕士研究生,甚至是对计算机编程有初步了解的高年级本科生;以及对机器学习与数据挖掘竞赛感兴趣的计算机业余爱好者等等。
最后,衷心地希望各位读者朋友能够从本书获益,同时这也是对我最大的鼓励和支持。全书代码下载地址为:http://pan.baidu.com/s/1bGp15G。对于任何出现在书中的错误,欢迎大家批评指正,并发送至电邮:fanmiao.cslt.thu@gmail.com,我们会在本书的勘误网站https://coding.net/u/fanmiao_thu/p/Python_ML_and_Kaggle/topic 上记录下您的重要贡献。
写于美国纽约中央公园
2015年12月25日
后记
2015年12月的一天夜里,我在纽约的家中收到清华大学李超老师的一则微信。她说她本人非常欣赏我在网络上发表的数个有关如何使用Python快速搭建机器学习系统并在Kaggle竞赛平台上实战的帖子,并且希望我整理出一本书出版。
开始我还很诧异,因为我在网上发表的所有帖子都是日常学习工作的经验之谈,随性之作;没有太多的逻辑可言,更别说出版书籍了。当时发表那些帖子的初衷,只是不希望很多机器学习爱好者重蹈我在实践中的错误,也希望可以帮助更多的同学快速上手并且体验实战中乐趣。
但是,当我接下整理这部书稿的任务之后,忽然感觉自己身上的担子重了很多。特别是在得知这本书很有可能被选为通用教材之后,立刻发现之前所有我发布在互联网上的帖子几乎都不可用。原因是,作为一部教材就更要设身处地为读者着想,尤其是这本教材的目标受众不仅仅是计算机专业人士,更有非计算机专业的爱好者和初入此道的本科生。所以,我几乎重新编制了整部书的提纲,参考网上的帖子重写了第二和第三章节,并且考虑到不同层次读者的需求,增加了第一章节的Python编程基础和第四章Kaggle竞赛实战等相关内容。
尽管时间仓促,笔者也力求全书可以条理清晰、深入浅出地为广大读者朋友服务;但也有因能力所限、力所不逮之处,还望各位朋友批评指正,及时勘误。
最后,再次感谢您购阅《Python机器学习及实践》,并借由笔者本人时常所引用斯蒂夫·乔布斯的一句名言,作为本书的收尾:求知若饥、虚心若愚(Stay Hungry, Stay Foolish),希望在今后的人生道路上能与读者朋友们共勉。
写于中国北京清华园
2016年5月1日
Bodhin 2016-11-29
对得起这个名字,按照书中操作,对于机器学习会有一个简单的认识,深入了解还需要继续学习。绝大部分内容都是在教读者用sklearn。