数据科学是一门新兴的交叉学科。数据科学人才需要同时具备理论性、实践性和应用性等多方面的素质。数据科学的知识点涵盖了编程语言、数学基础、数据清洗、数据可视化、数据分析和分布式计算等,如此广泛的知识面,再加上当前中文数据科学资源的严重匮乏,给数据科学的初学者带来了很大的挑战。
为了应对这一挑战,博雅大数据学院组织编写了本书,旨在以简明、生动和系统的方式,帮助数据科学初学者高效便捷地查阅数据科学的知识点和实践工具的使用方法,从而提高实践能力。
本书将数据科学的知识模块划分成编程语言、数据分析、数学统计理论、数据可视化、机器学习、图像处理和分布式计算七大模块,在每一个模块,对核心的理论知识进行了介绍,重点介绍了该模块的典型实践工具的使用方法。在数据科学领域,Python拥有较为完整的生态圈,而且入门门槛较低,因此本书主要介绍基于Python语言的数据科学实践工具。速查表既有重要的公式推导,也包含常用的代码示例。我们力图通过简练的语言、精美的图表,展现数据科学相关技术和工具的核心技能点,帮助读者快速检索知识,提升学习和工作效率。
本书既可以作为数据科学与大数据技术专业教师和学生的学习资料,也可作为数椐分析师、数据工程师和算法工程师等数据科学从业者项目实践的参考工具。对大数据感兴趣的读者也可通过本书对数据科学的知识框架和实践工具有初步的认识,为进一步的深入学习打下良好的基础。
本书是集体创作的成果。参与本书写作的还有博雅大数据学院实习生陈朋路、王鲸和张嘉田,博雅大数据学院的邵江龙、郑州、闫晗和袁星星等对本书进行了细致的校对工作,中国民航大学周茂袁老师、北京信息科技大学刘亚辉老师、华北理工大学龚佃选老师、中国民航大学硕士研究生刘涛对本书初稿进行了审校。在本书正式出版之前,我们通过数据酷客发布了本系列速查表的初稿,得到了众多数据酷客用户的宝贵修改建议,在此作者一并表示感谢。