人工智能技术的快速发展,带来了技术平台和行业应用的繁荣,从Caffe、CNTK、CoreML到TensorFlow、TensorRT,从CPU、GPU到TPU、FPGA、ARM,从图形处理、视觉识别到自然语言处理,技术体系越来越复杂,开发门槛越来越高;大量的技术人员需要不断授受技术更新,更多的应用需要考虑额外的迁移成本,更多的市场需要投入大量的资源以充分体现人工智能赋予的价值。
目前产业界开始出现少量技术使用门槛低、应用开发方便的机器学习平台(Machine Learning Platform,MLP)或者数据科学平台(Data Science Platform, DSP),但这些平台大部分还局限在特定行业的有限算法应用,需要不断进行架构优化、模型扩展和算法增强,提供多种场景下的应用迁移工具,才能形成较为成熟的产品化平台。
星环科技作为国内大数据和人工智能平台的领航者,自2013年成立以来,专注于企业级容器云计算、大数据和机器学习核心平台的研发和服务,拥有一批来自国内外著名高科技企业和科研院校的优秀专业人才,是国内大数据领域最早掌握核心技术的企业,也是最早开展机器学习平台理论与实践的公司之一,产品在政府、金融、公安等行业得到大规模应用。
星环科技人工智能平台Sophon是从大数据到人工智能演进过程中诞生的一款创新性机器学习技术平台。用户可以基于该平台快速完成从特征工程、模型训练到模型上线的机器学习全生命周期开发工作。
Sophon平台具有以下技术特点:
q采用去中心化的全分布式架构、性能线性扩展,满足海量数据处理模式下的快速训练和精准推理要求。
q一站式的机器学习集成开发平台,支持自动化开发、图形化操作及可视化建模,可快速构建行业应用解决方案。
q支持多种复杂算法,支持自定义模型和算法导入,可适应多种特定应用场景的复杂建模和模型迁移要求。
q集成大量面向行业领域的分析工具,如实体画像、视频分析、自然语言处理等,便于第三方应用快速定制开发。
q支持深度学习的知识图谱,能够便捷实现含图结构的应用建模,支持实体间多关系图的分析展示和演进变化,发现更有价值的图谱关系。
随着使用机器学习平台的用户越来越多,应用场景日益广泛,非常需要一本关于机器学习理论总结和实践指导的专业图书,不仅可以讲解整体知识体系的理论基础,也可以作为使用星环人工智能平台(Sophon)工具的指导手册。
目前市面上销售的机器学习相关书籍,要么偏重原理介绍和公式推导,要么重点描述开源算法的实现调用,无法满足二者兼顾的要求。为此,我们结合理论分析和实践指导要求,编写了这本面向机器学习一线工程技术人员的专业书籍。它既能帮助读者深入理解相关算法原理,也有助于读者学会利用专业工具平台快速搭建模型,构建机器学习的行业应用。
本书内容覆盖了机器学习领域从理论到实践的多个课题,总共分为10章。
第1章为导论,介绍机器学习的背景、定义和任务类型,构建机器学习应用的步骤,以及开发机器学习工作流的方式。
第2章详细介绍数据预处理和特征工程,并辅以实例进行验证。
第3~6章介绍回归模型、分类模型、模型融合、聚类模型,这些内容是机器学习理论和实践中的传统重点。其中不仅介绍对各种常见数据类型的处理方法,还针对删失数据进行了专门的综述和实践。
第7章介绍机器学习领域较难的图计算,并从工业界视角解读如何将图计算落地。
第8章针对特征工程、建模过程中大量调参的场景介绍自动机器学习的理论和应用,并细致比较和测试了各种自动特征工程算法在不同数据上的表现。
第9章介绍自然语言处理(词向量、序列标注、关键词抽取、自动摘要和情感分析),使用新闻文本数据搭建文本分类的流程。
第10章介绍计算机视觉中图像分类和目标检测的应用以及落地案例(车辆检测)。
书中的第1~2章是基础内容,建议读者认真阅读,其他章节则可根据需要选择性地阅读。
全书由孙元浩和杨俊统一主持和整理,参与编写的作者还包括杨一帆、裴瑞光、林木丰、乐向楠、陆增翔、蒲瑜琪、李祥祥、曾宪宇、赵文谦、林晨、浦锦毅、安磊、许凯琪、孙乐飞和吴香莲。
本书从雏形到定稿,历时近一年,非常感谢参与本书编纂校对工作的算法工程师和架构师,没有他们无私的理论分享和实践指导,本书是难以高质量完成的。在此我们对所有编者表示衷心的感谢和敬意。
孙元浩
2019年7月