人工智能技术由于数据、算法、硬件支撑的计算能力等核心要素的共同发展,进入了广泛的、实质性的应用阶段。在不远的将来,我们肯定能看到人工智能及其相关技术在不同行业发挥巨大的价值。
增强型分析将会长足发展
多年以来,人们在构建模型时总是要花费大量的时间和精力在准备数据、数据预处理、多次尝试构建模型、模型验证等过程上。在工业发展的历程中,纯手工打造的时代势必要被标准化流水线的工厂取代,因为工序分解后可以按照统一的模式来处理。构造模型的过程也可以从纯手工打造时代发展为一个更加智能化的时代。笔者十年前在SPSS任职时,就深度参与了自动化建模相关组件的开发,即同一个模型可以按照不同的算法来实现并通过同一个评价指标筛选出最优模型。这样的功能在现在的开源算法库(如sklearn)中已经非常常见。最近AutoML、H2O等知名开源平台使得自动化建模又有了长足的发展。然而建模自动化并不是终点。
增强型分析(Augmented Analytics)于Gartner在2017年7月发表的《增强型分析是数据及分析的未来》报告中首次进入人们的视野。其核心的概念包括:
智慧数据洞察(Smart Data Discovery)。应用相关的工具能够比较智能和自动化地实现数据收集、准备、集成、分析、建模,能够输出各种洞察,可以为人们在战略方向、对应具体范围的战术活动(如针对某市场机会发起营销)、执行(具体执行营销策略)等不同层面的活动提供指导,包括相关关系的发现、模式识别、趋势判断与预测、决策建议等。
增强型数据准备(Augmented Data Preparation)。提供智能化的工具使得业务人员能够快速、轻松地访问数据,并连接各种数据源通过统一的、标准化的、可交互的视图展现内容、数据间的关系等。同时提供丰富的工具进行自动数据归约、清洗、智能化分箱、降噪等功能。增强型数据要能够在原数据和经过数据治理后的数据间灵活处理,尽量避免因为数据治理而丢失信息,同时也避免在大量原数据间进行无序的探索。
从上述的定义中可以看出,增强型分析的特点是其可以智能和自动地完成数据准备和数据分析的工作。对于增强型分析的一个美好的预期就是“交给机器大量的原数据,机器直接针对特定场景给出决策建议”。要实现这个愿景需要人们至少完成如下的几个要点。
(1)大数据存储与访问
基于大数据平台的存储、计算的相关技术发展很快,目前已经比较成熟,能够高效地处理大量数据。
(2)数据分析流程的组件化、标准化改造
数据分析过程中关键步骤如数据收集、准备、集成、分析、建模等过程,需要细分为不同的子任务,并通过子任务间的灵活搭配构成数据分析的流程。流程的自动化运行以及对应的有价值的结果输出已经有了较好的组件,如H2O等。
(3)提供大量的算法支持数据处理、模型构建
算法既可以用来构建业务模型,也可以用来分析数据间的关系、进行变量聚类等工作。
(4)将“模型洞见到业务决策”纳入分析范围
模型输出洞见,如模型输出每一个客户的购买可能性,还需要配套如“当购买可能性大于90%时再根据时机因素进行推荐”的业务决策,才能在实际营销活动中实施。这是一个“洞见—决策—行动”的过程。
实现增强型分析所需的技术势必是庞杂的,本书的重点涵盖范围是数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。这些内容既是我们日常建模时要用到的技术,也是增强型分析中必不可少的内容。虽然增强型分析的表现形式是追求智能化、自动化等功能,但是增强型分析的终极目标还是通过数据分析发挥数据价值。目前增强型分析还处于概念在逐步清晰但需要不断发展的阶段,所以本书的重点是聚焦在其本质内容,即数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。
本书特点
应用机器学习、人工智能技术不仅需要理解算法原理,还需要对算法参数调优、算法使用时的数据要求、算法输出结果,以及如何在具体业务场景使用数据挖掘模型等方面都有所了解,这样才能真正发挥数据价值,产生实际的业务效果。
本书作者结合多年来给不同的大型机构“构建数据挖掘模型、解决实际业务问题”的实践,总结归纳技术、应用等方面的经验,以“介绍较新机器学习及人工智能技术”和“如何应用这些技术解决实际问题”两个方面作为本书的整体选题思路。总体来讲,本书具有如下两个主要特点。
(1)介绍较新的技术
有监督学习的建模技术早已不是只懂得算法就可以了。目前基于集成学习、Grid Search、交叉验证等自动化建模技术方兴未艾,这些技术在专门的章节作了重点介绍;基于序列模式挖掘、序列规则、序列预测等进入公众视野还较新的技术在实际业务中有巨大的价值,这些也是本书介绍的重点;对于目前比较火热的深度学习、对抗学习等内容,本书也有专门的章节进行介绍。从这些技术的特点来看,已经具备了增强型分析的部分特点,如集成学习的技术就是旨在将多个模型结合起来,达到相对于单独采用一个模型而明显改善的效果。
(2)兼顾原理与大量实例
按照深入浅出的方式介绍算法原理、参数调优及使用方法等信息,并结合实际例子展示如何使用以及使用时的思路。笔者采用“深入浅出的原理介绍 + 实际使用的案例”的内容安排,期望能够让读者真正了解机器学习及人工智能的技术原理、特点与使用方法,并能直接在实践中起到指导作用。
除此之外,在本书中涉及汉语直译不能达意的词汇时都是采用英语原词,方便读者能够与科技类的英文材料对应,尽量避免生硬翻译带来的疑惑。在本书的大量实例中,代码注释基本上都是英文的,这与笔者多年的编码习惯有关。
读者范围
本书的目标读者是实际解决业务问题的数据分析建模人员。目前各个企业在应用机器学习及人工智能方面,不断在人才、技术、平台方面进行投入,特别是不断招聘了大量的数理统计、机器学习方面的人才。但是能够实际解决业务问题的数据分析建模人员,除了对算法原理要了解外,还需要对业务有一定了解,同时需要打开眼界快速了解不同的建模方法能够解决什么问题;除此之外,还要具备较高的实践能力,能够灵活应用不同的技术工具来快速完成任务。
本书“深入浅出的原理介绍 + 实际使用的案例”的内容安排能够使得数据分析建模人员从算法原理、数据挖掘知识结构、业务应用方法等方面得到提升,帮助数据分析建模人员开阔眼界、优化知识结构、提升实践技能。
从整体来说,本书适用于中、高级的数据分析建模人员,但是初学者也能从实例中得到重要的参考。
章节概要说明
在本书的内容安排中,保持业务和技术两个主线:业务主线是数字化转型背景下的智慧营销、智慧风险管控如何通过数据分析完成具体工作,实现由初级的“主动营销”到“被动营销”,再到“全渠道协同营销”等营销手段的升级应用;技术主线是从常见算法的较新发展到深度学习及对抗学习的“复杂度由低向高”“分析技术由预测性分析到Prescriptive分析”进行介绍。具体对应于大纲的内容如表1所示。
表1 本书章节大纲概览
章节 技 术 业 务
内容概要 技术分类 内容概要 业务分类
第1章 鼓励数据科学家加入数字化变革的进程,与业务深度结合
第2章 数据处理技巧、数据可视化等 描述性分析
第3章 介绍预测类模型构建时的新方法、新思路、新工具 预测性分析(输出洞见) 通过一个具体案例,利用看重客户需求而从众多产品中寻找最可能的推荐。较之前单个产品响应预测,是从“以客户为中心的视角”来产生推荐,以解决多产品排序的问题,实际效果有较大提升 主动营销
第4章 介绍序列分析的相关技术,应用较新的算法以实例的方式说明算法原理、特点、注意事项等 客户行为是不是存在一些共有模式?客户下一个行为会是什么?这些都是具体营销和分享管控领域的实际问题,对营销和风险的具体决策具有非常大的影响。仔细挖掘,善于应用,往往能取得非常好的效果 事件式营销(被动营销)
第5章 介绍Prescriptive Analytics的相关技术,这方面的技术注定会成为数据分析不断深入应用时要用到的重点技术 Prescriptive 分析(输出决策) 因为传统模型大多只输出名单,而Prescriptive Analytics模型要输出的是“名单 + 决策”,实现真正的智能决策 全渠道协同营销(考虑成本、收益等诸多限制因素)
第6章 通过与传统模型的对比,介绍CNN算法的原理,通过大量实例说明其特点、用法、实际效果等
第7章 通过介绍RNN算法的原理、特点,以大量实例的方式说明其用法 通过LSTM算法研究客户行为预测,掌握精准的营销时机 基于客户行为事件式营销
第8章 通过介绍Generative Adversarial Network算法的原理、特点,以实例的方式说明其用法
总体来讲,本书是一本既能扩展读者视野又具有实际参考价值,能够紧贴实际业务的关于大数据与人工智能的书籍。
在上述章节中,笔者完成了大部分工作,另外两位作者协助笔者做了一些内容补充,这些内容包括:张宗耀完成了2.1节、2.2节、3.6节、5.4节、7.3节;聂磊完成了第2章的大幅修改、5.5节、5.7节、6.2节。在整个写作过程中,大家经常一起讨论、相互学习,这个过程很愉悦!
为什么写这本书
笔者自2008年加入IBM SPSS,从一个单纯的软件开发者变身为数据分析行业的参与者至今已经快11年了。在这段时间,数据分析行业发生了巨大变化,作为行业的参与者,笔者自身从业经历也在不停地发生变化。总结下来,笔者遵从“数据分析驱动业务”的主线,按照“软件开发人员——数据挖掘工具开发者和团队管理者——资深数据科学家——深入理解业务的资深数据科学家——深刻理解数字化变革的高级咨询顾问和管理者”的职业路径,在数据分析行业的浩瀚波澜中前行。这些年的从业经历,笔者有如下几点感触。
(1)从事数据分析行业的人是需要不断充电的
用“日新月异”来形容数据分析的发展是最为确切的了,新技术、新论文不断涌现。大量书籍上描述的是一些基本的算法,对于新技术、新算法,我们应该永远保持不断学习的态度,才能在日常数据分析实践中不断发挥作用。书中并没有讲大家在很多书籍上能看到的传统算法,而是重点讲一些大多数书籍还未涉及的内容。
(2)真正发挥数据价值需要融会贯通数据与业务
在很多情况下,当数据科学家花费大量时间和精力构建出模型后,兴高采烈地试图交给业务人员使用时,往往会遇到一个有趣的情况:业务人员听不懂你对高深算法的解释,甚至不在乎你对数据的各种费心处理,他们只关心实际的问题,如模型到底效果如何。所以在本书中穿插了大量与业务相关的例子。
(3)数字化变革的浪潮与数据分析的广泛应用密不可分
数字化变革是目前几乎所有企业都无法回避的任务。企业由于所处行业、自身特点等原因,需要量身定制数字化转型的战略。大型企业需要选择发展重点作为突破方向,在转型过程中既要做好技术基础,也需要大力推行敏捷的方法,同时要对人们的观念、组织内的流程等方面做出更新。数据分析的广泛应用在数字化变革中势必要发挥巨大作用。笔者认为数据分析者要“抬头看”,深刻地参与到数字化变革的浪潮中。
本书的写作历时近一年,笔者在做好本职工作的同时花费了巨大的精力总结归纳过往项目经验、学习研究新技术。这个过程既是一个自我充电的过程,也是一个不断总结归纳的过程。笔者试图尽力做到将自己走过的路按照深入浅出的方式讲出来,期望提供一定的参考价值。这也是笔者写这本书的目的。
笔者相信书中难免有一些疏漏,非常希望能够得到阅读反馈。读者可以通过yfc@hzbook.com联系到笔者。
感谢
笔者年近不惑,能够有大量时间花费在写书上,是因为笔者的父母、爱人、孩子给笔者铸就了一个坚强的后方。“风暖春日雪,化作涓涓流”,这是爱人、孩子和笔者在一次春游时看到终南山中的雪即兴而作的。其实这也能对应到现实中,家人的爱和关心让笔者在前行时如沐春风,遇到困难时他们就是笔者的动力!同时也感谢笔者的三个姐姐对笔者的关心和鼓励。
感谢另外两位作者张宗耀和聂磊,一位是我的师弟,另一位是与我完成过第一本书《发现数据之美——数据分析原理与实践》的合著者。兄弟之情已经在聚会、讨论、相互学习、写作中镌刻在我们各自的人生轨迹中!
感谢德勒中国副主席、金融服务业领导合伙人吴卫军能够在百忙之中给本书作序并给出非常积极的评价。吴总在写序过程中,严谨的工作态度给我留下深刻印象,这使我觉得他的序言非常重要。感谢笔者的研究生导师——西安交通大学朱利教授的鼓励与肯定,并欣然接受给本书作序的请求。青春挥洒的校园生活是笔者不能忘记的,特别感谢老师在笔者上学期间的关心与培养。
感谢笔者的老板吴颖兰(德勤全球主管合伙人)在笔者写作过程中的鼓励;感谢上海依图网络科技有限公司COO张小平在笔者写作过程中给予的鼓励;感谢美丽聪慧的同事崔璨、罗瑞丽能够在笔者写作过程中不断给予鼓励,并提出非常有价值的意见;感谢同事李敬军、曹文俊、刘田林、刘婷婷、仇敏讷、李宸豪、马克、母丹、张宇姮,在一起做项目的过程中,我们相互学习、相互成长。
感谢我们的客户,在项目中我们能够相互学习、相互提高。可以非常肯定地说,客户的很多痛点是笔者不断学习的动力所在。
感谢机械工业出版社杨福川编辑对本书的肯定,他的专业性和工作效率让笔者惊叹。感谢机械工业出版社常晓敏老师在“鲜读”渠道对本书的大力推广,也万分感谢“鲜读”渠道上热心读者给本书内容提出的各种意见和建议。
彭鸿涛