你可能经常听到大数据这个词,但你真的知道大数据究竟是什么吗?大数据为什么如此重要?大数据能否对你的组织造成影响,从而带来改进和竞争优势?是否存在这种可能——不使用大数据会让你在竞争中处于劣势?
本书的目的在于解析“大数据”这一名词,同时向你提供用数据科学和机器学习来充分利用这些数据的实践方法。
大数据是一类新的数据,具有以下特点:数据量大,并且数据量还在持续、迅速地增长,同时,其数据结构并不符合传统的数据结构。“大”这个字眼是一种轻描淡写的说法,它并不能充分地说明实际情况的复杂程度。我们所处理的数据不仅仅是比传统的数据量大,更是与传统的数据有本质上的区别,就好比一辆摩托车并不是大一点的自行车,一片海洋也并非大一点的游泳池。大数据带来了新的挑战,创造了新的机会,模糊了传统的竞争界限,因而需要新的方法来帮助我们从数据中获取有形的价值。海量数据与为处理此类数据而开发的技术结合,提供了对大规模数据的洞察角度,由此掀起了一股机器学习的浪潮,产生了由计算机驱动汽车的无人驾驶系统、比医生更为精确的心脏病预测系统,以及比人类更精通复杂游戏(如围棋)的计算机系统。
为什么大数据是一个规则的改变者?正如我们将看到的,通过大数据,我们可以获得对数据更深层次的洞察力,从而理解促进消费者购买的因素以及生产线效率降低的原因。大数据不仅可以让商家实时地为全球数以百万计的用户提供高度个性化的体验,而且能够为诸如癌症研究、航天、粒子物理学等领域提供同时分析十亿量级数据的计算能力。大数据还提供了数据和计算资源,使得人工智能重新崛起,其中最具代表性的就是引领全球的基于深度学习的技术。
没有局限于数据本身,在过去的二十年里,研究者和工程师们还开发出了硬件和软件结合的一整套生态系统,来收集、存储、处理和分析这些丰富的数据。本书将这些硬件和软件工具统称为大数据生态系统。这一生态系统能够帮助我们从大数据中挖掘出巨大的价值并将其应用于商业、科学和健康领域。想要利用大数据,你需要将大数据生态系统中的各个部分整合在一起,并选择出适合你的应用场景的最佳解决方案。