前言
早在《大数据时代》(维克托·迈尔·舍恩伯格,浙江人民出版社,ISBN 9787213052545)的论述中就提到,只有占大数据95%的非结构化数据被利用起来,我们才能打开一扇从未涉足的世界的窗户。
当前商业场景已经从传统的互联网模式发展到场景化、内容化的新阶段,直播带货、短视频营销、社群营销、私域运营等营销和运营方式快速发展。新的商业场景对视频、图片、音频等非结构化数据的依赖越来越大。进入AIGC时代,内容生产日益加速,非结构化数据呈指数级增长,非结构化数据在大数据中所占的比重越来越高。
2024年是数据资产元年,数据已经从推动社会发展的基础性资源发展成为社会和企业重要的资产。非结构化数据资源的体系化管理,通过开发和治理形成资产并赋能业务,是企业面临的重要任务。
当前大数据发展到了这样的阶段: 数据形态向着非结构化方向发展;数据生成方式向着AIGC发展;商业运营模式向着场景化、内容化发展;数据价值向着资产化、市场化和资本化方向发展。
非结构化数据非结构化数据(Unstructured Data),是指没有预定义的格式,不能用传统的关系型数据库来存储的数据。非结构化数据包括任何形式的文本、图像、音频、视频、电子邮件、社交媒体帖子等。的价值释放,是当前数据领域乃至当前时代亟须解决的问题。
然而,当前的数据仓库、数据湖仓等技术体系不能系统性地对非结构化数据进行资产化管理,无法充分释放非结构化数据价值。目前的技术路线基本是采用从视频、图片等非结构化数据提取信息,将其转化为结构数据的方式进行分析。
直接转化成结构化数据的方式,破坏了非结构数据的语义逻辑,损害了数据内部的上下文关系,损失了数据的价值内含;容易产生歧义,造成数据的错误;无法对数据进行有效组织、实现数据互通并实现知识生成和价值创造;没有完整落地非结构化数据语义内容形成数据资产,无法发挥数据体系的体系化数据资产管理,一次开发、重复使用等系统优势。
人们构建各种数据体系,研究出各种数据技术,最终目的是为了挖掘获取数据的价值,我们需要的是数据中蕴含的价值,而不是数据本身。这些价值就存在于语义之中。结构化数据借助关系型的结构模型来表达语义;非结构化数据通过其丰富的描述能力来表达语义。
哲学思想告诉我们语言即世界,语言在描述世界;在计算机和人工智能科学中,数据的定义是对世界事物和事实的记录。语言和数据都通过语义来描述世界,在计算机和人工智能科学中,语言文字是一种数据形态。
人类智能和机器智能在语义空间相汇,用技术的语言表达: 人工智能技术在神经网络的向量空间中,解读了语言符号之间的关系。这也是大模型智能的来源。
结合我们在数据领域的经验,以语义化为思想、文本化为手段,构建全域全形态的企业级数据体系,是底层的需求,是营销和运营发展到新商业阶段对非结构化大数据的需要。而以大模型为标志的人工智能技术,到了能够解读这些非结构大数据的阶段。为了获取数据价值,我们可以跳出数据形态的制约,在数据形态的上层——语义层,构建数据体系,我们称这个数据体系为数智平台。
内容导读
在本书提出的构建数智平台的方法论中,把论述重点放在了对非结构化数据的价值挖掘上,从而构建全域全形态数智平台。
全域: 是指结合了结构化数据和非结构化数据,使数据体系能够覆盖业务运营的全流程,也就是说数据的主题域更完整。例如,能够将视频营销、直播运营等新商业场景的业务活动,也包含在数据主题域之中。
全形态: 是指在数智平台中,视频、音频、图片、文本等非结构化数据能被完全解读,非结构化数据的语义被数据化和资产化,非结构化数据和结构化数据共同构成数智平台的数据体系。
书中采用了很多与传统数据技术不同的技术思想,如语义化的思想、解读式的数据处理、大模型数据分析、生成式ETL、全域逻辑视图、双轮驱动的数据体系等,请读者重点理解采用这些技术方式的理念和方法。
本书主要介绍构建智能时代数据体系的思想和方法论,因此在理念和理论上给予了相对较多的篇幅,思维打开,方案自来。当前,基础的大数据技术已经相对成熟,同时大模型的能力正在日益强大。按照本书介绍的思想和方法论,架构师能够根据企业的实际情况规划设计出更加适合企业自身的技术方案。
我们希望处于不同阶段的企业、更加广泛的人群都能够从书中有所收获。技术人员和非技术人员都可以从第一篇和第二篇中了解智能时代数据体系的构建思想、数智融合的原理。在第三篇中,我们结合过往经验给出了数智平台的构建方法,供CDO、CTO、CIO和数据架构师等在做相关规划时参考。第四篇介绍了在当前商业场景下,全域全形态的数智平台在企业的业务活动中能够提供的赋能支持,以及数智平台对企业数智化转型的价值,希望对企业负责人、企业高管和业务人员在营销和运营等业务活动中有所帮助。
致谢
首先感谢和我一起编写这本书的龚雪菲和孙践伟两位伙伴。我们紧密合作,一起度过了这段充实的时光。在编写的过程中,我们还一起交流生活、探讨科技的未来,这是一段令人难忘的美好经历。
感谢我的好友杨嵩、张磊、董淑洁和郭炜,他们具有二十余年数据领域的丰富经验,参与了本书的策划、讨论等很多具体的工作。
杨嵩,前埃森哲董事总经理,大数据与云计算负责人。
张磊,前Teradata、SAS首席数据科学家。
董淑洁,前Teradata、埃森哲技术顾问;德勤(加拿大)财务计划与分析总监。
郭炜,ClickHouse华人社区创始人、白鲸开源CEO。
感谢王可、刘佳、宗彦旭,他们为本书提出了宝贵的意见。
王可,泰康人寿资深数据架构专家。
刘佳,贝壳找房大数据中心负责人。
宗彦旭,澳门科技大学人工智能专业学生。
宗东东2025年3月