人工智能时代的数据体系 收藏

  • 书籍语言:简体中文
  • 下载次数:1374
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-08-01 15:10:02
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:宗东东
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

人类已进入到智能时代,多模态数据成为大数据的主体,非结构化数据在大数据中的体量急速增长,数据的内涵也正在回归到大数据的原始定义。然而,当前企业级数据体系仍然以处理企业内占比很小的结构化数据为主,无法对企业的数据资产进行统一管理和深度价值挖掘。构建能够贯通全形态数据、覆盖全业务流程的数据体系,是当前时代大数据领域和企业数据体系面临的重要且紧迫的任务。

本书提出了以语义为思想、以文本为基础数据,应用大模型的数据解析和分析推理能力来重构企业级数据体系的方案;同时本书介绍了融合全形态数据后,在当前新的商业场景下,企业如何在营销和运营中使用数据并赋能业务,以及如何推动企业数智化转型。


下载地址

序言

前言



早在《大数据时代》(维克托·迈尔·舍恩伯格,浙江人民出版社,ISBN 9787213052545)的论述中就提到,只有占大数据95%的非结构化数据被利用起来,我们才能打开一扇从未涉足的世界的窗户。

当前商业场景已经从传统的互联网模式发展到场景化、内容化的新阶段,直播带货、短视频营销、社群营销、私域运营等营销和运营方式快速发展。新的商业场景对视频、图片、音频等非结构化数据的依赖越来越大。进入AIGC时代,内容生产日益加速,非结构化数据呈指数级增长,非结构化数据在大数据中所占的比重越来越高。

2024年是数据资产元年,数据已经从推动社会发展的基础性资源发展成为社会和企业重要的资产。非结构化数据资源的体系化管理,通过开发和治理形成资产并赋能业务,是企业面临的重要任务。

当前大数据发展到了这样的阶段: 数据形态向着非结构化方向发展;数据生成方式向着AIGC发展;商业运营模式向着场景化、内容化发展;数据价值向着资产化、市场化和资本化方向发展。

非结构化数据非结构化数据(Unstructured Data),是指没有预定义的格式,不能用传统的关系型数据库来存储的数据。非结构化数据包括任何形式的文本、图像、音频、视频、电子邮件、社交媒体帖子等。的价值释放,是当前数据领域乃至当前时代亟须解决的问题。

然而,当前的数据仓库、数据湖仓等技术体系不能系统性地对非结构化数据进行资产化管理,无法充分释放非结构化数据价值。目前的技术路线基本是采用从视频、图片等非结构化数据提取信息,将其转化为结构数据的方式进行分析。

直接转化成结构化数据的方式,破坏了非结构数据的语义逻辑,损害了数据内部的上下文关系,损失了数据的价值内含;容易产生歧义,造成数据的错误;无法对数据进行有效组织、实现数据互通并实现知识生成和价值创造;没有完整落地非结构化数据语义内容形成数据资产,无法发挥数据体系的体系化数据资产管理,一次开发、重复使用等系统优势。

人们构建各种数据体系,研究出各种数据技术,最终目的是为了挖掘获取数据的价值,我们需要的是数据中蕴含的价值,而不是数据本身。这些价值就存在于语义之中。结构化数据借助关系型的结构模型来表达语义;非结构化数据通过其丰富的描述能力来表达语义。

哲学思想告诉我们语言即世界,语言在描述世界;在计算机和人工智能科学中,数据的定义是对世界事物和事实的记录。语言和数据都通过语义来描述世界,在计算机和人工智能科学中,语言文字是一种数据形态。

人类智能和机器智能在语义空间相汇,用技术的语言表达: 人工智能技术在神经网络的向量空间中,解读了语言符号之间的关系。这也是大模型智能的来源。

结合我们在数据领域的经验,以语义化为思想、文本化为手段,构建全域全形态的企业级数据体系,是底层的需求,是营销和运营发展到新商业阶段对非结构化大数据的需要。而以大模型为标志的人工智能技术,到了能够解读这些非结构大数据的阶段。为了获取数据价值,我们可以跳出数据形态的制约,在数据形态的上层——语义层,构建数据体系,我们称这个数据体系为数智平台。

内容导读

在本书提出的构建数智平台的方法论中,把论述重点放在了对非结构化数据的价值挖掘上,从而构建全域全形态数智平台。

全域: 是指结合了结构化数据和非结构化数据,使数据体系能够覆盖业务运营的全流程,也就是说数据的主题域更完整。例如,能够将视频营销、直播运营等新商业场景的业务活动,也包含在数据主题域之中。

全形态: 是指在数智平台中,视频、音频、图片、文本等非结构化数据能被完全解读,非结构化数据的语义被数据化和资产化,非结构化数据和结构化数据共同构成数智平台的数据体系。

书中采用了很多与传统数据技术不同的技术思想,如语义化的思想、解读式的数据处理、大模型数据分析、生成式ETL、全域逻辑视图、双轮驱动的数据体系等,请读者重点理解采用这些技术方式的理念和方法。

本书主要介绍构建智能时代数据体系的思想和方法论,因此在理念和理论上给予了相对较多的篇幅,思维打开,方案自来。当前,基础的大数据技术已经相对成熟,同时大模型的能力正在日益强大。按照本书介绍的思想和方法论,架构师能够根据企业的实际情况规划设计出更加适合企业自身的技术方案。

我们希望处于不同阶段的企业、更加广泛的人群都能够从书中有所收获。技术人员和非技术人员都可以从第一篇和第二篇中了解智能时代数据体系的构建思想、数智融合的原理。在第三篇中,我们结合过往经验给出了数智平台的构建方法,供CDO、CTO、CIO和数据架构师等在做相关规划时参考。第四篇介绍了在当前商业场景下,全域全形态的数智平台在企业的业务活动中能够提供的赋能支持,以及数智平台对企业数智化转型的价值,希望对企业负责人、企业高管和业务人员在营销和运营等业务活动中有所帮助。

致谢

首先感谢和我一起编写这本书的龚雪菲和孙践伟两位伙伴。我们紧密合作,一起度过了这段充实的时光。在编写的过程中,我们还一起交流生活、探讨科技的未来,这是一段令人难忘的美好经历。

感谢我的好友杨嵩、张磊、董淑洁和郭炜,他们具有二十余年数据领域的丰富经验,参与了本书的策划、讨论等很多具体的工作。

杨嵩,前埃森哲董事总经理,大数据与云计算负责人。

张磊,前Teradata、SAS首席数据科学家。

董淑洁,前Teradata、埃森哲技术顾问;德勤(加拿大)财务计划与分析总监。

郭炜,ClickHouse华人社区创始人、白鲸开源CEO。

感谢王可、刘佳、宗彦旭,他们为本书提出了宝贵的意见。

王可,泰康人寿资深数据架构专家。

刘佳,贝壳找房大数据中心负责人。

宗彦旭,澳门科技大学人工智能专业学生。


宗东东2025年3月


目录

目录



第一篇智能时代的数据内涵与体系困局


第1章未来已来,数据之变// 003

11非结构化的数据洪潮// 003

12AIGC?不,是AIGD!// 004

13新商业场景下,非结构数据价值突显// 004

14数据资产入表,数据直接产生价值// 006


第2章进一步认识非结构化数据// 008

21大数据的多视角定义// 008

22剖析非结构化数据的特性// 011

23当前商业环境中两种重要的非结构化数据// 013

24语言文字: 普遍而特殊的非结构化数据// 015


第3章数据体系的演进与存在的问题// 017

31数据的价值演进// 017

32数据的发展及贡献// 020

33当前体系之困: 数据体系的缺陷// 026

34当前数据之痛: 数据域不完整// 028


第二篇数智平台的理论与规划


第4章打开非结构化黑盒,释放数据价值// 033

41构建数智平台是时代的使命// 033

42释放非结构化数据价值是首要任务// 034

43使用大模型打开结构黑盒// 035

44基于大模型的解读式数据处理// 038

45大模型解读数据原理// 039

46智造数据,资产落地// 042


第5章基于语义,非结构化数据转译为文本数据// 045

51数据的价值在语义中// 045

52结构化数据也是一种文本数据// 048

53从数据的角度看文本归一化// 048

54语言即世界,语言即数据// 050

55语义理论在数智平台中的应用// 052

56人机融汇于语义,数智从语义出发// 055


第6章数智平台体系的规划原则// 057

61讨论Bill Inmon的数据架构// 057

62数智平台的设计与规划// 059

63数智平台构建方法论// 060

64对智能技术落地企业的现实性考虑// 063

65体系规划中的技术问题// 064


第三篇数智平台的设计与构建


第7章构建数智平台: 全域全形态的数据体系// 071

71系统架构:纵向分层、横向分池// 071

72“双轮驱动”的平台理念// 075

73“双轮驱动”下的基础数据层// 077

74建立数据连接,贯通全域数据// 078

75结构化数据的数据模型// 079

76数智平台的数据视图// 080

77直播带货场景的逻辑数据视图// 084

78内容运营场景的逻辑数据视图// 087

79数智平台落地实例// 089


第8章构建数智平台: 双流协同的数据流处理// 092

81生成式ETL// 092

82“双流协同”的数据流框架// 093

83GTL1: 非结构数据的语义化// 096

84GTL1: 主题分离提取// 098

85GTL2: 数据聚合入库// 099

86GTL2: 数据规范化// 100

87GTL2: 数据富化// 102

88GTL3: 面向应用开发// 104

89GTL4: 文本数据结构化// 104

810开发和管理复杂的数据流任务// 106


第9章构建数智平台: 智能时代大数据平台的技术栈// 110

91技术栈总体介绍// 110

92大数据平台技术// 111

93文本数据的组织与存储技术// 116

94大模型及相关智能技术// 119

95精炼提示语,提升大模型的分析能力// 123

96其他文本分析处理技术// 127

97生成式开发技术// 131

98数据可视化开发// 134

99智能分析决策// 134


第10章构建数智平台: 全形态数据体系的数据治理// 136

101数据治理的资产管理理念// 136

102数智平台数据治理的复杂性// 138

103元数据管理// 140

104数据血缘关系// 141

105数据质量管理// 144

106数据标准管理// 147


第11章企业大模型落地方法论// 151

111大模型的部署方式// 151

112大模型的私有化方式// 154

113大模型落地的实践参考// 156

114设计灵活扩展的架构// 160

115大模型能力管控原则// 161

116规划大模型落地场景// 161


第四篇数智平台与企业数智化


第12章数智平台与数智化营销// 167

121营销理论的发展与基本商业结构// 167

122数据视角下的经典营销模型// 170

123“人货场”数据模型: CPC// 174

124数据视角下的新商业场景// 176

125新商业场景营销模型: SPCC// 184


第13章数智平台与数智化运营// 188

131奠定新商业场景数据运营的基础// 188

132提升内容运营互动能力// 199

133赋能直播与实时互动// 205

134提高新场景的销售转化率// 208


第14章数智平台与企业数智化// 214

141智能时代的数智变革// 214

142从数字化转型到数智化转型// 217

143数智化转型营运先行// 220

144案例: 如何高效率推动数智项目// 222


参考文献// 224


后记// 225


短评