近些年来,我一直在做计算机视觉、自然语言处理和知识图谱等人工智能领域相关的理论研究和产品开发工作,针对不同行业的业务场景,为企业和机构提供智能化的咨询服务和应用系统。同时,我也与颇多的高校和研究所共同合作,与不同研究方向的老师探讨前沿技术和未来的发展方向。这些工作使我有足够多的机会与不同背景、不同行业、不同工作方向和不同诉求的人进行交流,了解他们对人工智能,特别是知识图谱相关的理论、技术和产品应用等方面的看法和观点。这些不同的见解也促使我对知识图谱理论及其应用进行思考,既有面向未来的理论发展方向,也有面向实践的技术落地应用。
在思考的过程中,我萌生了写书的念头,而持续不断的交流与思考则是鞭策我完成本书的原始动力。一方面,编写技术图书能够让我系统地总结前沿技术和应用实践,梳理以往深度思考的结果;另一方面,我也希望通过此书与更多不同行业、不同研究方向的人们进行交流——有关知识图谱与认知智能的前沿研究成果、未来发展方向,以及技术应用实践等。
在有关知识图谱的交流与思考中,我常常会联想到人类自身是如何学习、记忆和使用知识的。事实上,认知智能本身就希望赋予机器像人类一样的认知能力,特别是与人类一样获得知识和应用知识的能力,而知识图谱则是当前认知智能研究的核心。知识图谱构建、存储和应用知识的机制,与人类学习、记忆和使用知识的机制有诸多共通之处。那么,什么是知识图谱呢?
事实上,不同背景的人们对知识图谱的理解大相径庭。比如,有些人认为带标签的搜索是知识图谱,这与他们见过的搜索引擎和知识库的印象相符合,并且更为高级一些;有些人则认为图数据库就是知识图谱,他们通常使用Neo4j 或 JanusGraph 等图数据库来存储数据,并使用Cypher 或 Gremlin 等检索语言实现多跳查询、路径查询等;有些人则认为自然语言处理是知识图谱,他们从语言和文本的角度来看待知识图谱,重点关注了实体抽取、关系抽取、知识的消歧与融合、知识链接、知识问答等;还有一些人认为复杂的逻辑推理才是知识图谱,他们认为知识图谱需要具备时空逻辑演算、一阶逻辑、链接预测等各类规则与算法。
这些角度各异的观点使我想起了我的学生年代。当亲戚和朋友知道我读的是计算机专业时,逢年过节,他们便把电脑的各种疑难杂症都交给我,比如怎么给电脑杀毒、word怎么用、看电影没声音了怎么办、QQ号被偷了怎么找回来、斗地主怎样才能一直赢,问题不一而足。他们可能并不完全清楚计算机专业是做什么的,但问题确实都与计算机专业相关。将这些不同的问题进行扩展、综合、归纳、总结和抽象,也能大致得到一个计算机专业的全景图。同样的,将不同行业、背景和研究方向的人对知识图谱的不同看法进行综合、归纳和抽象,大致就是知识图谱的全貌,也是人们对知识图谱在各自领域和方向的期待。第1章将深入探讨什么是知识图谱。
基于对不同维度的知识图谱的综合,结合神经生物学、认知神经科学和脑科学等学科的粗浅知识,我将知识图谱技术体系的核心总结为知识图谱的构建、存储和应用,对应的正是人们对知识的学习、记忆和使用。如果把知识图谱比作认知智能的大脑,那么构建知识图谱的过程就是人们学习知识的过程,知识图谱的存储系统对应于人类大脑中的记忆系统(海马体—前额叶),而知识图谱的应用系统则对应人们对知识的使用(比如回忆、复杂推理等)。人们可以很自然地将知识的学习和使用分离开来,这也是知识图谱致力于实现的目标。经过类比与思考,我认为类似知识图谱这样的认知方法是实现认知智能的关键。未来的知识图谱形态可能与当前有很大的不同,但应当还是这种将知识的获得和使用相分离的模式。
因此,我对当前基于深度学习的超大模型的能力局限性也有了更为清晰的认识。许多人可能认为类似GPT-3等超大规模深度学习模型的能力非常强大,同时相比于知识图谱所需要的专业知识或领域经验的支撑,其基于巨量训练样本的端到端的应用更加便捷,效果也非常好。确实,如果不考虑成本、应用场景等限制条件,这么说也不算错。但在现实中,这种方式一方面成本过高,不可接受,比如训练一个GPT-3这样的超大规模模型的花费以数千万元计,并且知识是不断更新的(比如原始版本的 GPT-3不存在新冠病毒相关的知识,需要重新加入相关语料进行训练,方可实现相关应用),随时随地重新训练的成本更是天价;另一方面,许多应用场景的样本量非常少,无法支撑超大规模深度学习模型的训练,而人类在学习知识的时候并不需要大量的样本,这也是诸多学者批评深度学习的关键原因之一。
回到知识图谱技术体系本身。试想人们是如何学习知识的,这有助于我们理解知识图谱模式。知识图谱模式是指导知识图谱构建、存储和应用的有效工具,好比人们在学习知识时的大纲——小学、中学及大学中各个不同学科的知识体系。这样的思考促使我更加深刻地认识到知识图谱模式的必要性,我花了许多时间进行实践与思考,并系统总结了与知识图谱模式有关的内容,这些内容体现在第2章中。当然,构建知识图谱所需的抽取工作,包括实体抽取(第3章)和关系抽取(第4章),都属于常规的内容。
在知识图谱的存储系统方面,目前业界所认同的当属图数据库(第5章)。不过,我倒觉得图数据库并非真正实现认知智能时所采用的存储方式,那时的存储系统更可能是深度学习与图数据库的结合,比如图向量数据库、向量图数据库、神经元数据库,或者别的什么。并且,基于存储系统的变革,未来的知识图谱构建技术和应用也会与现在有所不同。在应用层面,本书总结了目前学术研究和行业实践中最常见的方法,分为知识计算(第6章)和知识推理(第7章)进行介绍。知识推理应当是未来认知智能的重点发展方向,也是人类具备强大能力的关键。对于推理理论方面的研究,如果深入本质,则应当是人工智能与认知科学、神经科学、脑科学及哲学等学科的跨学科融合。
事实上,在人类的神经系统和大脑中,知识的学习、记忆和使用并非割裂的,而是有机的一体。同样的,知识图谱的构建、存储和应用也是相互依赖、相互影响的。对于一个具体的应用来说,必然涉及知识图谱的构建和存储,否则应用就是无源之水、无本之木。第8章从实践角度系统总结了行业应用的特点,梳理了金融,医疗、生物医药和卫生健康,以及智能制造三大行业的应用场景。针对知识图谱整体的学术研究还比较少,我在近几年的思考中,认为应当结合人类大脑的情况,将知识图谱的构建、存储和应用作为一个整体进行研究,可能这是真正实现认知智能的一条途径。
上面大致介绍了近年来我对知识图谱的一些思考。知识图谱是认知智能的基石,是现阶段赋予机器一定认知能力的核心技术,但这并不代表未来的知识图谱一定还是现在的知识图谱的样子。知识图谱的前沿理论研究成果、实践应用经验,以及我对知识图谱的思考和总结形成了本书的全部内容。希望本书能够为学术研究和产业落地提供借鉴,为知识图谱乃至认知智能领域的研究人员提供参考,为在产业实践中开发知识图谱系统的工程师提供指导。
“彼节者有间,而刀刃者无厚;以无厚入有间,恢恢乎其于游刃必有余地矣”,祝愿每一位读者都能在知识图谱领域游刃有余!
张***_ 2022-06-17 08:12:11
宝贝收到了,质量很不错,包装精致,材质优秀,比想象中好,送礼自用非常合适,下次继续购买