推荐序
从人工智能(AI)发展的历史来看,符号主义占主导地位的第一代AI 以知识驱动为基础,为人类的理性行为提供模型。这种模型由于和人类的认知推理过程一致,因此具有天然的可解释性,能有效地进行“自我解释”。可惜,由于专家知识的匮乏与昂贵,以及知识获取困难等原因,第一代AI 只得到十分有限的应用。基于深度学习的第二代AI 有良好的性能表现,其应用已经覆盖了各种不同的领域,从图像识别、电商的产品推荐、城市交通系统的疏通决策,到金融风险控制,等等。但深度学习的核心算法都源于“黑盒”模型,其生成结果在本质上是不可解释的,因此难以得到用户的信任。“黑盒”模型给这类系统的使用带来了极大的风险与挑战,特别是风险大的应用场景,如医疗诊断、金融监管和自动驾驶等。因此,发展“可解释人工智能”极为重要且紧迫。
基于深度学习AI 的不可解释性表现在诸多方面,有两种基本类型。
第一种是原理上的不可解释性。由于深度神经网络模型和算法通常十分复杂,加上“黑盒”学习的性质,AI 通常无法对预测的结果给出自我解释,模型十分不透明,需要依靠第三方的解释系统或者人类专家的帮助才能看清其内部的工作原理,本书第4、5 章讨论了这类问题。第5 章首先讨论了一个简单和直观的方法,即对神经网络的事后解释。在一个神经网络训练结束后,通过各种方法从不同的角度对神经网络进行解释,揭示其背后的决策机理,例如利用可视化、神经网络输入单元重要性归因等。在“可解释的神经网络”中,通过以可解释性为学习目标的神经网络,从端到端的训练中直接学习可解释的表征。在第4 章中,作者提出一种基于人机交互沟通的可解释人工智能范式。在基于与或图模型的人机协作解释中,介绍了与或图模型的定义与结构、基于与或图的多路径认知过程,以及如何通过人机协作的交互方式,使图模型的解读过程与人的认知结构一致,从而给出人类更容易接受的解释。以上讨论“解释”的目的均在于揭示神经网络做出预测(决策)背后的原理。其实,这种“解释”工作也可运用于其他场景,如分析神经网络在对抗样本攻击下的行为,从而揭示深度神经网络缺乏鲁棒性的原因,从中找到更好的攻击与防御方法。以打开黑盒揭示神经网络背后工作原理为目的的可解释性,对包括研究者与开发者在内的解释受众(Explainee)来讲是十分有用的,能使之做到心中有数,知道问题的所在,以及可能的改进方向。
第二种属于语义上的不可解释性。深度学习用于挖掘数据中变量之间的关联性(Correlation),而数据关联性的产生机制有以下三种类型,即因果、混淆(Confounding)和样本选择偏差。以图像识别为例,一个基于深度神经网络的图像识别系统,它把某幅图像识别为“狼”,有三种可能依据。第一,它的确出自因果关系,依据“狼”的外形特征,比如头部的特征判定其为“狼”,这种“解释”是本质性的,因此是具有稳定性和鲁棒性的。第二,也有可能依据“狼”身上的某个局部纹理判定其为“狼”。第三,甚至只是根据“狼”图像的背景特征,如草原而做出判断。尽管后两者的结论可能是正确的,但这种依据由混淆或样本选择偏差带来的虚假关联而做出的“解释”,一定是不稳定和缺乏鲁棒性的。遗憾的是,基于深度神经网络的算法通常找到的是“虚假”或“表面”的关联,而不是因果关系。因此这种“解释”对于解释受众中的使用者和决策者来讲是不可接受的,它不仅不能提高,反而会降低解释受众对模型的信任程度,我们称这种基于虚假关联做出的“解释”为语义上的不可解释性。由于这种不可解释性是由深度学习模型本身带来的,因此要想解决这类不可解释性,只有从改变深度学习模型做起,本书第2、3 章讨论了这个问题。第2 章介绍了贝叶斯方法,其中贝叶斯网络等结构化贝叶斯模型,既可用来描述不确定性,又可用直观、清晰的图形描述变量之间的直接作用关系,刻画变量之间的条件独立性,从而学到可解释的、用户友好的特征。另外,完全贝叶斯方法在所有可能的模型上拟合一个后验概率分布,通过后验分布的采样得到多个模型,使预测更加鲁棒,并可估计其不确定性,为使用者提供了算法对于预测的一种“自信程度”。第3 章介绍了因果推理中传统的潜在结果框架,将其应用到二值特征和线性模型场景下的机器学习问题,随后又将其延伸到了连续特征、线性模型的场景及深度学习的场景。最后,介绍了反事实推理及若干有代表性的问题场景和方法。与深度学习不同,因果模型聚焦于因果关系,能给出更加稳定与可靠的解释。总之,本书第1~5 章系统地介绍了可解释AI理论发展的现状,多角度地分析目前AI 在可解释性上存在的问题,以及可能的发展方向。
本书第6~10 章讨论了在生物医疗、金融、计算机视觉、自然语言处理及推荐系统应用中的可解释AI。生物医疗和金融等高风险的应用领域,对可解释性提出了更高的要求。本书详细地介绍了可解释AI 的发展现状,给出一些应用实例,并介绍了目前在可解释方面所做的工作。
目前,以深度学习为主体的AI 远没有达到可解释性的要求,因为我们这里定义的“可解释性”,不仅要求模型对用户是透明的,能够解释其背后的工作原理;并且要求这种“解释”必须是本质的,具有稳定性和鲁棒性的。发展可解释AI 的道路十分艰难且极具挑战性。无论是第一代以知识驱动为基础的AI,还是第二代以数据驱动为基础的AI,都不能从根本上解决可解释的问题。只有把这两种范式结合起来,发展第三代AI,才能最终建立起可解释AI。目前我们离这个目标还很远。首先,我们对深度学习的模型,特别是大模型中的工作机理了解得很少,深度学习对我们来讲依然是不甚了解的“黑盒”。此外,如何将知识与深度模型结合,或者导入因果关系,目前已有的工作都只是初步的尝试,有待进一步深入。
总之,《可解释人工智能导论》一书全面介绍了可解释AI 在理论上和应用上的发展现状、存在的问题及今后发展的方向,对于想了解AI 和有意献身AI 事业的研究者、开发者、决策者和使用者来讲,都是一部很好的参考书。
张钹
中国科学院院士,清华大学人工智能研究院院长
前言
随着人工智能的深入发展,社会对人工智能的依赖性越来越强。人工智能的应用范围极广,其覆盖面也在不断扩大,从电商的产品推荐到手机短视频的个性化推荐,从城市交通系统的疏通决策系统到金融风险控制,从教育辅助系统到无人车……应该说,人工智能和人类共存的时代已经指日可待。
但人工智能的快速发展也蕴含着极大的危机和挑战。人工智能最成功的算法包括机器学习。很多机器学习的核心算法运行在所谓的黑盒情况下,也就是说,这些人工智能系统所生成的结果往往不可解释。比如,一个医疗系统为一位病人诊断,发现病人具有某些病症,给出阳性的结果。但是,现有的人工智能系统往往不给出它是如何做出这样的推断的。相比之下,一位人类医生往往会告诉病人,通过医疗图像的分析,发现一个可能的病灶,并进一步通过病理分析,确认病灶是恶性的可能性比较大,等等。这样的解释往往比较让人信服。
人工智能系统现阶段的不可解释性的原因是多方面的,包括很多人工智能算法本身往往缺乏理论依据,但一个主要的原因是现代人工智能算法往往极其复杂。预训练模型是当前解决自然语言理解问题的一种关键技术,但这类模型动辄具有上亿个参数,甚至会有上万亿个参数。如此复杂的模型已经远远超出了人类可理解的范围。人工智能系统通常采用神经网络,而且人工智能系统的厂商也不会透露他们的人工智能系统的工作原理。可以说,人工智能的发展已经远远超出了人类对人工智能工作原理的理解。
那么,是不是人类可以和黑盒式的人工智能长期共存呢?来看看我们周边的很多应用案例。试想,某医院引入一套基于人工智能的医疗诊断系统。如果系统做出对某种病症的判断,病人的癌症检测为阳性,概率为90%,那么这个结论往往是不被接受的。病人会问:你是如何做出这个判断的?根据什么特征和经验?有哪些治疗的建议?需要花多少费用?如何找到最好的专家?
同样地,对于医生等专业人士来说,一个这样的结论也需要解释:系统做出这种预测,是否符合医院和医管单位的要求?有没有按照正规的医疗程序来做推断?这种推论是否可靠?有多大的风险?这个系统在多少个案例里面被测试过?是不是稳定、可靠、全面、科学的?
对于人工智能工程师来说,一个这样的结论也需要解释:对于一个大模型来说,是哪一部分的数据对结论起了关键作用?系统的哪一部分被启动?如果发生错误,最大的可能性来自哪里?如何
修补?
以上例子表明,虽然我们可以使用一个黑盒的人工智能模型,但在应用中,这个模型应该具有可解释能力,否则系统的可用性就会大为降低。这个解释可以来自系统本身,比如树形的决策系统本身就具有很强的可解释性。除此之外,也可以为一个黑盒的人工智能系统配备一个解释模型,其任务就是解释人工智能做出的每个决策。
以上例子的另一个特点是解释本身可以是多样的,有的解释是为终端用户服务的,有的解释是为专业人士或监管部门服务的,而有的解释是为工程技术人员服务的。这种对可解释人工智能的要求有些是必须满足的。比如,欧洲提出的《个人数据通用保护条例》(GDPR)就规定了人工智能的算法要可以解释其决策逻辑。
我们可以列举更多的例子。比如在金融领域的贷款申请环节中,如果一个贷款申请没有被批准,其背后的人工智能系统就需要对贷款申请者做相应的解释(如“贷款额度过大”,或者“有还款逾期经历”等)。一个自动驾驶汽车系统在做出紧急制动决策的同时,要给出解释(如“因为车前面有位行人”)。所以,人工智能的可解释性就像我们常说的,对于事物要知其然,也要知其所以然。
人工智能的可解释性也是实现“以人为本”的人工智能的一个具体举措。黑盒的人工智能系统往往很难融入人类社会。如果一个系统无法和人类沟通,那么它的应用面注定会很窄,而人类对系统决策的反馈就不能用来更新系统的知识。一个可解释的系统往往被认为是公正、透明、平衡无偏、不歧视个体的友善系统,这样的人工智能系统才是负责任的人工智能系统。
如上所述,人工智能的发展如火如荼,随着与人们息息相关的金融、医疗等服务行业中出现人脸识别、智能人机对话等人工智能应用,公众和政策制定者都逐渐意识到了可解释人工智能(Explainable Artificial Intelligence,XAI)的重要性和急迫性。近期,可解释AI 研究也呈现百花齐放的态势,提出了众多的理论框架、算法和系统,覆盖多个行业和学科。尽管百家争鸣是一件好事,但这个领域仍然缺乏一个统一的理论体系。一个完善的理论框架可以将不同的系统和算法加以比较,让人工智能的研究者和应用者对某种理论和算法的采纳有据可循。同时,一个统一的理论框架可以成为创新的土壤,促使新的算法和系统产生,这本专著就提出了一个基于人机沟通的交互式的可解释人工智能范式。
和现有的一些可解释AI 图书相比,本书不仅包括了理论部分,更重要的是它还囊括了众多的应用案例。本书从各种实际应用场景和需求出发,明确指出在各种场景下解释所要达到的具体目标。同时,本书还提出了面向不同解释对象的交互式解释框架, 并以此囊括各种具体的解释算法和技术。
一本好书本身就应该是一个好的可解释系统,让不同背景的人群,有不同的收获。本书对可解释AI 前沿技术及时归纳梳理, 并深入浅出地介绍给读者,适合入门读者阅读(是为导论)。同时,对于资深的研究者,本书也给出了进阶的研究路径。对于行业应用者,本书提出了选择不同解决方案的依据。
本书覆盖的人群,既包括计算机及信息处理相关专业的高年级本科生及研究生,也包括人工智能领域的研究员、学者和高校老师。同时,本书也照顾到关注人工智能应用及具有社会影响力的人士,包括政策制定者、法律工作者和社会科学研究人士。所以,我们希望本书能够成为读者朋友们手中的一本实用的人工智能工具书。
在此,我们特别感谢本书各个章节内容的贡献者,他们是人工智能各个领域的专家、学者及研究员,在繁忙的工作中抽出宝贵的时间来讨论写作方案,提供各个章节的技术内容,投入了大量的经验和热情。同时,我们也感谢本书的支持者,包括电子工业出版社策划编辑宋亚东及其同事,志愿支持者——张钟丹、姚云竞、范胜奇等同学。此外,我们还要衷心致谢各自的家人,没有他们的鼎力支持,很难想象本书可以顺利完成。
最后,我们感谢众多的读者朋友们。感谢你们的持续支持!
杨强 范力欣 朱军 陈一昕 张拳石 朱松纯
陶大程 崔鹏 周少华 刘琦 黄萱菁 张永锋
2022 年3月
j***g 2022-04-11 11:01:00
同学写的,必须加购!