相对于人工智能赋能于网络安全领域,人工智能自身的安全是一个新颖而有趣的领域,其主要研究方向可以分为攻击和防御两个层面。近年来不断涌现出针对人工智能系统的新型安全攻击,如对抗攻击、投毒攻击、后门攻击、伪造攻击、模型窃取攻击、成员推理攻击等。这些攻击损害了人工智能算法和数据的机密性、完整性、可用性,受到学术界和工业界的广泛关注。人工智能系统面对的安全威胁主要分为模型安全性、模型与数据隐私两大类。
模型安全性指的是人工智能模型在全生命周期所面临的安全威胁,包括人工智能模型在训练与推理阶段可能遭受潜在的攻击者对模型功能的破坏,以及由人工智能自身鲁棒性欠缺引起的危险。对抗攻击通过在模型的输入中加入精心构造的噪声,使模型输出出现错误,其本质是利用了模型决策边界与真实边界不一致的脆弱性。例如,在交通指示牌上贴上特殊的小贴纸,可以使自动驾驶汽车错误地将其识别为转向标志。投毒攻击通过篡改训练数据来改变模型行为和降低模型性能。例如微软的一款与Twitter用户交谈的聊天机器人Tay,在受到投毒攻击后做出与种族主义相关的评论,从而被关闭。后门攻击是指人工智能模型对于某些特殊的输入(触发器)会产生错误的输出,对于干净的输入则产生预期的正确输出。便如,在手写数字识别中,后门模型能准确识别出图像中的数字0~9,但当数字7的右下角加入一个圆圈时,后门模型将其识别为1。伪造攻击包括视频伪造、声音伪造、文本伪造和微表情合成等。生成的假视频和音频数据可以达到以假乱真的程度,冲击人们“眼见为实”的传统认知。
模型与数据隐私指的是人工智能模型自身的模型参数及训练数据的隐私性。深度学习模型使用过程中产生的相关中间数据,包括输出向量、模型参数、模型梯度等,甚至模型对于正常输入的查询结果,都可能会泄露模型参数及训练数据等敏感信息。模型窃取攻击是指攻击者试图通过访问模型的输入和输出,在没有训练数据和算法的先验知识的情况下,复制机器学习模型。成员推理攻击是指攻击者可以根据模型的输出判断一个具体的数据是否存在于训练集中。
攻击和防御是“矛”与“盾”的关系,二者相辅相成,互相博弈,共同进步。针对上述攻击,也提出了相应的防御方法。整体上来看,针对人工智能模型的攻击及防御的研究,在特定的应用场景下展现出不错的效果,但对现有人工智能系统造成严重威胁的通用性攻击方法,能够对抗多种攻击手段和自动化部署的防御方法还处于探索之中。另外,人工智能自身还欠缺较好的可解释性,人工智能模型的攻防研究更多地集中在实验 的层次上,具备可解释性的攻击与防御方法是学术界未来研究的重点和热点。
本书着眼于人工智能自身的安全问题,旨在对当前人工智能安全的基本问题、关键问题、核心算法进行归纳总结。本书的定位是关于人工智能安全的入门书籍,因此先详细介绍了人工智能安全相关的基础知识,包括相关的基本算法和安全模型,以便读者明确人工智能面临的威胁,对人工智能安全有一个初步认识。然后,本书将人工智能系统的主要安全威胁分为模型安全性威胁和模型与数据隐私威胁两大类。模型安全性威胁主要包括投毒攻击、后门攻击、对抗攻击、深度伪造攻击。模型与数据隐私威胁主要包括窃取模型的权重、结构、决策边界等模型本身信息和训练数据集信息。
本书在介绍经典攻击技术的同时,也介绍了相应的防御方法,使得读者通过攻击了解人工智能模型的脆弱性,并对如何防御攻击、如何增强人工智能模型的鲁棒性有一定的思考。本书主要从隐私保护的基本概念、数据隐私、模型窃取与防御三个维度来介绍通用的隐私保护定义与技术、典型的机器学习数据隐私攻击方式和相应的防御手段,并探讨了模型窃取攻击及其对应的防御方法,使得读者能够直观全面地了解模型与数据隐私并掌握一些经典算法的实现流程。本书还介绍了真实世界场景中不同传感器下的对抗攻击和相应的防御措施,以及人工智能系统对抗博弈的现状。相比于数字世界的攻击,真实世界的攻击更需要引起人们的关注,一旦犯罪分子恶意利用人工智能系统的漏洞,将会给人们的生产生活带来安全威胁,影响人身安全、财产安全和个人隐私。例如,罪犯利用对抗样本来攻击人脸识别系统,使得警察无法对其进行监视追踪;不法分子通过深度伪造将名人或政客的脸替换到不良图片或视频中,造成不良的影响。读者可以通过阅读本书,了解人工智能系统相关的攻防技术,从而研究出针对各种攻击的更可行的防御方法,为可信人工智能助力。
本书适合希望了解人工智能安全的计算机相关专业的学生、人工智能领域的从业人员、对人工智能安全感兴趣的人员,以及致力于建设可信人工智能的人员阅读,帮助读者快速全面地了解人工智能安全所涉及的问题及技术。而了解相关攻防技术的基本原理,有助于人工智能领域的开发人员做出更安全的应用产品。