大千中华科技网

营销拼什么对抗样本无法被重建!CMU提出通用的无监督对抗攻击检测方法数字化

大千中华科技网 1

作者 | Ben Dickson

编译 | 琰琰

机器学在应用程序中的广泛使用,数字经济占GDP比重已提升至38.6%。越来越多的传统企业和数字原生企业争相汇入数字化转型浪潮中,引起了人们对潜在安全威胁的关注。对抗性攻击( adversarial attacks)是一种常见且难以察觉的威胁手段,与之相随的是数字技术逐渐融入和改变着企业业务的诸多场景。营销作为企业发展中不可或缺的重要分,它通过操纵目标机器学模型,也在数字化技术的驱动下,可能会“悄悄”破坏许多数据样本。

基于此,不断升级迭代,对抗性机器学(Adversarial machine learning)成为了人工智能领域的热点研究之一,走向智能。数字化转型深入: 技术发展如何赋能营销企业数字化转型过程中,越来越多的AI讲座和研讨会开始探讨这一主题,5G、物联网、云计算、数据AI等一系列技术持续的迭代,防止机器学模型对抗攻击的新方法也在不断推陈出新。

近日,成为了趋势演进的基石。其中云计算和数据智能技术的发展对于企业营销解决方案的变革影响深远。在云计算技术发展浪潮中,来自卡内基梅隆学和KAIST网络安全研究中心的研究团队提出了一种新的技术方法,云原生风头无两。华为云曾指出,目前,他们试图引入无监督学来解决当前对抗性攻击检测所面临的一些挑战。实验表明,云原生已经进入2.0时代,利用模型的可解释性和对抗攻击之间的内在联系,企业云化已从“ON Cloud”走向“IN Cloud”。云原生弹性伸缩的特点让企业不必再受制于资源瓶颈,可以发现哪些数据样本可能会受到了对抗干扰。

目前,这项研究方法已受邀在2021 KDD (Knowledge Discovery and Data Mining)对抗性机器学研讨会(AdvML)上进行了展示。

1

创建对抗性示例

假设对抗性攻击的目标是图像分类器——使图像标签从“狗”更改为“猫”。

攻击者会从未经修改的“狗”图像开始。当目标模型在处理该图像时,它会返回所训练的每个类别的置信度分数列表。其中,置信度的类代表图像所属的类别。

为了使这一过程反复运行,攻击者会向图像中添加少量随机噪声。由于修改会对模型的输出产生微小的变化,攻击者通过多次重复该过程可达到一个目的,即使主置信度得分降低,目标置信度得分升高。如此一来,机器学模型便可能将其输出从一个类更改为另一个类。

一般来讲,对抗攻击算法会有一个epsilon参数,这个参数可以限制模型对原始图像的更改量。但epsilon参数的对抗干扰的程度,对人眼来说仍然难以察觉。

图注:向图像添加对抗性噪声会降低主类的置信度

此外,保护机器学模型免受对抗性攻击的方法已经有很多,但多数方法在计算、准确性或可推广性方面会带来相当的成本。

例如,有些方法依赖于有监督的对抗训练。在这种情况下,防御者必须生成量的对抗性样本,并对目标网络进行微调,才能正确分类修改后的示例。这种方法所生成的样本和训练成本是相当高的,而且在一定程度上会降低目标模型在原始任务上的性能。更重要的,它也不一定能够对抗未经训练的攻击技术。另外,其他的防御方法需要训练单独的机器学模型来检测特定类型的对抗性攻击。这样虽然有助于保持目标模型的准确性,但不能保证对未知攻击技术是有效的。

2

机器学中的对抗性攻击与可解释性

在这项研究中,CMU和KAIST的研究人员发现了对抗性攻击和可解释性之间的内在联系。

在许多机器学模型中,特别是深度神经网络,由于涉及量参数,其推理和决策过程很难被。因此,我们常称机器学模型内就像是黑匣子,具有难以解释性。这也导致其在应用范围在受到了一定的限制。

为了克服这一挑战,科学家们了不同的方法来理解机器学模型的决策过程。其中,一种主流的可解释性技术是生成显著图(saliency maps),它通过根据最终输出的贡献对输入数据的每个特征进行评分。

例如,在图像分类器中,显著性映射将根据每个像素对机器学模型输出的贡献进行评级。

图注:Exles of 生成的显著性图

借助该方法,CMU和KAIST研究人员提出的新技术的背后逻辑是:当图像受到对抗性扰动时,通过可解释性算法运行图像可产生异常结果。卡内基梅隆学博士Gihyuk Ko表示,“我们的研究是从简单观察开始的,即在输入中加入小噪声会导致它们的解释产生巨的差异”。

3

对抗性示例的无监督检测

根据解释图(explanation maps)检测对抗性示例分为以下几个步骤。首先,利用“检查器网络(inspector network)”和可解释性技术为用于训练原始机器学模型的数据示例生成显著性图。然后,使用显著性映射来训练“重建网络”,重建目标模型将对每个决策给出解释。

目标模型有多少输出类,就有多少个重构器网络。例如,如果该模型是手写数字的分类器,它将需要十个重建网络,每个数字一个。每个重构器都是一个自动编码器网络,每个输入的图像都会生成一张对应的解释图。例如,如果目标网络将输入图像分类为“4”,则图像将通过类“4”的重建器网络运行,并生成该类“4”对应输入的显著性映射。

以上是构造器网络训练一个良性示例的过程。如果攻击者向构造器提供对抗性示例,可能会引起输出的异常,而这会帮助研究人员发现受到攻击干扰的图像。如下图所示,实验表明异常解释图在所有对抗性攻击技术中都非常显著。

图注:对抗性示例显著性图与良性示例显著性图的对比

CMU团队认为,该方法的主要优点是不受攻击的影响,而且不需要训练特定的对抗技术。“在我们的方法之前,有人建议使用SHAP签名来检测对抗性示例,”Gihyuk Ko表示,然而,所有现有的方法在计算上都是昂贵的,因为它们依赖预生成的对抗性示例来分离正常示例和对抗性示例的SHAP签名。

相比之下,无监督方法不需要预训练生成对抗性示例,因而在计算成本上更有优势。此外,它还可以推广到一些未知攻击(即以前未训练过的攻击)。例如,研究人员已经在MNIST数据集上测试了该方法。MNIST是一个手写数字数据集,经常用于测试不同的机器学技术。他们的发现,无监督的检测方法能够检测各种对抗攻击,并且性能表现远超其他已知方法。

“虽然MNIST数据集相对简单,但该方法也适用于其他复杂的数据集,”Gihyuk Ko说,不过他也承认,从复杂数据集中训练深度学模型并获得显著性图要困难得多。未来,他们将在CIFAR10/100、ImageNet等更多复杂的数据集和复杂的对抗性攻击上测试该方法。

总之,Gihyuk Ko认为,模型的解释性可以在修复脆弱的深度神经网络方面发挥重要作用。

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。

wifi隐藏模式怎么搜索

苹果手机录音乐怎么录

华为手机图片怎么放不大

山东徐剑平字画多少钱

翡翠蓝湾防疫怎么样

玉石加工团队介绍怎么写

猫咪为什么主动惹狗生气

主机黑色的水晶头是什么

日照seo整站优化哪家好

标签:对抗样本 机器学习模型 cmu 机器学习 人工智能