Randomized Substitution and Vote for Textual Adversarial Example Detection

news/2024/7/5 0:49:48 标签: 自然语言处理, 人工智能, nlp

文本对抗样本检测的随机替换和投票

https://arxiv.org/pdf/2109.05698.pdf

摘要

这篇工作提出了一种对抗样本检测模块,针对检测出数据集中通过单词替换生成的对抗样本。

方法

Motivation

对一个文本中的单词进行替换生成了预测和标签不一致的对抗样本,这个替换后的序列中,每个单词相互影响其他单词(相互交互),共同影响模型的判断,所以,受现有基于输入预处理的防御(Wang et al. 2021a; Zhou et al. 2021)的启发,我们观察到随机同义词替换可以破坏这种相互交互并以高概率消除对抗性扰动。

为了验证我们的假设,我们首先使用 Textfooler 攻击(Jin 等人,2020 年)对来自 AG 新闻测试集的 1,000 个随机采样文本生成对抗性示例,这些文本由 Word-CNN 正确分类(Kim 2014)。
为了打破替换序列中单词之间的交互,我们首先将良性样本(Benign)或对抗性示例(Adversarial)中的单词随机屏蔽为未知 (“UNK”) 标记,表示为 UNK Benign 或 UNK Adversarial,以不同的比率将这些处理过的文本提供给模型。如图 1 所示:
image
图一:在来自 AG 的 Word-CNN 新闻测试集的1,000 个正确分类的样本上进行评估,良性样本(Benign)准确率 100%,对应的对抗样本(Adversarial)准确率 0%,当我们用一定比率去替换样本中的单词(蓝色代表替换为 ‘UNK’,红色代表替换为同义词),发现准确率对应的变化曲线

  • 当我们在良性文本中屏蔽 40% 的单词时,分类准确率仍然超过 90%,显示了模型对这种随机掩码的稳定性和鲁棒性。
  • 相比之下,当我们屏蔽更多词时,对抗样本的分类准确度显着提高,当屏蔽 40% 的词时,我们可以恢复 50% 的对抗样本。这验证了我们的假设,即如果我们(通过随机掩码)成功打破替换序列中单词的相互交互,我们就可以消除对抗性扰动(acc从0 唤醒到 40)。
  • 而当我们尝试用同义词随即替换单词(而非 UNK 时),如图 1 所示,我们发现在良性样本或对抗样本中随机用同义词替换单词,表示为 SYN Benign 或 SYN Adversarial,可以持续且显着地提高对抗对抗样本的鲁棒准确率,同时在各种替代率下的良性样本上保持较高的准确率 ,这进一步验证了我们的假设。

基于上述观察,我们提出了一种新的文本对抗样本检测方法,称为 RS&V,该方法将输入文本中的单词随机替换为其同义词,以有效检测对抗样本,恢复输入对抗样本的正确标签。具体做法如下:

  • 对于一个输入文本 x
  • 随即替换一些词 wi ∈ x(用它的任意同义词 w^i)
  • 得到 k 种样本 { x1, x2, · · · , xk }
  • 累积 k 个处理样本的 logits 输出(vote),如果 x 的预测与 k 个样本投票的预测不一致,则将 x 视为对抗性示例。

实验

对比基线:
对抗方法: GA (Alzantot et al. 2018)、PWWS (Ren et al. 2019)、PSO (Zang et al. 2020)、Textfooler (Jin et al. 2018) . 2020)和 HLA(Maheshwary、Maheshwary 和 Pudi 2021)。
检测方法:DISP (Zhou et al. 2019) 训练一个扰动鉴别器来识别被扰动的标记和一个嵌入估计器来重建原始文本。FGWS (Mozes et al. 2021) 用字典中最常用的同义词替换低频词,以消除对抗性扰动。
image

个人总结

其实这篇文章的设计灵感主要来源于针对同义词替换对抗,如果我们随机用同义词替换样本里的词,会导致在良性样本上趋于一致性,而在对抗样本上反映出唤醒(不一致性),为了使这种不一致更有说服力,用了投票机制,通过检测这种不一致来检测对抗样本,并更新他们的标签,从而达到纠正对抗样本的效果
这篇文章引用到去噪的工作中,可以针对 ‘词替换’ 类型的token级噪声,随即引入同义词以检测预测是否具有一致性,来检查是否为带噪输入,可以参考为一种纠错模块。结合之前的鲁棒性训练一起使用(训练时用鲁棒性训练,测试时带入纠错模块)。


http://www.niftyadmin.cn/n/1372263.html

相关文章

新华社内参:股市惨跌之谜

文章来源:乐趣园-黑马乐园,2005-03-23 http://my.ziqu.com/bbs/665293/messages/90763.html 转贴者:KKOK ]背景资料:2001年6月,中国第4任证监会管理班子上任时的中国证券市场总市值5万4000亿人民币,而到今…

【coling 2020】Attentively Embracing Noise for Robust Latent Representation in BERT

原文链接:https://aclanthology.org/2020.coling-main.311.pdf intro 本文针对ASR转化成文本之后的文本分类任务进行鲁棒性研究。作者基于EBERT进行优化,EBERT比传统bert的优点在于后者只使用输入的第一个【CLS】token生成输入的表征,其余的…

Are We NER Yet? Measuring the Impact of ASR Errors on Named Entity Recognition in Spontaneous Con

贡献 在本文中,我们研究了与识别命名实体的下游任务相关的 ASR-NLP 差距的真实大小。 使用基准和内部数据集(他们自己做的数据集)的组合,我们展示了最先进的语言模型如何无法发现自发人类对话记录中命名实体主要类别的实体跨度&a…

虚假数字造成恶性循环 谁更需要“73%”就业率

虚假数字造成恶性循环 谁更需要“73%”就业率 -------------------------------------------------------------------------------- http://www.sina.com.cn 2005/06/01 10:19 人民网-华南新闻   教育部高校学生司一负责人在日前启动的“2005关注中国大学生就业”系列活…

[COLING 2018] Modeling Semantics with Gated Graph Neural Networks for KBQA 阅读笔记

[COLING 2018] Modeling Semantics with Gated Graph Neural Networks for KBQA 阅读笔记 motivation: 大多数知识库问答方法都是基于语义分析的。在本文中,作者解决了由多个实体和关系组成的复杂语义解析的学习向量表示问题。以前的工作主要集中在为一个问题选择…

看《青红》及其其他

刚刚看了这个片子,感觉和《天浴》差不多,让人酸酸的。。。 我们都知道这是制度的问题,哪些被扭曲的心灵的挣扎看在眼里,痛在心里。。 可是,在这个我们自认为现代的今天,从未来看,何尝又不是生活…

好女人是一所学校- -

好女人是纯真的   曾经请教过一位语言学家,为什么儿童学习英语那么快?他告诉我,一个很主要的原因是儿童的心理比较单纯,他每做一件事都是一心一意的,只要他喜欢,他就会乐在其中。而成人则不然&#xff0c…

这辈子一定要混个博士,以下文字与博士无关

我们夜里躺在床上睁大眼睛,却无法在漆黑中排遣郁闷时,就会格外的想到曾经有个人陪在身边。很多往事会像潮水一样向我们扑来。 我们曾经暗恋过的人、曾经追求过但失败了的人、曾经相爱过的人,都一一地闪过脑海,于是,心里…