應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

AI新方向:對(duì)抗攻擊

2018-11-15 15:21 SciTouTiao

導(dǎo)讀:在調(diào)查近幾年 AI 領(lǐng)域的過程中,我發(fā)現(xiàn)近幾年對(duì)抗攻擊的概念逐漸出現(xiàn)在全世界各國研究人員的視野中,我認(rèn)為這將會(huì)是現(xiàn)在乃至未來幾年最引人矚目的新方向之一。

在調(diào)查近幾年 AI 領(lǐng)域的過程中,我發(fā)現(xiàn)近幾年對(duì)抗攻擊的概念逐漸出現(xiàn)在全世界各國研究人員的視野中,我認(rèn)為這將會(huì)是現(xiàn)在乃至未來幾年最引人矚目的新方向之一。

概述我在國內(nèi)的兩個(gè)著名的學(xué)術(shù)搜索網(wǎng)站 AMiner 和 Acemap 進(jìn)行了調(diào)查,以 adversarial attack和相近意思的 poisoning attack 等詞作為關(guān)鍵詞搜索了相關(guān)的論文,以下是兩個(gè)網(wǎng)站給出的論文數(shù)據(jù)分析圖表。

1.jpg

一方面,從圖中很明顯可以看出,在 2015 年直到今年,adversarial attack相關(guān)的論文顯著增多,這說明了在機(jī)器學(xué)習(xí)發(fā)展飛速的今天,機(jī)器學(xué)習(xí)的安全問題逐漸被研究者們所重視。 所以我認(rèn)為這個(gè)方向在未來幾年應(yīng)該會(huì)是一個(gè)新興的熱點(diǎn)。

另一方面,雖然這類論文在近幾年顯著增多,但是這并不能說明這個(gè)方向的前景更好、 可挖掘的知識(shí)更多。所以我又搜索了另一個(gè)現(xiàn)在已經(jīng)成為熱門方向的領(lǐng)域——reinforcement learning的數(shù)據(jù)來作為對(duì)比。

2.jpg

通過對(duì)比 reinforcement learning 和 adversarial attack 的熱度和論文發(fā)表數(shù)量,可以發(fā)現(xiàn)與強(qiáng)化學(xué)習(xí)這類已經(jīng)成為熱門的方向相同,對(duì)抗攻擊也開始有論文、熱度急劇上升的階段, 但是與之不同的是,對(duì)抗攻擊論文的絕對(duì)數(shù)量至今仍很少。

這說明了對(duì)抗攻擊的可研究的東西還處于正在被研究者們逐漸挖掘的過程,還未形成一個(gè)體系。所以從這一點(diǎn),直觀上來說, 我認(rèn)為最近的科技新詞應(yīng)當(dāng)是 adversarial attack。

原理對(duì)抗攻擊的開山之作 Intriguing properties of neural networks[12]中提到了神經(jīng)網(wǎng)絡(luò)的兩個(gè)現(xiàn)象。

第一個(gè)是高維神經(jīng)網(wǎng)絡(luò)的神經(jīng)元并不是代表著某一個(gè)特征,而是所有特征混雜在所有神經(jīng)元中;第二個(gè)是在原樣本點(diǎn)上加上一些針對(duì)性的但是不易察覺的擾動(dòng),就很容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)的分類錯(cuò)誤。

第二個(gè)性質(zhì)就是對(duì)抗攻擊的理論基礎(chǔ),后來Goodfellow 在 Explaining and Harnessing Adversarial Examples[13]中提出原因并非是深層神經(jīng)網(wǎng)絡(luò)的高度非線性和過擬合,即使是線性模型也存在對(duì)抗樣本。在這篇論文中,我們可以粗淺地認(rèn)為對(duì)抗攻擊之所以能夠成功的原因是誤差放大效應(yīng):

3.jpg

發(fā)展過程在調(diào)研該領(lǐng)域的論文的過程中,我發(fā)現(xiàn),作為machine learning security 的方向,對(duì)抗攻擊的發(fā)展可以歸結(jié)為兩個(gè)核心:不斷尋找新的應(yīng)用場(chǎng)景,不斷利用新的算法

4.jpg

3.1 不斷尋找新的應(yīng)用場(chǎng)景

每當(dāng) machine learning有新的領(lǐng)域出現(xiàn),研究者都會(huì)試圖在該領(lǐng)域上進(jìn)行對(duì)抗攻擊的研究,來研究出攻擊這種領(lǐng)域的方法和防御的方法。以下是我找到的一些典型領(lǐng)域的對(duì)抗攻擊研究成果:

5.jpg

3.1.1 Computer vision

·Attacks for classification

圖片分類是計(jì)算機(jī)視覺最經(jīng)典的任務(wù),因此在這個(gè)應(yīng)用場(chǎng)景的對(duì)抗攻擊論文最多,比如:Jacobian-based Saliency Map Attack (JSMA)[1],One Pixel Attack[2],DeepFool[3]等。

這些論文的思想都是相同的:都是通過將圖像的像素點(diǎn)按順序或是隨機(jī)一個(gè)一個(gè)改變,然后通過隱藏層的梯度來計(jì)算該點(diǎn)的改變對(duì)整張圖片的攻擊顯著性并且根據(jù)梯度來選擇下一個(gè)要改變的點(diǎn),通過這樣的訓(xùn)練最終可以找到最優(yōu)的攻擊像素。

其中,我認(rèn)為 One Pixel Attack[2]的工作效果最顯著,這篇論文僅改變一個(gè)像素就能完成對(duì)整張圖片的攻擊。我認(rèn)為最有新意的一點(diǎn)是,作者運(yùn)用了差分進(jìn)化算法的思想,通過每一代不斷變異然后“優(yōu)勝劣汰”,最后可以找到足以攻擊整張圖片的一個(gè)像素點(diǎn)和其 RGB值的修改值,這種方法的優(yōu)點(diǎn)是屬于黑盒攻擊,不需要知道網(wǎng)絡(luò)參數(shù)等任何信息。效果如下,我認(rèn)為很顯著:

6.jpg

·Attacks on Semantic Segmentation and Object Detection

語義分割任務(wù)的對(duì)抗攻擊要比分類任務(wù)要難很多,語義分割的對(duì)抗樣本生成[4]利用了Dense Adversary Generation 的方法,通過一組pixels/proposal 來優(yōu)化生成對(duì)抗樣本損失函數(shù),然后用所生成的對(duì)抗樣本來攻擊基于深度學(xué)習(xí)的分割和檢測(cè)網(wǎng)絡(luò)。

這篇論文的亮點(diǎn)我認(rèn)為在于將對(duì)抗攻擊的概念轉(zhuǎn)換為對(duì)抗樣本生成的概念,將一個(gè)攻擊任務(wù)轉(zhuǎn)換為生成任務(wù),這就給我們提供了一種新的攻擊思路:將這個(gè)任務(wù)轉(zhuǎn)換為如何選取損失函數(shù)、如何搭建生成模型使得生成的對(duì)抗樣本在攻擊圖片時(shí)有更好的效果。這種概念的轉(zhuǎn)換使得對(duì)抗攻擊不再拘束于傳統(tǒng)的基于 FGSM 算法,也將更多的生成模型引入進(jìn)來,比如GAN。

我認(rèn)為在計(jì)算機(jī)視覺的對(duì)抗攻擊的局限在于,由于計(jì)算機(jī)視覺的子領(lǐng)域非常多,所以有一些領(lǐng)域還沒有人去嘗試過,而且由于深度學(xué)習(xí)的不可解釋性,現(xiàn)階段只能也通過深度學(xué)習(xí)去生成對(duì)抗樣本去破壞目標(biāo)的學(xué)習(xí),這樣的攻擊是沒有方向性的,比如無法控制分類任務(wù)的欺騙方向,我認(rèn)為下一步的發(fā)展應(yīng)在于如何去定向欺騙深度學(xué)習(xí)網(wǎng)絡(luò),來達(dá)到一些更高要求的目的。

3.1.2. Graph

在今年的 ICML 和 KDD 的論文中,有兩篇關(guān)于對(duì)圖結(jié)構(gòu)的對(duì)抗攻擊的論文,一篇是Adversarial Attack on Graph Structured Data[5],另一篇是 Adversarial attacks on neuralnetworks for graph data[6]。這兩篇論文都是對(duì) graph 的攻擊,這是以前從未有人做過的任務(wù),是一種新的應(yīng)用場(chǎng)景,因此前文我說對(duì)抗攻擊發(fā)展還十分稚嫩,還在不斷尋找新的應(yīng)用場(chǎng)景。

由于 graph 結(jié)構(gòu)數(shù)據(jù)可以建?,F(xiàn)實(shí)生活中的很多問題,現(xiàn)在也有很多研究者在研究這種問題,比如知識(shí)圖譜等領(lǐng)域。

拿知識(shí)圖譜來舉例,現(xiàn)在百度、阿里巴巴等公司都在搭建知識(shí)圖譜,如果我能攻擊知識(shí)圖譜,在圖上生成一些欺騙性的結(jié)點(diǎn),比如虛假交易等行為,這會(huì)對(duì)整個(gè)公司帶來很大損失,所以對(duì)圖結(jié)構(gòu)的攻擊和防御都很有研究?jī)r(jià)值。

這兩篇論文的出發(fā)點(diǎn)都是深度學(xué)習(xí)模型在圖分類問題中的不穩(wěn)定性。

第一篇論文定義了基于圖模型的攻擊:在保持圖分類結(jié)果不變的情況下,通過小規(guī)模的增加和減少邊的方式, 最大化分類結(jié)果的錯(cuò)誤率?;诖?,論文提出了基于分層強(qiáng)化學(xué)習(xí)的方法來創(chuàng)建對(duì)抗樣本。

第二篇論文的思想是對(duì)于要攻擊的目標(biāo)節(jié)點(diǎn),產(chǎn)生一個(gè)干擾圖,使得新圖上的目標(biāo)節(jié)點(diǎn)的分類概率和老圖上目標(biāo)節(jié)點(diǎn)的分類概率的差距最大,作者提出了Nettack的攻擊模型。

我認(rèn)為現(xiàn)階段對(duì)圖結(jié)構(gòu)的對(duì)抗攻擊的局限在于以下兩點(diǎn):

1.沒有有效的防御算法。兩篇論文都在講如何去攻擊圖分類問題,但是對(duì)于防御問題, 第一篇論文只簡(jiǎn)單討論了一下,比如隨機(jī) dropout,但是展示的結(jié)果很不理想,而第二篇論文根本沒有討論防御問題。因此對(duì)圖結(jié)構(gòu)的防御問題是接下來的一個(gè)可發(fā)展的方向。

2.現(xiàn)階段圖深度學(xué)習(xí)發(fā)展還不完善,沒有形成一個(gè)像圖片卷積神經(jīng)網(wǎng)絡(luò)那樣的完整體系,GCN、隨機(jī)游走等算法都各有利弊,所以在整個(gè)體系完成之前,對(duì)抗攻擊的發(fā)展方向不是很明朗。我個(gè)人覺得隨著可微池化[7]的概念的提出,GCN 應(yīng)該是以后圖深度學(xué)習(xí)的發(fā)展方向,所以對(duì)GCN的攻擊或許很有潛力。

3.1.3 其他領(lǐng)域的對(duì)抗攻擊

近期也有一些其他領(lǐng)域的對(duì)抗攻擊。

首先,Adversarial Examples for Evaluating Reading Comprehension Systems[8]這篇論文對(duì)QA系統(tǒng)進(jìn)行對(duì)抗攻擊,通過向問題中中加入不影響人類理解并且不影響正確答案的句子來欺騙問答系統(tǒng),來獲得錯(cuò)誤的答案。論文中給出的結(jié)果很顯著,使原先75%的 F1 score 下降至 36%,如果允許不符合語法規(guī)則的話可以下降至 7%。

其次,對(duì)于強(qiáng)化學(xué)習(xí)的對(duì)抗攻擊。Lin等[9]提出了兩種不同的針對(duì)深度強(qiáng)化學(xué)習(xí)訓(xùn)練的代理的對(duì)抗性攻擊。在第一種攻擊中,被稱為策略定時(shí)攻擊,對(duì)手通過在一段中的一小部分時(shí)間步驟中攻擊它來最小化對(duì)代理的獎(jiǎng)勵(lì)值。提出了一種方法來確定什么時(shí)候應(yīng)該制作和應(yīng)用對(duì)抗樣本,從而使攻擊不被發(fā)現(xiàn)。在第二種攻擊中,被稱為迷人攻擊,對(duì)手通過集成生成模型和規(guī)劃算法將代理引誘到指定的目標(biāo)狀態(tài)。生成模型用于預(yù)測(cè)代理的未來狀態(tài),而規(guī)劃算法生成用于引誘它的操作。這些攻擊成功地測(cè)試了由最先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練的代理。

還有一些對(duì)于 RNN, Speech Recognition 等領(lǐng)域的攻擊[10][11],這些領(lǐng)域的對(duì)抗攻擊基本上只有一兩篇。

綜上所述,對(duì)于對(duì)抗攻擊的應(yīng)用場(chǎng)景,現(xiàn)階段所發(fā)掘的只不過是冰山一角,在這個(gè)領(lǐng)域, 還有很多很多應(yīng)用場(chǎng)景可以進(jìn)行研究。因此,僅從應(yīng)用場(chǎng)景而言,對(duì)抗攻擊絕對(duì)是最近幾年最具潛力的方向。

3.2 算法

對(duì)抗攻擊的本質(zhì)是用機(jī)器學(xué)習(xí)的方法去攻擊機(jī)器學(xué)習(xí)模型,來檢測(cè)模型的魯棒性。由于它的攻擊目標(biāo)和自身所用的方法都是機(jī)器學(xué)習(xí),所以當(dāng)機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)了更好的算法時(shí),對(duì)于對(duì)抗攻擊而言,這既是新的應(yīng)用場(chǎng)景,又是自身可用的新算法。

在 Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey[14]這篇論文中總結(jié)了12種攻擊方法,如下圖所示:

7.jpg

經(jīng)過我的調(diào)研,在論文 Adversarial Examples for Semantic Segmentation and Object Detection[4]的啟發(fā)下,我認(rèn)為,既然對(duì)抗攻擊是對(duì)抗樣本的生成任務(wù),而生成任務(wù)又是現(xiàn)在發(fā)展非常迅速的一個(gè)領(lǐng)域,我們可以把一些生成模型遷移到這個(gè)任務(wù)上來。

比如,現(xiàn)在非常熱門的對(duì)抗生成網(wǎng)絡(luò) GAN 是生成任務(wù)最有效的模型之一,我認(rèn)為可以借用這種對(duì)抗的思想生成對(duì)抗樣本:一個(gè)專門向原數(shù)據(jù)中加噪聲的網(wǎng)絡(luò)和一個(gè)試圖根據(jù)對(duì)抗樣本完成分類任務(wù)的網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)就像 GAN 里面的生成器和鑒別器一樣對(duì)抗學(xué)習(xí),最后會(huì)收斂于加噪聲的網(wǎng)絡(luò)生成的對(duì)抗樣本足以迷惑分類網(wǎng)絡(luò),這樣生成的對(duì)抗樣本或許會(huì)比前文所述的方法效果更好。

由于生成任務(wù)還在不斷發(fā)展,VAE、GAN 等模型或許都可以用于對(duì)抗攻擊,近期新出現(xiàn)的 CoT[15](合作訓(xùn)練)為離散數(shù)據(jù)的生成任務(wù)也提供了一種新的思路,Glow[16]提出了基于流的可逆生成模型,據(jù)說效果會(huì)超過GAN......這些生成模型不斷在發(fā)展,可供對(duì)抗樣本生成借鑒的思路也越來越多,所以,我認(rèn)為在算法上對(duì)抗攻擊還有無限的潛力。

總結(jié)經(jīng)過對(duì)對(duì)抗攻擊的調(diào)研,首先,我發(fā)現(xiàn)這一領(lǐng)域的論文數(shù)很少,而且受大眾的關(guān)注度不是很高,但是對(duì)抗攻擊已經(jīng)有趨勢(shì)要迎來蓬勃發(fā)展的時(shí)期了。

其次,對(duì)抗攻擊還處于尋找新的應(yīng)用場(chǎng)景和不斷嘗試新的算法的階段,還不成熟,未形 成完整的體系,而且和攻擊與生俱來的還有防御問題,現(xiàn)階段防御問題基本還處于把對(duì)抗樣本加入原始數(shù)據(jù)一起訓(xùn)練以此來防御攻擊的狀態(tài),研究的人很少,也沒有十分顯著的效果。 這說明在這個(gè)領(lǐng)域還有很大的可挖掘的空間。

在機(jī)器學(xué)習(xí)發(fā)展飛速的今天,安全性問題正逐漸進(jìn)入人們的的視野,對(duì)抗攻擊不只能夠在網(wǎng)絡(luò)空間進(jìn)行攻擊,還能夠在物理世界中任何使用到機(jī)器學(xué)習(xí)的場(chǎng)景中進(jìn)行有效攻擊,比如針對(duì)人臉識(shí)別、語音識(shí)別的攻擊。為了機(jī)器學(xué)習(xí)更好的發(fā)展,研究對(duì)抗攻擊是有必要的。 因此我認(rèn)為最近的科技新詞是adversarial attack。