您所在的位置: 首頁 >
安全研究 >
安全通告 >
針對(duì)電商欺詐檢測系統(tǒng)的“中毒攻擊”
幾乎所有高級(jí)網(wǎng)絡(luò)安全產(chǎn)品的銷售都會(huì)告訴你,人工智能已經(jīng)被用于保護(hù)計(jì)算基礎(chǔ)設(shè)施的許多產(chǎn)品和服務(wù)。但是,您可能沒有聽說過機(jī)器學(xué)習(xí)應(yīng)用程序自身也需要安全防護(hù),而且這些應(yīng)用在日常服務(wù)中變得越來越普遍。
人工智能應(yīng)用已經(jīng)在塑造我們的意識(shí)(信息繭房)。大型社交媒體平臺(tái)普遍使用基于機(jī)器學(xué)習(xí)的推薦機(jī)制讓用戶與平臺(tái)保持強(qiáng)關(guān)聯(lián)、參與內(nèi)容并投放精準(zhǔn)廣告。但很少有人知道,這些系統(tǒng)很容易受到“數(shù)據(jù)中毒攻擊”。
對(duì)這些機(jī)器學(xué)習(xí)算法的操縱是司空見慣的,并且存在大量在線服務(wù)來幫助完成這些操作。而且,執(zhí)行此操作不需要任何技術(shù)技能——只需掏出您的支付寶刷“點(diǎn)贊”、“訂閱”、“關(guān)注”、閱讀數(shù)、轉(zhuǎn)發(fā)、評(píng)論或任何能夠影響算法的數(shù)據(jù)。
由于這些攻擊造成的損失仍然難以用金錢量化——而且成本通常由用戶或社會(huì)本身承擔(dān)——大多數(shù)互聯(lián)網(wǎng)平臺(tái)僅在立法者或監(jiān)管機(jī)構(gòu)強(qiáng)制要求時(shí)才解決其模型的潛在腐敗(或腐化)問題。
事實(shí)上,任何在不可信數(shù)據(jù)上訓(xùn)練的模型都可能遭受數(shù)據(jù)中毒攻擊。近日,F(xiàn)-Secure的資深數(shù)據(jù)科學(xué)家Samuel Marchal介紹了對(duì)抗電子商務(wù)網(wǎng)站的欺詐檢測算法。如果這種攻擊很容易達(dá)成,那么在線零售商就必須重視這個(gè)問題。
★ 什么是數(shù)據(jù)中毒?
機(jī)器學(xué)習(xí)模型的好壞取決于用于訓(xùn)練它的數(shù)據(jù)的質(zhì)量和數(shù)量。訓(xùn)練準(zhǔn)確的機(jī)器學(xué)習(xí)模型通常需要大量數(shù)據(jù)。為了滿足這種需求,開發(fā)人員可能會(huì)求助于可能不受信任的來源,這可能會(huì)打開數(shù)據(jù)中毒的大門。
數(shù)據(jù)中毒攻擊旨在通過插入錯(cuò)誤標(biāo)記的數(shù)據(jù)來修改模型的訓(xùn)練集,目的是誘使它做出錯(cuò)誤的預(yù)測。成功的攻擊會(huì)損害模型的完整性,從而在模型的預(yù)測中產(chǎn)生一致的錯(cuò)誤。一旦模型中毒,從攻擊中恢復(fù)是非常困難的,一些開發(fā)人員甚至可能都不會(huì)去嘗試修復(fù)。
數(shù)據(jù)中毒攻擊有兩個(gè)目標(biāo):
? 拒絕服務(wù)攻擊(DoS),其目標(biāo)是降低模型的整體性能。
? 后門/特洛伊木馬攻擊,其目標(biāo)是降低性能或強(qiáng)制對(duì)攻擊者選擇的輸入或輸入集進(jìn)行特定的、不正確的預(yù)測。
★ 對(duì)欺詐檢測模型的成功攻擊
研究人員通過與電子商務(wù)網(wǎng)站上的欺詐檢測系統(tǒng)類似的示例場景來研究數(shù)據(jù)中毒攻擊。經(jīng)過訓(xùn)練的模型應(yīng)該能夠根據(jù)訂單中的信息預(yù)測訂單是合法的(將被支付)還是欺詐(將不被支付)。此類模型將使用零售商可用的最佳數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)通常來自之前在網(wǎng)站上下的訂單。
針對(duì)這種模型的攻擊者可能希望從整體上降低欺詐檢測系統(tǒng)的性能(因此它通常不善于發(fā)現(xiàn)欺詐活動(dòng))或發(fā)起精確攻擊,使攻擊者能夠在不被發(fā)現(xiàn)的情況下進(jìn)行欺詐活動(dòng)。
為了對(duì)該系統(tǒng)發(fā)起攻擊,攻擊者可以向訓(xùn)練集中的現(xiàn)有數(shù)據(jù)點(diǎn)注入新數(shù)據(jù)點(diǎn)或修改現(xiàn)有數(shù)據(jù)點(diǎn)上的標(biāo)簽。這可以通過冒充一個(gè)用戶或多個(gè)用戶并下訂單來完成。攻擊者為某些訂單付款,而不為其他訂單付款。目標(biāo)是在下一次訓(xùn)練模型時(shí)降低模型的預(yù)測準(zhǔn)確性,因此欺詐變得更加難以檢測。
在研究人員的電子商務(wù)案例中,攻擊者可以通過延遲支付訂單以將其狀態(tài)從欺詐變?yōu)楹戏▉韺?shí)現(xiàn)標(biāo)簽翻轉(zhuǎn)。還可以通過與客戶支持機(jī)制的交互來更改標(biāo)簽。通過對(duì)模型及其訓(xùn)練數(shù)據(jù)有足夠的了解,攻擊者可以生成優(yōu)化的數(shù)據(jù)點(diǎn),以通過DoS攻擊或后門來降低模型的準(zhǔn)確性。
★ 數(shù)據(jù)下毒的藝術(shù)
研究者用實(shí)驗(yàn)生成了一個(gè)小數(shù)據(jù)集來說明電子商務(wù)欺詐檢測模型的工作原理。有了這些數(shù)據(jù),研究者訓(xùn)練了算法來對(duì)該集中的數(shù)據(jù)點(diǎn)進(jìn)行分類。選擇線性回歸和支持向量機(jī)(SVM)模型是因?yàn)檫@些模型通常用于執(zhí)行這些類型的分類操作。
研究者使用梯度上升方法基于拒絕服務(wù)或后門攻擊策略以最佳方式生成一個(gè)或多個(gè)中毒數(shù)據(jù)點(diǎn),然后研究模型在接受新數(shù)據(jù)訓(xùn)練后的準(zhǔn)確性和決策邊界發(fā)生了什么變化,其中包括中毒的數(shù)據(jù)點(diǎn)。自然,為了實(shí)現(xiàn)每個(gè)攻擊目標(biāo),需要多個(gè)中毒數(shù)據(jù)點(diǎn)。
★ 通過中毒攻擊實(shí)施電子商務(wù)欺詐
研究者的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),與拒絕服務(wù)中毒攻擊(兩者均為100)相比,研究者需要引入更少的中毒數(shù)據(jù)點(diǎn)來實(shí)現(xiàn)后門中毒攻擊(線性回歸為21,SVM為12)。
線性回歸模型比SVM模型更容易受到拒絕服務(wù)攻擊。在中毒數(shù)據(jù)點(diǎn)數(shù)相同的情況下,線性回歸模型的準(zhǔn)確率從91.5%降低到56%,而SVM模型的準(zhǔn)確率從95%降低到81.5%。請(qǐng)注意,在這種情況下,50%的準(zhǔn)確率與擲硬幣相同。
SVM模型更容易受到后門中毒攻擊。由于SVM模型比線性回歸模型具有更高的容量,因此它們的決策邊界可以更好地?cái)M合訓(xùn)練集中的異常并在其預(yù)測中創(chuàng)建“異?!薄A硪环矫?,它需要更多中毒數(shù)據(jù)點(diǎn)來移動(dòng)線性回歸模型的線性決策邊界以適應(yīng)這些異常。
● 總結(jié) ●
該實(shí)驗(yàn)發(fā)現(xiàn),只要攻擊者對(duì)機(jī)器學(xué)習(xí)和優(yōu)化技術(shù)有足夠的了解,中毒攻擊就可以很容易地被攻擊者執(zhí)行。目前已經(jīng)存在幾個(gè)公開可用的庫,以幫助攻擊者創(chuàng)建中毒攻擊。
一般來說,任何使用第三方數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)模型都容易受到此類攻擊。攻擊者可以很容易使用中毒攻擊來獲取潛在的經(jīng)濟(jì)利益。
在研究者的實(shí)驗(yàn)設(shè)置中,我們觀察到復(fù)雜的模型更容易受到后門攻擊,而簡單的模型更容易受到DoS策略的影響,這表明這些模型從設(shè)計(jì)上沒有靈丹妙藥來防止所有攻擊技術(shù)。鑒于重新訓(xùn)練對(duì)于現(xiàn)實(shí)中使用的模型來說非常困難,同時(shí)考慮到自動(dòng)欺詐的較低潛在成本,我們需要增加額外的防御層來保護(hù)這些脆弱而重要的機(jī)器學(xué)習(xí)應(yīng)用。
為了擁有值得信賴的人工智能,它需要是安全的,但是已經(jīng)在使用的機(jī)器學(xué)習(xí)算法已經(jīng)帶來了機(jī)器無法自行解決的安全挑戰(zhàn)。
來源:GoUpSec