麻省理工學(xué)院:一種設(shè)計適合某些任務(wù)的神經(jīng)網(wǎng)絡(luò)的方法
借助正確的構(gòu)建塊,機器學(xué)習(xí)模型可以更準(zhǔn)確地執(zhí)行欺詐檢測或垃圾郵件過濾等任務(wù)。
神經(jīng)網(wǎng)絡(luò)是一種機器學(xué)習(xí)模型,正被用于幫助人類完成各種各樣的任務(wù),從預(yù)測某人的信用評分是否足夠高,有資格獲得貸款,到診斷患者是否患有某種疾病。但研究人員對這些模型的工作原理仍然只有有限的了解。給定的模型是否適合某些任務(wù)仍然是一個懸而未決的問題。
麻省理工學(xué)院的研究人員已經(jīng)找到了一些答案。他們對神經(jīng)網(wǎng)絡(luò)進(jìn)行了分析,并證明它們可以被設(shè)計成“”的,這意味著當(dāng)網(wǎng)絡(luò)獲得大量標(biāo)記的訓(xùn)練數(shù)據(jù)時,它們可以限度地減少將借款人或患者錯誤分類到錯誤類別的可能性。為了實現(xiàn)性能,必須使用特定的架構(gòu)構(gòu)建這些網(wǎng)絡(luò)。
研究人員發(fā)現(xiàn),在某些情況下,使神經(jīng)網(wǎng)絡(luò)成為狀態(tài)的構(gòu)建塊并不是開發(fā)人員在實踐中使用的構(gòu)建塊。研究人員說,通過新分析得出的這些構(gòu)建塊是非常規(guī)的,以前從未被考慮過。
在本周發(fā)表在《美國科學(xué)院院刊》(Proceedings of the National Academy of Sciences)上的一篇論文中,他們描述了這些稱為激活函數(shù)的構(gòu)建塊,并展示了如何使用它們來設(shè)計在任何數(shù)據(jù)集上實現(xiàn)更好性能的神經(jīng)網(wǎng)絡(luò)。即使神經(jīng)網(wǎng)絡(luò)變得非常大,結(jié)果仍然成立。這項工作可以幫助開發(fā)人員選擇正確的激活函數(shù),使他們能夠構(gòu)建神經(jīng)網(wǎng)絡(luò),在廣泛的應(yīng)用領(lǐng)域更準(zhǔn)確地對數(shù)據(jù)進(jìn)行分類,作者,電氣工程和計算機科學(xué)系(EECS)教授Caroline Uhler解釋說。
“雖然這些是以前從未使用過的新激活功能,但它們是某人可以針對特定問題實際實現(xiàn)的簡單功能。這項工作確實顯示了擁有理論證明的重要性。如果你對這些模型有一個原則性的理解,這實際上可以引導(dǎo)你獲得你從未想過的新激活函數(shù),“Uhler說,他也是麻省理工學(xué)院和哈佛大學(xué)布羅德研究所埃里克和溫迪施密特中心的聯(lián)合主任,也是麻省理工學(xué)院信息和決策系統(tǒng)實驗室(LIDS)及其數(shù)據(jù)研究所的研究員, 系統(tǒng)與社會。
加入Uhler論文的是主要作者Adityanarayanan Radhakrishnan,EECS研究生和Eric和Wendy Schmidt中心研究員,以及Mikhail Belkin,加州大學(xué)圣地亞哥分校Halicio?lu數(shù)據(jù)科學(xué)研究所教授。
激活調(diào)查
神經(jīng)網(wǎng)絡(luò)是一種松散地基于人腦的機器學(xué)習(xí)模型。許多相互連接的節(jié)點或神經(jīng)元層處理數(shù)據(jù)。研究人員通過向網(wǎng)絡(luò)展示數(shù)據(jù)集中的數(shù)百萬個示例來訓(xùn)練網(wǎng)絡(luò)完成任務(wù)。
例如,經(jīng)過訓(xùn)練將圖像分類的網(wǎng)絡(luò),例如狗和貓,被賦予已編碼為數(shù)字的圖像。網(wǎng)絡(luò)逐層執(zhí)行一系列復(fù)雜的乘法運算,直到結(jié)果只有一個數(shù)字。如果該數(shù)字為正數(shù),則網(wǎng)絡(luò)將圖像分類為狗,如果為負(fù)數(shù),則分類為貓。
激活函數(shù)幫助網(wǎng)絡(luò)學(xué)習(xí)輸入數(shù)據(jù)中的復(fù)雜模式。他們通過在將數(shù)據(jù)發(fā)送到下一層之前對一層的輸出應(yīng)用轉(zhuǎn)換來實現(xiàn)這一點。當(dāng)研究人員構(gòu)建神經(jīng)網(wǎng)絡(luò)時,他們選擇一個激活函數(shù)來使用。他們還選擇網(wǎng)絡(luò)的寬度(每層有多少神經(jīng)元)和深度(網(wǎng)絡(luò)中有多少層)。
“事實證明,如果你采用人們在實踐中使用的標(biāo)準(zhǔn)激活功能,并不斷增加網(wǎng)絡(luò)的深度,它會給你帶來非常糟糕的性能。我們表明,如果你使用不同的激活函數(shù)進(jìn)行設(shè)計,隨著你獲得更多的數(shù)據(jù),你的網(wǎng)絡(luò)會變得越來越好,“Radhakrishnan說。
他和他的合作者研究了這樣一種情況:神經(jīng)網(wǎng)絡(luò)是無限深度和寬的——這意味著網(wǎng)絡(luò)是通過不斷添加更多的層和更多的節(jié)點來構(gòu)建的——并被訓(xùn)練來執(zhí)行分類任務(wù)。在分類中,網(wǎng)絡(luò)學(xué)習(xí)將數(shù)據(jù)輸入放入單獨的類別中。
“干凈的畫面”
在進(jìn)行詳細(xì)分析后,研究人員確定,這種網(wǎng)絡(luò)只有三種方式可以學(xué)習(xí)對輸入進(jìn)行分類。一種方法根據(jù)訓(xùn)練數(shù)據(jù)中的大多數(shù)輸入對輸入進(jìn)行分類;如果狗比貓多,它將決定每個新輸入都是狗。另一種方法是通過選擇與新輸入相似的訓(xùn)練數(shù)據(jù)點的標(biāo)簽(狗或貓)進(jìn)行分類。
第三種方法根據(jù)與其相似的所有訓(xùn)練數(shù)據(jù)點的加權(quán)平均值對新輸入進(jìn)行分類。他們的分析表明,這是三種方法中導(dǎo)致性能的方法。他們確定了一組始終使用這種分類方法的激活函數(shù)。
“這是令人驚訝的事情之一——無論你為激活函數(shù)選擇什么,它都將成為這三個分類器之一。我們有公式可以明確地告訴您它將是這三者中的哪一個。這是一幅非常干凈的畫面,“他說。
他們在幾個分類基準(zhǔn)測試任務(wù)上測試了這一理論,發(fā)現(xiàn)它在許多情況下提高了性能。神經(jīng)網(wǎng)絡(luò)構(gòu)建者可以使用他們的公式來選擇一個激活函數(shù),從而提高分類性能,Radhakrishnan說。
在未來,研究人員希望利用他們所學(xué)到的知識來分析他們擁有有限數(shù)據(jù)的情況,以及不是無限寬或無限深的網(wǎng)絡(luò)。他們還希望將此分析應(yīng)用于數(shù)據(jù)沒有標(biāo)簽的情況。
“在深度學(xué)習(xí)中,我們希望建立基于理論的模型,以便我們能夠在某些關(guān)鍵任務(wù)環(huán)境中可靠地部署它們。這是一種有前途的方法,可以達(dá)到這樣的事情 - 以理論為基礎(chǔ)的方式構(gòu)建架構(gòu),在實踐中轉(zhuǎn)化為更好的結(jié)果,“他說。
這項工作得到了美國科學(xué)基金會,海軍研究辦公室,麻省理工學(xué)院-IBM沃森人工智能實驗室,布羅德研究所的埃里克和溫迪施密特中心以及西蒙斯研究員獎的部分支持。