利茲大學(xué):人工智能的優(yōu)點(diǎn)需要更高的透明度
人工智能開(kāi)發(fā)人員需要更加開(kāi)放地評(píng)估他們生產(chǎn)的工具,以確保人們了解高科技人工智能的實(shí)際效果。
來(lái)自機(jī)構(gòu)的16名研究人員呼吁對(duì)人工智能系統(tǒng)的評(píng)估和報(bào)告方式進(jìn)行重大改變,以便其他學(xué)者和用戶可以充分了解這些工具可以做什么,不能做什么。
利茲大學(xué)計(jì)算機(jī)學(xué)院的安東尼·科恩(Anthony Cohn)教授是16月14日星期五在《科學(xué)》雜志上發(fā)表的一篇政策論文背后的<>位學(xué)者之一,該論文主張這些變化。
科恩教授也是艾倫圖靈研究所的研究員,他警告說(shuō),如果沒(méi)有人工智能的更多透明度,人們“終可能會(huì)在不應(yīng)該信任一個(gè)系統(tǒng)的時(shí)候信任一個(gè)系統(tǒng)”。
人們終可能會(huì)在不應(yīng)該信任一個(gè)系統(tǒng)的時(shí)候信任一個(gè)系統(tǒng)
傳統(tǒng)上,人工智能系統(tǒng)是根據(jù)“基準(zhǔn)”進(jìn)行評(píng)估的——通常是“問(wèn)題實(shí)例”的大型數(shù)據(jù)集,如一組X射線掃描,異常情況以注釋的形式突出顯示。人工智能系統(tǒng)可以在其中的一部分上進(jìn)行訓(xùn)練,然后在一組看不見(jiàn)的實(shí)例上進(jìn)行測(cè)試,沒(méi)有任何注釋,并評(píng)估它能夠預(yù)測(cè)正確注釋的能力。
然后通過(guò)匯總統(tǒng)計(jì)數(shù)據(jù)來(lái)衡量和報(bào)告人工智能系統(tǒng)的整體性能,并可能達(dá)到非常高的性能水平。雖然是衡量系統(tǒng)整體性能的潛在有用指標(biāo),但這些匯總統(tǒng)計(jì)數(shù)據(jù)可以掩蓋“少數(shù)情況”表現(xiàn)不佳的領(lǐng)域,這對(duì)任何依賴整體統(tǒng)計(jì)數(shù)據(jù)的人來(lái)說(shuō)都有深遠(yuǎn)的影響,他們認(rèn)為人工智能系統(tǒng)在各方面都同樣可靠。
在用于幫助醫(yī)護(hù)人員找到診斷的人工智能中,這些系統(tǒng)在觀察來(lái)自特定種族或人口統(tǒng)計(jì)的人時(shí)可能會(huì)出現(xiàn)問(wèn)題,因?yàn)檫@些實(shí)例只占其“培訓(xùn)”的一小部分,或者工具在識(shí)別特定罕見(jiàn)疾病或異常方面的成功率可能顯著降低。
科恩教授說(shuō):“隨著人工智能如今在新聞中如此之多,以及許多關(guān)于人工智能系統(tǒng)性能的主張以及據(jù)稱在通用人工智能(AGI)方面取得的進(jìn)展,正確理解新系統(tǒng)結(jié)果時(shí)取得的實(shí)際進(jìn)展,以及系統(tǒng)的優(yōu)勢(shì)和劣勢(shì),變得更加重要。
“隱性偏見(jiàn)”的風(fēng)險(xiǎn)
這個(gè)問(wèn)題可以適用于許多不同的領(lǐng)域;他補(bǔ)充說(shuō),一個(gè)非醫(yī)學(xué)的例子可能是一個(gè)經(jīng)過(guò)訓(xùn)練的系統(tǒng)來(lái)做出信用卡申請(qǐng)的決策 - 雖然它可能被證明在從先前決策數(shù)據(jù)集中提取的測(cè)試數(shù)據(jù)非常準(zhǔn)確,但這可能會(huì)掩蓋對(duì)特定少數(shù)群體申請(qǐng)人的偏見(jiàn)。
這篇題為“重新思考人工智能評(píng)估結(jié)果報(bào)告”的論文由劍橋大學(xué)Leverhulme智能未來(lái)中心的作者Ryan Burnell博士撰寫(xiě),研究人員來(lái)自世界各地機(jī)構(gòu) - 包括利茲,哈佛大學(xué),瓦倫西亞理工大學(xué)的瓦倫西亞人工智能研究所(VRAIN),麻省理工學(xué)院和谷歌。
人工智能的研究文化以超越當(dāng)前的性能為中心,以便發(fā)表論文、贏得挑戰(zhàn)和排行榜。
伯內(nèi)爾博士說(shuō):“人工智能的研究文化集中在超越當(dāng)前的性能上,以便發(fā)表論文、贏得挑戰(zhàn)和排行榜。這種文化導(dǎo)致了對(duì)改進(jìn)聚合指標(biāo)的執(zhí)著,并抑制了研究人員仔細(xì)詢問(wèn)系統(tǒng)性能的積極性。相反,發(fā)布速度和整體系統(tǒng)準(zhǔn)確性優(yōu)先于穩(wěn)健透明的評(píng)估實(shí)踐。
該論文為穩(wěn)健的人工智能評(píng)估實(shí)踐制定了四項(xiàng)新指南,稱研究人員應(yīng)盡可能詳細(xì)說(shuō)明他們?cè)陂_(kāi)發(fā)和評(píng)估系統(tǒng)時(shí)使用的問(wèn)題實(shí)例的細(xì)分。作者還建議,所有記錄的評(píng)估結(jié)果 - 包括成功和失敗 - 都應(yīng)該提供,以便其他研究人員可以復(fù)制分析并進(jìn)行后續(xù)評(píng)估。