人工智能安全性的一些具體問(wèn)題探討 Concrete Problems in AI Safety

Dario Amodei Google Brain
Chris Olah Google Brain
Jacob Steinhardt Stanford University
Paul Christiano UC Berkeley
John Schulman OpenAI
Dan Mané Google Brain

機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的快速發(fā)展由于其可能對(duì)社會(huì)帶來(lái)的潛在影響越來(lái)越被人們關(guān)注. 本文,我們討論了一個(gè)潛在的影響:機(jī)器學(xué)習(xí)系統(tǒng)中的事故問(wèn)題,我們將其定義為可能會(huì)在設(shè)計(jì)不良的真實(shí)世界人工智能系統(tǒng)中出現(xiàn)的不可預(yù)知且具有危害的行為. 我們給出了五個(gè)實(shí)際的研究問(wèn)題,這些相關(guān)的問(wèn)題包括事故風(fēng)險(xiǎn),根據(jù)問(wèn)題來(lái)源分成了三類:錯(cuò)誤的目標(biāo)函數(shù)();過(guò)于頻繁的評(píng)價(jià)代價(jià)過(guò)高的目標(biāo)函數(shù);或者在學(xué)習(xí)過(guò)程中不可預(yù)知行為. 我們對(duì)這些領(lǐng)域中的已有工作和與前沿人工智能系統(tǒng)相關(guān)的建設(shè)性研究方向進(jìn)行了回顧. 最后,我們考慮了如何高效地思考未來(lái)人工智能應(yīng)用的安全性的高層問(wèn)題.

引言

過(guò)去幾年中,我們看到了機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的一些長(zhǎng)期存在的困難問(wèn)題的解決上快速發(fā)展,遍及計(jì)算機(jī)視覺(jué)、玩視頻游戲、自動(dòng)駕駛及圍棋等各種各樣的領(lǐng)域. 這些進(jìn)展令人們對(duì)人工智能在醫(yī)療、科學(xué)、運(yùn)輸?shù)阮I(lǐng)域的變革的正面影響倍感興奮的同時(shí),也帶來(lái)了對(duì)于這些自動(dòng)系統(tǒng)在隱私、安全性、公平、經(jīng)濟(jì)、軍事等方面潛在影響的思考,另外更是對(duì)強(qiáng)大的人工智能的長(zhǎng)期影響產(chǎn)生了深思.

我們相信人工智能技術(shù)很可能是完全有利于人類,但同樣相信嚴(yán)肅地思考潛在挑戰(zhàn)和風(fēng)險(xiǎn)非常值得. 我們還對(duì)隱私、安全性、公平、經(jīng)濟(jì)和政策方面的工作相當(dāng)支持,但在本文中我們討論另一類問(wèn)題,這類問(wèn)題同樣與人工智能對(duì)社會(huì)影響有關(guān),即機(jī)器學(xué)習(xí)系統(tǒng)中事故問(wèn)題. 我們將事故定義為由于指定了錯(cuò)誤的目標(biāo)函數(shù)不注意學(xué)習(xí)的過(guò)程或者引入了其他機(jī)器學(xué)習(xí)相關(guān)的實(shí)現(xiàn)錯(cuò)誤而導(dǎo)致的在機(jī)器學(xué)習(xí)系統(tǒng)中不可預(yù)估的危害行為.

在機(jī)器學(xué)習(xí)社群中已經(jīng)有大量不同領(lǐng)域的文獻(xiàn)討論了和事故(包含健壯性、風(fēng)險(xiǎn)敏感性和安全探索)問(wèn)題;我們?cè)谙旅孢M(jìn)行回顧.

然而,當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)被部署在規(guī)模不斷擴(kuò)展的自治、開(kāi)放場(chǎng)景時(shí),非常值得去對(duì)這些方法的擴(kuò)展性進(jìn)行反思及理解降低現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)中事故風(fēng)險(xiǎn)過(guò)程中存在什么樣的挑戰(zhàn). 總之,我們相信存在很多具體的開(kāi)放的與機(jī)器學(xué)習(xí)系統(tǒng)的事故問(wèn)題相聯(lián)系的技術(shù)問(wèn)題.

現(xiàn)有大量公眾對(duì)這些事故的討論. 大部分討論聚焦于極端情況,比如在超智能體中錯(cuò)誤指定的目標(biāo)函數(shù). 然而,我們的觀點(diǎn)是,其實(shí)不需要采用這些極端的場(chǎng)景來(lái)有效地討論事故,實(shí)際上按照極端的思維方式會(huì)將我們引入到一個(gè)不必要的缺少準(zhǔn)確性的推測(cè)性討論的境地,比如在一些評(píng)論中提到的[37,83]. 我們相信通常最有效的方式是采用現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)構(gòu)建一個(gè)由實(shí)際的問(wèn)題構(gòu)成的框架. 隨著人工智能能力提升以及AI系統(tǒng)在社會(huì)作用上的日益增強(qiáng),我們期望在本文中討論的根本挑戰(zhàn)會(huì)不斷重要起來(lái). 人工智能和機(jī)器學(xué)習(xí)社區(qū)越來(lái)越成功地參與和理解這些根本的技術(shù)挑戰(zhàn),最終我們?cè)侥軌虺晒Φ亻_(kāi)發(fā)出更加有用、有意義和重要的人工智能系統(tǒng).

本文的目標(biāo)就是要聚焦于一些具體的當(dāng)前就可進(jìn)行試驗(yàn)的也和前沿人工智能系統(tǒng)相關(guān)的安全性問(wèn)題,同樣對(duì)與這些問(wèn)題相關(guān)的已有的文獻(xiàn)進(jìn)行了回顧. 在第二節(jié),我們使用機(jī)器學(xué)習(xí)經(jīng)典方法(諸如監(jiān)督分類和強(qiáng)化學(xué)習(xí))來(lái)對(duì)事故風(fēng)險(xiǎn)減輕(這在公眾討論中常被成為“人工智能安全”)進(jìn)行了建模.

我們解釋了為何我們認(rèn)為在機(jī)器學(xué)習(xí)領(lǐng)域中當(dāng)前發(fā)展方向,比如深度強(qiáng)化學(xué)習(xí)和在更廣的環(huán)境中的行動(dòng)的智能體,能夠給出越來(lái)越相關(guān)的對(duì)事故的研究. 在第 3-7 節(jié),我們探究了五個(gè)具體的人工智能安全性問(wèn)題. 每節(jié)都有相應(yīng)的對(duì)相關(guān)實(shí)驗(yàn)的描述. 第 8 節(jié)討論了一些相關(guān)的嘗試,第 9 節(jié)總結(jié).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容