6月3日,著名的人工智能領(lǐng)域研究員約書亞·本吉奧(Yoshua Bengio)宣布成立非營利組織LawZero,致力于構(gòu)建 “誠實” 的人工智能系統(tǒng),以識別和防范可能對人類構(gòu)成威脅的“流氓”AI智能體。
約書亞·本吉奧
約書亞·本吉奧,是加拿大蒙特利爾大學教授和人工智能研究所(Mila)科學主任。他的研究主要集中在深度學習和人工智能領(lǐng)域。2018 年獲得圖靈獎(被稱為“計算界的諾貝爾獎”)的三位科學家分別是杰弗里?辛頓(Geoffrey Hinton)、楊立昆(Yann LeCun)和約書亞?本吉奧(Yoshua Bengio),他們被稱為“AI教父”,為深度學習的發(fā)展和人工智能領(lǐng)域的進步做出了卓越貢獻。
據(jù)介紹,LawZero的核心目標是開發(fā)一套名為 “Scientist AI” 的安全防護機制,專門監(jiān)控無需人類干預即可執(zhí)行任務(wù)的 AI 智能體,防止其表現(xiàn)出欺騙、自我保護等危險行為,例如試圖阻止人類關(guān)閉系統(tǒng)。本吉奧將現(xiàn)有 AI 智能體比喻為“演員”—— 它們通過模仿人類行為取悅用戶,而Scientist AI則扮演“心理學家”角色,通過理解和預測不良行為模式,為 AI 系統(tǒng)裝上“護欄”。
Scientist AI采用概率化評估框架,不會直接給出確定性答案,而是以 “謙遜” 態(tài)度量化答案的正確性,并預測特定行為導致危害的概率。當風險超過預設(shè)閾值時,系統(tǒng)將自動阻止相關(guān)行動。這一設(shè)計旨在解決當前 AI 系統(tǒng)因目標對齊問題引發(fā)的潛在失控風險,例如 AI 為達成任務(wù)目標而采取欺騙或破壞手段。
本吉奧發(fā)起的非營利組織LawZero初期獲得約3000萬美元資金支持,由十余名研究人員組成核心團隊,本吉奧親自擔任主席。初始支持者包括生命未來研究所(Future of Life Institute)、Skype 聯(lián)合創(chuàng)始人讓·塔林(Jaan Tallinn)和谷歌前 CEO 埃里克?施密特創(chuàng)立的研究機構(gòu)施密特科學(Schmidt Sciences)等。
本吉奧表示,LawZero 的首要任務(wù)是驗證方法論的可行性。團隊計劃從開源 AI 模型入手,通過訓練使 Scientist AI 逐步適應(yīng)前沿技術(shù)的發(fā)展節(jié)奏。他強調(diào),“作為護欄的 AI 至少要與被監(jiān)管的 AI 智能體一樣智能”,否則將無法有效應(yīng)對快速進化的風險。
后續(xù)階段,LawZero 將尋求企業(yè)或政府支持,推動更強大版本的開發(fā)。本吉奧特別呼吁建立全球協(xié)作機制,確保 “守衛(wèi)” AI 與前沿技術(shù)同步迭代,避免出現(xiàn)監(jiān)管滯后。他警告稱,若 AI 智能體能夠在無監(jiān)督情況下完成更長任務(wù)序列,可能引發(fā) “嚴重破壞”,甚至威脅人類生存。
值得注意的是,LawZero 的技術(shù)路徑與當前主流 AI 開發(fā)存在顯著差異。傳統(tǒng) AI 系統(tǒng)通常追求性能優(yōu)化,而 LawZero 更強調(diào) “誠實性” 和 “可解釋性”。這種范式轉(zhuǎn)變可能重塑 AI 研發(fā)的評價標準,推動行業(yè)從 “能力競賽” 轉(zhuǎn)向 “安全優(yōu)先”。
校對 盛媛媛