參考消息網11月25日報道據英國《金融時報》網站11月19日發表加拿大蒙特利爾大學計算機科學教授、魁北克人工智能研究所創始人約書亞·本希奧的文章《人工智能正在學會思考》,內容如下:
缺乏內部思維能力——換句話說就是不能思考——長期被認為是人工智能(AI)的主要弱點之一。聊天生成預訓練轉換器(ChatGPT)的創建者開放人工智能研究中心(OpenAI)近年在這方面取得的進展規模是科學界內部的一個辯論焦點。但它讓我和我的許多專家同事相信,我們有可能即將縮小AI與人類水平推理之間的差距。
研究人員長期以來一直認為,傳統的神經網絡(AI的領先方法)更符合“系統1”認知。這對應著針對問題給出直接或直觀答案(例如在自動識別人臉時)。另一方面,人類智能也依賴于“系統2”認知。它涉及內部思維,并啟用強大的推理形式(例如在解決數學難題或詳細規劃某事時)。它使我們能夠以連貫而新穎的方式組合知識點。
OpenAI的進展(尚未完全向公眾發布)是基于使用其o1大語言模型(LLM)進行內部思維的AI形式。
更好的推理將解決當前AI的兩大弱點:答案連貫性以及規劃和實現長期目標的能力較差。前者對于科學用途很重要,而后者對于創建自主智能體(autonomous agent)不可或缺。兩者都可以被用來實現重要的應用。
推理背后的原理一直是20世紀AI研究的核心。早期的成功例子是“深層思維”公司(DeepMind)的阿爾法圍棋(AlphaGo)(它在2015年成為第一個在圍棋博弈中擊敗人類冠軍的計算機系統),以及最近的AlphaProof(用來解決數學課題)。
在這里,神經網絡學會預測一個行動的有用性,然后利用這種“直覺”高效率地搜索可能的行動次序,從而進行規劃。然而,AlphaGo和AlphaProof涉及高度專業的知識(分別涉及圍棋和特定的數學領域)。
尚不清楚的是,如何將現代大語言模型的廣博知識與強大的推理和規劃能力結合起來。
進展已經取得了一些。在被要求給出一條通往答案的思路鏈時,大語言模型已經能夠針對復雜問題給出更好的答案。
OpenAI的“o”系列新模型進一步推進了這一構想,為此需要多得多的計算資源,消耗更多的能量。通過非常長的思路鏈,它可以被訓練得更善于“思考”。
因此,我們看到了一種新的計算擴展形式。不僅有更多的訓練數據和更大的模型,而且花更多的時間“思考”答案。這將大大提高在數學、計算機科學和廣義科學領域完成需要大量推理的任務的能力。
例如,OpenAI之前的模型GPT-4o在2024年美國數學奧林匹克競賽(AIME競賽)中的得分僅為大約13%,而o1模型的得分達到83%,躋身于美國最優秀的500名學生之列。
如果成功,就需要考慮重大風險。我們還不知道如何可靠地對AI進行價值對齊和控制。例如,對o1的評估顯示,它欺騙人類的能力有所提高——這是達到目標的技能得到提高的天然后果。同樣令人擔憂的是,按照OpenAI自己的風險尺度,o1幫助制造生物武器的能力已經從低風險上升到中等風險。這是該公司自稱可接受的最高水平(壓低擔憂水平可能符合該公司的利益)。
據信,解鎖推理和能動性是通往達到人類水平的AI——也被稱為通用人工智能(AGI)——道路上的主要里程碑。因此,大公司在競相達到這一目標的過程中,有強大的經濟動機在安全上打折扣。
o1很可能只是第一步。盡管它在許多推理和數學任務上表現出色,但它看起來仍做不到長期規劃。比較復雜的規劃任務會讓o1陷入掙扎,似乎表明要實現AI公司所追求的那種自主能動性,仍有工作要做。
但隨著編程和科學能力的提高,可以預期這些新模型會加速AI本身的研究,使AI比預期更快地達到人類水平的智能。推理能力的進步使得監管AI模型以保護公眾變得格外緊迫。(編譯/許燕紅)