通用人工智能(Artificial General Intelligence,AGI),是AI發展的終極目標。
當前的AI其實嚴格來說只能算作是狹義人工智能(Narrow AI)或弱人工智能(Weak AI),通常局限于特定任務,比如文本生成、圖像識別等,不具備通用性。此外,狹義人工智能不具備自主學習和推理能力,回想我們現在的大語言模型(LLM),都是對現有的大量語料進行學習,然后通過神經網絡實現輸出,而不能像人類一樣,自主學習新知識。
通用人工智能則完全不同。從定義來看,通用人工智能指一種能夠理解、學習并執行人類在各種環境和任務中的廣泛智能行為的人工智能系統。從特點來說,既然叫做通用人工智能,顧名思義,這樣的AI具有通用性,具備靈活性和適應性。其主要特點就是能夠自主學習、推理,并適應不同領域的任務。它不僅能處理單一問題,還能跨越學科,應用已有知識解決新的復雜問題,具備類似人類的認知、理解和情感智能。
那么,靈魂拷問來了,當前的AI距離真正的AGI有多遠?
為了回答這個問題,OpenAI于今年7月推出了一套從AI到AGI的五級分類系統,把AI的發展階段劃分為了清晰明確的五個階段,這五個階段分別是:
基礎AI(Emerging AGI):AI發展的初級階段,指能夠進行基本對話和信息處理的AI,如ChatGPT。盡管看起來炫酷,但強依賴于預訓練的數據集,AI本身的“智商”(理解和推理能力)很有限。
推理者(Reasoners):基本AI的進階版本,具備高級的邏輯推理和復雜問題解決能力。看到這里,小伙伴們是不是能夠聯想起OpenAI最近發布的推理模型o1.沒錯,o1正是體現了OpenAI對于第二階段AI的探索,并且這個模型叫做o1.而不是GPT-5.也能夠反映這一點。
代理(Agents):AI Agents,中文名可以直譯為AI代理,但根據目前國內主流叫法,應該叫做智能體。當前大多數AI Agents其實還處于比較初級的階段,主要通過規劃、推理和工具調用來完成一些基礎AI無法完成的復雜任務。
創新AI(Innovators):這一階段的AI不僅能解決現有問題,還能進行自主研究和開發,是不是越來越接近我們人類了,在學習中創新和進化,形成一個良性的循環。
組織AI(Organizations):通用人工智能最終階段,這種AI系統能夠智能分配任務,協同工作,完成復雜的任務,類似于一個團隊或組織,獲得1+1大于2的效果。
如果說ChatGPT處于上述階段中的第一階段:基礎AI(Emerging AGI),那么最近推出的推理模型o1一定能夠被劃分到第二階段:推理者(Reasoners)。o1模型在處理物化生等復雜學科的高難度任務上,表現幾乎與博士生相當。在數學領域,更是在國際數學奧林匹克(IMO)考試中達到了驚人的83%正確率,作為對比,GPT-4o只能正確解決13%的問題。
當大家的目光都還在第二階段推理者(Reasoners)上時,OpenAI已經將“觸手”伸向了第三階段:代理(Agents)。
今天,OpenAI正式推出了MLE-bench,一個用于衡量AI代理(AI Agents)在機器學習工程中表現的基準測試。OpenAI的研究人員從Kaggle平臺上選了75個與機器學習工程相關的競賽,形成了一套多樣化且具有挑戰性的任務。這些任務旨在測試AI代理在實際機器學習工程中的關鍵技能,如訓練模型、準備數據集以及運行實驗。
MLE-bench是一個用于評估AI代理在機器學習工程任務中表現的離線Kaggle競賽環境。每個競賽任務包含詳細的描述和相關的數據集,AI代理需要根據任務描述訓練模型、處理數據、調試并生成預測結果。AI代理的工作流程主要包括四個步驟:首先,讀取競賽的任務描述,理解任務目標;其次,使用提供的訓練數據集訓練模型,并根據需要進行調試和優化;接著,在測試數據集上運行模型,生成預測結果;最后,AI代理將生成的預測結果保存為submission.csv文件,并提交給評分器。評分器會根據預定的評分標準,對提交的結果進行評估,并將代理的成績與實際參與競賽的人類選手的成績進行比較,展示在排行榜上,給出對應的獎牌和得分。
OpenAI的研究團隊使用了開源的AI代理框架,對多個LLM模型進行了評估。結果表明,表現最好的設置是結合了o1-preview模型和AIDE框架的代理系統,該系統在16.9%的競賽中達到了Kaggle銅牌的水平,而多次嘗試后的表現提升至34.1%。
本文鏈接:http://www.tondou.cn/post/1772.html ,轉載需注明文章鏈接來源:http://www.tondou.cn/
- 喜歡(11)
- 不喜歡(2)