跳到主要內容
AGI 到了嗎?GPT-5 考 57 分,記憶力那題交白卷

AGI 到了嗎?GPT-5 考 57 分,記憶力那題交白卷

AI 時代 · 11 個來源 · 約 12 分鐘 ·
目錄(6 節)

你最近一定在 LINE 群組、公司 Slack、或被同事傳到手機上看過這張截圖:黃仁勳在 Lex Fridman podcast 上說了這句話。

「I think it's now. I think we've achieved AGI.」

那一週 NVIDIA 股價上漲了。我訂閱的五個 AI newsletter 裡,有四個把這句話做成了標題。

然後某個工程師在網路上丟了這句:「真他媽該死,到底怎麼辦好焦慮啊啊啊啊。」他剛看完 AI 兩次 prompt 寫完一個功能的 demo。隔壁討論串的標題更短:「以前要請 4 個,現在只需要 1 個。」老闆下週開會要講的可能就是這件事。

黃仁勳說了 AGI 到了,那種焦慮從那天之後看起來突然合理了很多。

但黃仁勳在同一集 podcast 裡還說了另一句。這句沒上任何標題:

「100,000 個 AI agent 建出 NVIDIA 的機率是零。」

同一個人,同一段錄音。前一句「AGI 到了」,後一句「十萬個 AI 建不出 NVIDIA」。你沒辦法說他偏激或不懂。他就是全世界最懂 AI 基礎設施的那個人,大部分的模型是跑在他賣的晶片上訓練出來的。

他在同一集 podcast 裡建好一座城,又炸了它。

同一段錄音,同一個人,前一句說 AGI 到了,後一句說十萬個 AI 建不出一家公司。

答案在兩句話中間的縫隙:他說的「AGI」跟你腦中的「AGI」,量的根本是兩個東西。


黃仁勳的 AGI:十億美元衝到就算,永續不行

黃仁勳心中的 AGI 可以用一句話收乾:能衝到十億美元估值,然後可能馬上倒。

Lex Fridman 的問題很具體:「AI 能不能從零開始,建立並經營一家價值十億美元的科技公司?」

黃仁勳答「可以」,然後加一個但書:

「You said a billion, and you didn't say forever.」

你說十億,你又沒說永遠。

現在的 AI 能搞出一個病毒式 app、一個數位網紅、一個 Tamagotchi 遊戲,衝到十億美元估值。然後可能馬上倒。

但要建造一家持續運作的公司,那是另一回事。有物理世界的工廠、有供應鏈、有三萬名工程師在辦公室裡為一條電路板的佈線吵架。十萬個 AI agent 一起上也做不到。

我重聽這一段兩次。第二次我注意到一個細節:Fridman 問題的主語是「AI」,黃仁勳答案的主語換成了「十萬個 AI agent」。他需要用「十萬個一起」才敢說做不到。代表他心裡的單一 AI 上限已經很高了。

然後他給這個東西一個名字:AGI。一個能短暫衝過經濟門檻但維持不了的東西。


GPT-5 考了 57 分,記憶力那題交白卷

學術界打的分是 57。滿分 100。

2025 年 10 月一份 33 人共簽的論文出現在 arXiv 上。我看到簽名欄停下來重看了一次。LLM 最大的懷疑派 Gary Marcus 和深度學習之父 Yoshua Bengio 平常在社群媒體上隔空對罵,這次共同簽下同一份文件。他們同意的事只有一件:AGI 必須用心理計量學來衡量,像給人類做智力測驗那樣。10 個認知維度,一題一題給分。

讀寫能力 10/10。數學能力 10/10。常識知識 9/10。

長期記憶儲存 0/10

零分。

這樣說吧。昨天下午,我跟 Claude 討論了三個小時的產品架構。第一個小時在辯論資料表該合併還是切開。第二個小時我畫了三版 wireframe,它幫我挑了一版。第三個小時我們吵完要用哪個 API provider。我關掉對話去倒咖啡,回來打開一個新對話繼續問。它的第一句話是:「很高興認識你,我是 Claude。你想聊什麼?」

論文裡有一個詞叫 「嚴重失憶」。開發者用兩種手法掩蓋這件事:把整個 codebase 塞進 context window 靠工作記憶硬撐,或者接 RAG 讓 AI 去資料庫搜答案。論文的評語就一句話。這些都是「掩蓋失憶的拐杖」。

拐杖不算腿。

但它寫 code 的速度又讓人頭皮發麻。那三個小時的架構討論,換成我自己從零查文件、畫流程、跑 proof-of-concept,要花兩天。一位五年經驗的工程師寫:「自從去年底 Opus 4.5 推出後,整個組內四個人幾乎半年沒有手寫程式碼。」整個組的手指頭,都在慢慢被那個 0 分的東西取代。

把「數學 10 分,記憶 0 分」這張成績單攤平在桌上看,答案不在總分裡。在形狀裡。AI 的認知輪廓是鋸齒狀的:某些尖刺已經超越人類,某些凹陷接近於零。研究者給這個形狀取了名字:jagged cognitive profile。

AI 的認知輪廓像鋸齒,某些維度極高,某些接近於零

2026 年 3 月,Google DeepMind 發表了自己的認知框架,也把 AGI 拆成 10 個維度:知覺、生成、注意力、學習、記憶、推理、後設認知、執行功能、問題解決、社會認知。

DeepMind 的結論跟 Hendrycks 團隊一致:AI 在某些維度已經超越多數人,其他維度遠遠落後。但這份論文多給了一個細節:10 個維度裡,5 個的測量工具連學界自己都還沒造好(後設認知、注意力、學習、社會認知、問題解決)。DeepMind 為此開了一個 20 萬美元的 Kaggle 獎金,請外部研究者幫忙補洞。

你沒辦法證明一個東西不存在。如果你還沒造出量它的尺,你也沒辦法證明它存在。

十個認知維度,有五個的量尺學界還沒造好。AGI 這個詞指的是什麼,科學家自己的字典裡還沒寫完。

AGI 的定義正在被改寫

OpenAI–微軟合約:宣布 AGI 等於失去幾百億獨家權

宣布 AGI 達成那一天,OpenAI 會失去跟微軟的獨家授權,換算下來是幾百億美元現金流。這個定義越模糊,OpenAI 手上的籌碼越多。

Fortune 在 3 月 30 日的深度報導裡挖出了一個很少被報導的事實:2023 年,微軟投資 OpenAI 100 億美元時,合約中有一個條款:微軟是 OpenAI 所有 AI 產品的獨家商業夥伴,但 AGI 不包含在內。

換句話說,一旦 OpenAI 宣布達成 AGI,微軟就失去獨家權。

那誰有權宣布 AGI 達成?原本是 OpenAI 的非營利董事會。但據 The Information 報導,在 2023 年那份合約裡,AGI 被秘密定義為一個非常具體的東西:一項能產生至少 1000 億美元利潤的技術。

OpenAI 去年營收 130 億美元,還虧了 80 億。離 1000 億美元的利潤差得遠。

Altman 在部落格寫「我們現在有信心知道怎麼建造 AGI」,又跟 Bloomberg 說 AGI 是「不太有用的詞」。兩個版本放一起看不矛盾:「接近」能吸引投資和人才,「達成」會讓微軟的獨家權消失。永遠在接近,永遠還沒到,是合約上最理想的位置。

黃仁勳的動機更直接。他賣的是 GPU。AGI 離得越近,全世界的資料中心就要買越多 NVIDIA 的晶片。當他在全球最大的 podcast 上說「AGI 已到」,NVIDIA 的股價在那一週上漲了。

Gary Marcus 在他的分析裡把這個現象叫做一個概念錯誤加上一個策略誤判:「把越來越精緻的統計近似跟真正的智慧混為一談,不只是學術上的錯——是會讓你做出錯誤投資決定的錯。」


Amodei、Altman、Benioff:建造 AGI 的人自己在撤退

建造 AGI 的三家公司(Anthropic、OpenAI、Salesforce)的高層一個接一個撤退。Amodei 說 AGI「過時了」,理由是 Claude 寫 Python 比很多工程師強,常識直覺卻還是零,「通用智慧」這個標籤站不住腳。Altman 說 AGI 是「不太有用的詞」。Salesforce 的 Benioff 用得更重:「催眠」。

最值得停下來看的是 Altman。一年前他在部落格裡寫:「我們現在有信心知道怎麼建造 AGI。」一年後,同一個 CEO 跟 Bloomberg 說 AGI 是「不太有用的詞」。兩個版本的 Altman,你沒辦法同時相信。

Benioff 的位置又不一樣。Anthropic 和 OpenAI 是建 AGI 的人喊停,Benioff 是付錢買 AI 的那一邊喊停。買家開始喊催眠,代表故事賣不下去了。

有人一句話總結了這個荒謬:「尼信嗎?老實說我不太信。AI 時代就會產生一堆無用階級。」

另一派人站在他們對面。DeepMind 和 Hendrycks 團隊的立場是:概念本身很好,只是被行銷扭曲了。解法是用心理計量的尺取代 demo 影片的敘事。

這個分歧在 DeepMind 創辦人 Demis Hassabis 身上變得最複雜。

《The Infinity Machine》記錄過這個畫面。Hassabis 凌晨兩點坐在桌前,覺得「現實在對著我尖叫,試圖告訴我什麼」。對他來說,AGI 跟商業目標無關,也跟資產負債表無關。這是他理解宇宙基本規則的工具。他不想放棄這個詞。

但 Hassabis 自己也說,我們還在「第一局」。他把大型語言模型比喻成棋局裡的「策略網路」:能預測下一步該走什麼,但缺少「價值網路」:搜尋、規劃、反省的能力。LLM 只在「樹的下半部」搜索知識,生不出像相對論那樣的原創。

DeepMind 內部也因此分裂。有一派研究者認為公司「錯失」了 LLM 浪潮,有人離職抗議。這個實驗室裡的路線共識也吵不出來。


27% → 57%,兩年:加速度本身值得注意

兩年跳 30 個百分點。如果這個速度持續,2027 年就超過 80%。

GPT-4 在 2023 年的 AGI 分數是 27%,GPT-5 在 2025 年是 57%。這不是線性外推。進步在跳躍。

我自己的體感跟這個數字吻合。兩年前我讓 AI 幫忙重構一段 code,它給的方案漏洞百出,我花更多時間改它的錯。上個月同樣的任務,它一次就給出比我原本想的更乾淨的架構。

而 DeepMind 的認知框架承認了一件更根本的事:10 個維度裡有一半,現有的測量工具嚴重不足。後設認知、注意力、學習能力、社會認知、問題解決,這五個維度的測量方法學界自己都還沒建好。

如果你無法測量一個東西,你怎麼確定它不存在?

一個寫過好幾本金融史暢銷書的《金融時報》記者(Sebastian Mallaby)在書中記錄了一個令人不安的細節:Hassabis 當年預測 AGI 會在某個時間軸上到來。現在,它「幾乎剛好在他預言的時間軸上」到達了。但他沒有因此感到勝利。他感到的是恐懼。因為他原本設想的劇本是「一個實驗室安全地建造 AGI」。結果現在變成了全球不可控的軍備競賽。

Hassabis 自己也犯過判斷錯誤。他多年來堅信語言模型因為「沒有接地」(沒有在物理環境中互動)所以永遠無法產生智慧。但後來他承認,語言模型是「不合理地有效」。出走的 LLM 派押對了趨勢。

說 AGI 很近的人在賣 GPU,說 AGI 很遠的人在防守學術立場。你得自己看 AI 真正做得到什麼,別照抄任一邊。

問題在形狀。AI 的認知雷達圖正在以非線性速度擴張。某些尖刺已經超越人類,某些凹陷可能比我們以為的更快被填平。


三把尺:你老闆用的是黃仁勳那把,還是 Hendrycks 那把?

三把尺,三件事,三個相反的結論。攤開來看:

持尺者 量的是 現在幾分 你該擔心什麼
經濟門檻 黃仁勳 衝過十億美元估值的數位產品 已達成 客戶半年內把客服全改成 AI
心理計量 Hendrycks 33 人團隊 10 個認知維度各打分 57 分 記憶那一格還是 0,半年不會翻身
合約定義 OpenAI–微軟合約 能產生 1000 億美元利潤的技術 還早得很 Altman 永遠會說「接近了」不說「到了」

Huang 的「AGI 到了」,Hendrycks 會打 57 分,OpenAI 律師會拿出合約搖頭。三個人都沒說謊。他們在量三件不同的事。Huang 和 OpenAI 甚至會為了同一個理由(都是為了賣東西)給出相反答案。

而這場爭論對你最重要的部分,不在三把尺上。在你老闆的書桌上。

你的客戶讀完 Fortune 的標題,決定把客服全部改成 AI agent,半年後崩盤:他量的是 Huang 的尺。

你的投資顧問把一半倉位壓在「AGI beneficiary」基金上:他量的是 OpenAI 的尺。

你的 CTO 看完 Hendrycks 那份論文,說「暫緩採用,我們先等記憶維度上來」:他量的是學術的尺。

三個決定都掛著「AGI」這個詞,結果是三種不同的賭注。而你的薪水、你的退休金、你公司的下一個季度預算,都是這些賭注的結果。

所以我讀到 Huang 那句話時,真正不安的地方不在 Huang 身上。他的誘因很清楚。他賣晶片,AGI 越近晶片賣越多,那一週股價漲了。他的立場是可以計算的。

不安的是看到那句話沒有追問就相信的那些人。全世界現在有上千個老闆正在用 Huang 的尺做決定。AI 能力這一週沒有任何改變,變的是他們腦中「AGI」的音量。最大聲的版本被採用,而最大聲的人剛好是賣 GPU 的。

我幫客戶做數位轉型。最近每次見面,第一個問題都是:「AGI 來了,我們要不要 all in?」我的回答都一樣。等一下,你說的 AGI 是誰的定義?十個客戶有八個會安靜下來想一分鐘。他們發現自己從來沒問過這件事。

反過來想:Huang 在同一集 podcast 裡還說過一句沒上任何標題的話:「Intelligence is a commodity.」智慧是商品。他認為 AI 的智慧就像洗碗機。功能性地處理任務,效率極高,但需要人類的同理心、痛苦承受力和領導力來驅動。

他可能是對的。但一個賣洗碗機的人告訴你「洗碗的時代結束了」,這句話對他值多少錢,你算清楚了嗎?

開頭那個在網路上丟「真他媽該死,到底怎麼辦好焦慮啊啊啊啊。」的工程師,他上班那家公司下一季要怎麼用 AI,答案不在 Huang 的 podcast 裡。答案在他老闆腦中「AGI」的那個版本。

所以我給自己定了一個做法:聽到「AGI 來了」這句話的當下不回應,先在心裡跑一個三秒流程:這個人賣什麼?這句話對他值多少錢?雷達圖上記憶那格寫幾分?三題走完再開口。

客戶第一次聽我回這種問題會愣一下。但下次他們自己先說「等等,那我應該用哪把尺」的時候,這個對話就換了一種。


下次有人對你說「AGI 來了」,在開口之前先在心裡跑一次:他賣什麼?這句話對他值多少錢?雷達圖上記憶那格寫幾分?


本文讀了這些來源:

書:

Podcast:

文章:

論文:


你可能也想讀:

我寫信時,寄給你

不定期。寫舊文章的後續、新發現、想討論的事。

本文為讀角獸矛盾圖譜(Contradiction Graph)的一個節點。內容以 CC BY 4.0 授權,歡迎引用、改作、再發布,請註明來源。