AGI 到了嗎?GPT-5 考 57 分,記憶力那題交白卷
目錄(6 節)
你最近一定在 LINE 群組、公司 Slack、或被同事傳到手機上看過這張截圖:黃仁勳在 Lex Fridman podcast 上說了這句話。
「I think it's now. I think we've achieved AGI.」
那一週 NVIDIA 股價上漲了。我訂閱的五個 AI newsletter 裡,有四個把這句話做成了標題。
然後某個工程師在網路上丟了這句:「真他媽該死,到底怎麼辦好焦慮啊啊啊啊。」他剛看完 AI 兩次 prompt 寫完一個功能的 demo。隔壁討論串的標題更短:「以前要請 4 個,現在只需要 1 個。」老闆下週開會要講的可能就是這件事。
黃仁勳說了 AGI 到了,那種焦慮從那天之後看起來突然合理了很多。
但黃仁勳在同一集 podcast 裡還說了另一句。這句沒上任何標題:
「100,000 個 AI agent 建出 NVIDIA 的機率是零。」
同一個人,同一段錄音。前一句「AGI 到了」,後一句「十萬個 AI 建不出 NVIDIA」。你沒辦法說他偏激或不懂。他就是全世界最懂 AI 基礎設施的那個人,大部分的模型是跑在他賣的晶片上訓練出來的。
他在同一集 podcast 裡建好一座城,又炸了它。
同一段錄音,同一個人,前一句說 AGI 到了,後一句說十萬個 AI 建不出一家公司。
答案在兩句話中間的縫隙:他說的「AGI」跟你腦中的「AGI」,量的根本是兩個東西。
黃仁勳的 AGI:十億美元衝到就算,永續不行
黃仁勳心中的 AGI 可以用一句話收乾:能衝到十億美元估值,然後可能馬上倒。
Lex Fridman 的問題很具體:「AI 能不能從零開始,建立並經營一家價值十億美元的科技公司?」
黃仁勳答「可以」,然後加一個但書:
「You said a billion, and you didn't say forever.」
你說十億,你又沒說永遠。
現在的 AI 能搞出一個病毒式 app、一個數位網紅、一個 Tamagotchi 遊戲,衝到十億美元估值。然後可能馬上倒。
但要建造一家持續運作的公司,那是另一回事。有物理世界的工廠、有供應鏈、有三萬名工程師在辦公室裡為一條電路板的佈線吵架。十萬個 AI agent 一起上也做不到。
我重聽這一段兩次。第二次我注意到一個細節:Fridman 問題的主語是「AI」,黃仁勳答案的主語換成了「十萬個 AI agent」。他需要用「十萬個一起」才敢說做不到。代表他心裡的單一 AI 上限已經很高了。
然後他給這個東西一個名字:AGI。一個能短暫衝過經濟門檻但維持不了的東西。
GPT-5 考了 57 分,記憶力那題交白卷
學術界打的分是 57。滿分 100。
2025 年 10 月一份 33 人共簽的論文出現在 arXiv 上。我看到簽名欄停下來重看了一次。LLM 最大的懷疑派 Gary Marcus 和深度學習之父 Yoshua Bengio 平常在社群媒體上隔空對罵,這次共同簽下同一份文件。他們同意的事只有一件:AGI 必須用心理計量學來衡量,像給人類做智力測驗那樣。10 個認知維度,一題一題給分。
讀寫能力 10/10。數學能力 10/10。常識知識 9/10。
長期記憶儲存 0/10。
零分。
這樣說吧。昨天下午,我跟 Claude 討論了三個小時的產品架構。第一個小時在辯論資料表該合併還是切開。第二個小時我畫了三版 wireframe,它幫我挑了一版。第三個小時我們吵完要用哪個 API provider。我關掉對話去倒咖啡,回來打開一個新對話繼續問。它的第一句話是:「很高興認識你,我是 Claude。你想聊什麼?」
論文裡有一個詞叫 「嚴重失憶」。開發者用兩種手法掩蓋這件事:把整個 codebase 塞進 context window 靠工作記憶硬撐,或者接 RAG 讓 AI 去資料庫搜答案。論文的評語就一句話。這些都是「掩蓋失憶的拐杖」。
拐杖不算腿。
但它寫 code 的速度又讓人頭皮發麻。那三個小時的架構討論,換成我自己從零查文件、畫流程、跑 proof-of-concept,要花兩天。一位五年經驗的工程師寫:「自從去年底 Opus 4.5 推出後,整個組內四個人幾乎半年沒有手寫程式碼。」整個組的手指頭,都在慢慢被那個 0 分的東西取代。
把「數學 10 分,記憶 0 分」這張成績單攤平在桌上看,答案不在總分裡。在形狀裡。AI 的認知輪廓是鋸齒狀的:某些尖刺已經超越人類,某些凹陷接近於零。研究者給這個形狀取了名字:jagged cognitive profile。

2026 年 3 月,Google DeepMind 發表了自己的認知框架,也把 AGI 拆成 10 個維度:知覺、生成、注意力、學習、記憶、推理、後設認知、執行功能、問題解決、社會認知。
DeepMind 的結論跟 Hendrycks 團隊一致:AI 在某些維度已經超越多數人,其他維度遠遠落後。但這份論文多給了一個細節:10 個維度裡,5 個的測量工具連學界自己都還沒造好(後設認知、注意力、學習、社會認知、問題解決)。DeepMind 為此開了一個 20 萬美元的 Kaggle 獎金,請外部研究者幫忙補洞。
你沒辦法證明一個東西不存在。如果你還沒造出量它的尺,你也沒辦法證明它存在。
十個認知維度,有五個的量尺學界還沒造好。AGI 這個詞指的是什麼,科學家自己的字典裡還沒寫完。

OpenAI–微軟合約:宣布 AGI 等於失去幾百億獨家權
宣布 AGI 達成那一天,OpenAI 會失去跟微軟的獨家授權,換算下來是幾百億美元現金流。這個定義越模糊,OpenAI 手上的籌碼越多。
Fortune 在 3 月 30 日的深度報導裡挖出了一個很少被報導的事實:2023 年,微軟投資 OpenAI 100 億美元時,合約中有一個條款:微軟是 OpenAI 所有 AI 產品的獨家商業夥伴,但 AGI 不包含在內。
換句話說,一旦 OpenAI 宣布達成 AGI,微軟就失去獨家權。
那誰有權宣布 AGI 達成?原本是 OpenAI 的非營利董事會。但據 The Information 報導,在 2023 年那份合約裡,AGI 被秘密定義為一個非常具體的東西:一項能產生至少 1000 億美元利潤的技術。
OpenAI 去年營收 130 億美元,還虧了 80 億。離 1000 億美元的利潤差得遠。
Altman 在部落格寫「我們現在有信心知道怎麼建造 AGI」,又跟 Bloomberg 說 AGI 是「不太有用的詞」。兩個版本放一起看不矛盾:「接近」能吸引投資和人才,「達成」會讓微軟的獨家權消失。永遠在接近,永遠還沒到,是合約上最理想的位置。
黃仁勳的動機更直接。他賣的是 GPU。AGI 離得越近,全世界的資料中心就要買越多 NVIDIA 的晶片。當他在全球最大的 podcast 上說「AGI 已到」,NVIDIA 的股價在那一週上漲了。
Gary Marcus 在他的分析裡把這個現象叫做一個概念錯誤加上一個策略誤判:「把越來越精緻的統計近似跟真正的智慧混為一談,不只是學術上的錯——是會讓你做出錯誤投資決定的錯。」
Amodei、Altman、Benioff:建造 AGI 的人自己在撤退
建造 AGI 的三家公司(Anthropic、OpenAI、Salesforce)的高層一個接一個撤退。Amodei 說 AGI「過時了」,理由是 Claude 寫 Python 比很多工程師強,常識直覺卻還是零,「通用智慧」這個標籤站不住腳。Altman 說 AGI 是「不太有用的詞」。Salesforce 的 Benioff 用得更重:「催眠」。
最值得停下來看的是 Altman。一年前他在部落格裡寫:「我們現在有信心知道怎麼建造 AGI。」一年後,同一個 CEO 跟 Bloomberg 說 AGI 是「不太有用的詞」。兩個版本的 Altman,你沒辦法同時相信。
Benioff 的位置又不一樣。Anthropic 和 OpenAI 是建 AGI 的人喊停,Benioff 是付錢買 AI 的那一邊喊停。買家開始喊催眠,代表故事賣不下去了。
有人一句話總結了這個荒謬:「尼信嗎?老實說我不太信。AI 時代就會產生一堆無用階級。」
另一派人站在他們對面。DeepMind 和 Hendrycks 團隊的立場是:概念本身很好,只是被行銷扭曲了。解法是用心理計量的尺取代 demo 影片的敘事。
這個分歧在 DeepMind 創辦人 Demis Hassabis 身上變得最複雜。
《The Infinity Machine》記錄過這個畫面。Hassabis 凌晨兩點坐在桌前,覺得「現實在對著我尖叫,試圖告訴我什麼」。對他來說,AGI 跟商業目標無關,也跟資產負債表無關。這是他理解宇宙基本規則的工具。他不想放棄這個詞。
但 Hassabis 自己也說,我們還在「第一局」。他把大型語言模型比喻成棋局裡的「策略網路」:能預測下一步該走什麼,但缺少「價值網路」:搜尋、規劃、反省的能力。LLM 只在「樹的下半部」搜索知識,生不出像相對論那樣的原創。
DeepMind 內部也因此分裂。有一派研究者認為公司「錯失」了 LLM 浪潮,有人離職抗議。這個實驗室裡的路線共識也吵不出來。
27% → 57%,兩年:加速度本身值得注意
兩年跳 30 個百分點。如果這個速度持續,2027 年就超過 80%。
GPT-4 在 2023 年的 AGI 分數是 27%,GPT-5 在 2025 年是 57%。這不是線性外推。進步在跳躍。
我自己的體感跟這個數字吻合。兩年前我讓 AI 幫忙重構一段 code,它給的方案漏洞百出,我花更多時間改它的錯。上個月同樣的任務,它一次就給出比我原本想的更乾淨的架構。
而 DeepMind 的認知框架承認了一件更根本的事:10 個維度裡有一半,現有的測量工具嚴重不足。後設認知、注意力、學習能力、社會認知、問題解決,這五個維度的測量方法學界自己都還沒建好。
如果你無法測量一個東西,你怎麼確定它不存在?
一個寫過好幾本金融史暢銷書的《金融時報》記者(Sebastian Mallaby)在書中記錄了一個令人不安的細節:Hassabis 當年預測 AGI 會在某個時間軸上到來。現在,它「幾乎剛好在他預言的時間軸上」到達了。但他沒有因此感到勝利。他感到的是恐懼。因為他原本設想的劇本是「一個實驗室安全地建造 AGI」。結果現在變成了全球不可控的軍備競賽。
Hassabis 自己也犯過判斷錯誤。他多年來堅信語言模型因為「沒有接地」(沒有在物理環境中互動)所以永遠無法產生智慧。但後來他承認,語言模型是「不合理地有效」。出走的 LLM 派押對了趨勢。
說 AGI 很近的人在賣 GPU,說 AGI 很遠的人在防守學術立場。你得自己看 AI 真正做得到什麼,別照抄任一邊。
問題在形狀。AI 的認知雷達圖正在以非線性速度擴張。某些尖刺已經超越人類,某些凹陷可能比我們以為的更快被填平。
三把尺:你老闆用的是黃仁勳那把,還是 Hendrycks 那把?
三把尺,三件事,三個相反的結論。攤開來看:
| 尺 | 持尺者 | 量的是 | 現在幾分 | 你該擔心什麼 |
|---|---|---|---|---|
| 經濟門檻 | 黃仁勳 | 衝過十億美元估值的數位產品 | 已達成 | 客戶半年內把客服全改成 AI |
| 心理計量 | Hendrycks 33 人團隊 | 10 個認知維度各打分 | 57 分 | 記憶那一格還是 0,半年不會翻身 |
| 合約定義 | OpenAI–微軟合約 | 能產生 1000 億美元利潤的技術 | 還早得很 | Altman 永遠會說「接近了」不說「到了」 |
Huang 的「AGI 到了」,Hendrycks 會打 57 分,OpenAI 律師會拿出合約搖頭。三個人都沒說謊。他們在量三件不同的事。Huang 和 OpenAI 甚至會為了同一個理由(都是為了賣東西)給出相反答案。
而這場爭論對你最重要的部分,不在三把尺上。在你老闆的書桌上。
你的客戶讀完 Fortune 的標題,決定把客服全部改成 AI agent,半年後崩盤:他量的是 Huang 的尺。
你的投資顧問把一半倉位壓在「AGI beneficiary」基金上:他量的是 OpenAI 的尺。
你的 CTO 看完 Hendrycks 那份論文,說「暫緩採用,我們先等記憶維度上來」:他量的是學術的尺。
三個決定都掛著「AGI」這個詞,結果是三種不同的賭注。而你的薪水、你的退休金、你公司的下一個季度預算,都是這些賭注的結果。
所以我讀到 Huang 那句話時,真正不安的地方不在 Huang 身上。他的誘因很清楚。他賣晶片,AGI 越近晶片賣越多,那一週股價漲了。他的立場是可以計算的。
不安的是看到那句話沒有追問就相信的那些人。全世界現在有上千個老闆正在用 Huang 的尺做決定。AI 能力這一週沒有任何改變,變的是他們腦中「AGI」的音量。最大聲的版本被採用,而最大聲的人剛好是賣 GPU 的。
我幫客戶做數位轉型。最近每次見面,第一個問題都是:「AGI 來了,我們要不要 all in?」我的回答都一樣。等一下,你說的 AGI 是誰的定義?十個客戶有八個會安靜下來想一分鐘。他們發現自己從來沒問過這件事。
反過來想:Huang 在同一集 podcast 裡還說過一句沒上任何標題的話:「Intelligence is a commodity.」智慧是商品。他認為 AI 的智慧就像洗碗機。功能性地處理任務,效率極高,但需要人類的同理心、痛苦承受力和領導力來驅動。
他可能是對的。但一個賣洗碗機的人告訴你「洗碗的時代結束了」,這句話對他值多少錢,你算清楚了嗎?
開頭那個在網路上丟「真他媽該死,到底怎麼辦好焦慮啊啊啊啊。」的工程師,他上班那家公司下一季要怎麼用 AI,答案不在 Huang 的 podcast 裡。答案在他老闆腦中「AGI」的那個版本。
所以我給自己定了一個做法:聽到「AGI 來了」這句話的當下不回應,先在心裡跑一個三秒流程:這個人賣什麼?這句話對他值多少錢?雷達圖上記憶那格寫幾分?三題走完再開口。
客戶第一次聽我回這種問題會愣一下。但下次他們自己先說「等等,那我應該用哪把尺」的時候,這個對話就換了一種。
下次有人對你說「AGI 來了」,在開口之前先在心裡跑一次:他賣什麼?這句話對他值多少錢?雷達圖上記憶那格寫幾分?
本文讀了這些來源:
書:
- The Infinity Machine: Demis Hassabis, DeepMind, and the Quest for Superintelligence — Sebastian Mallaby
Podcast:
文章:
- Nvidia's Jensen Huang says 'we've achieved AGI.' But no one can agree on what that means(Fortune)
- AGI通用型人工智慧是什麼?9派定義與6個等級(未來城市@天下)
- 從「人人都喊 AGI」到集體降溫(TechOrange)
- Rumors of AGI's arrival have been greatly exaggerated — Gary Marcus, Valerio Capraro, Walter Quattrociocchi
論文:
- A Definition of AGI — Dan Hendrycks, Yoshua Bengio, Gary Marcus et al.(33 authors)
- Measuring Progress Toward AGI: A Cognitive Framework — Google DeepMind
你可能也想讀:
- AI 會取代你的工作嗎? — 那篇拆的是「會不會」的數據,這篇拆的是「定義本身都沒共識」的前提問題
- NVIDIA 值不值得買?你可能用錯了框架 — 如果你因為黃仁勳的 AGI 宣言考慮買 NVIDIA,先看這張估值分析
- 你只用了 AI 1% 的能力 — AI 的認知雷達圖有尖刺也有凹陷。你用到了哪些尖刺?
我寫信時,寄給你
不定期。寫舊文章的後續、新發現、想討論的事。
你的 Email 收到了
第一封信馬上到。我不會寄很多,讀完想說什麼直接回信。
繼續閱讀
本文為讀角獸矛盾圖譜(Contradiction Graph)的一個節點。內容以 CC BY 4.0 授權,歡迎引用、改作、再發布,請註明來源。