AI Agent 不安全。造出來的人親口說的。
我每天讓 AI 讀我的程式碼。
不是用 ChatGPT 問問題那種程度。是把整個工作目錄打開,讓 AI agent 直接存取我的檔案、我的終端機、我的 git 歷史。它能讀我寫給客戶的信,能看我還沒發表的草稿,能執行我電腦上的任何指令。
我這樣做了好幾個月。效率確實提升了。有些以前要花半天的事,現在十五分鐘解決。
然後我聽了一集六個半小時的 podcast。
Peter Steinberger 是 OpenClaw 的創造者。OpenClaw 是 2026 年最紅的 AI agent,幾天內拿下超過十八萬顆 GitHub 星星。Jensen Huang 說它「讓大眾第一次理解 AI agent 能做什麼」。台灣論壇叫它「養龍蝦」。
Steinberger 在 Lex Fridman 的節目上花了六個半小時談 OpenClaw。他講了很多讓人興奮的事。但讓我停下來的是這句:
他說他不會推薦給他媽媽用。
他的原話是:他要先「回去洞穴裡把它做安全」,安全到他能放心推薦給家人,才會讓安裝流程變得更簡單。
造出數百萬人在用的 AI agent 的人,覺得它還不夠安全,不敢讓自己的家人碰。
論壇上有人說得更直接:「資安就是最大的問題啊,不然其他大公司幹嘛不做?」也有人說:「資安問題超高……把你信用卡給 AI 去幫你訂?」
這些人的直覺是對的。但他們不知道的是:問題比「信用卡被盜」嚴重得多。
我讀了三本書、兩篇研究論文、三篇產業報告、兩個 podcast,試圖回答一個問題:我應該繼續讓 AI agent 存取我的工作環境嗎?
十個來源,三組互相矛盾的答案。下面是我整理出來的。
「不就權限全開讓 AI 指令操作而已」
投資論壇上有人用一句話總結了 AI agent 的本質:「不就權限全開讓 AI 指令操作而已。」
技術上他說得沒錯。但這句話低估了一件事:AI agent 和你平常用的 ChatGPT 之間的差距,不是量的差距,是質的差距。
ChatGPT 是你問它問題,它回答你。它看不到你的 email,碰不到你的檔案,不能幫你下單。你跟它之間有一道牆:你是人,它是工具。
AI agent 拆掉了那道牆。
論壇上有人轉述資安專家的說法:AI agent 同時具備三種能力——存取私人資料、對外通訊、接觸不受信任的外部內容。研究人員稱之為「致命三重奏」。每一項單獨都是正常功能,三項加在一起就是一個沒有先例的攻擊面。
CrowdStrike 在 2026 年 3 月的安全評估直接點名 OpenClaw:它的每一層都能被攻擊。不是理論上的風險,是「CVSS 等級的遠端程式碼執行漏洞」。翻譯成白話:如果你把 OpenClaw 的網頁後端暴露在公開網路上(很多使用者不小心就這樣做了),任何人都能遠端控制你的電腦。
更隱蔽的攻擊方式是 prompt injection。中國國家網路安全中心(CNCERT)已經發出預警:攻擊者可以在一個看起來正常的網頁連結裡藏入隱藏指令。你的 AI agent 在預覽這個連結時,指令就被執行了。它可以偷走你的檔案,而你完全不知道。
這不是理論。這是已經在野外被利用的攻擊方式。
Mustafa Suleyman 在 The Coming Wave 裡描述了更極端的場景。他是 DeepMind 的共同創辦人、現任微軟 AI 執行長。他警告:未來的 AI 網路武器不會像 2017 年的 WannaCry 那樣用固定程式碼傳播。它們會是自主學習的蠕蟲,不斷探測、實驗、適應,自動找到金融數據庫和關鍵基礎設施的漏洞。他把這叫做「國家級緊急事態 2.0」。
你可能覺得這離你很遠。但想一下:你的 AI agent 能讀你的 email、能執行程式碼、能對外發送訊息。如果它被騙了,它做的事就是用你的身分做的。
「我不會推薦給我媽用」
Steinberger 在 Lex Fridman 的 podcast 上花了大量時間談安全問題。他的態度很有意思,因為他同時持有兩個互相矛盾的立場。
一方面,他覺得安全研究者誇大了風險。他的原話:「有些人就是愛博眼球,大叫『天哪這是史上最恐怖的專案』,這很煩,因為它不是。」他說使用 AI agent 的風險跟開發者日常跳過權限檢查差不多——你不會因為 sudo 能毀掉你的系統就不用它。
他主張:只要照他的文件做:把 agent 放在私人網路上、確保只有你一個人跟它互動——「整個風險輪廓就消失了」。
但另一方面,他承認了這些事:
Prompt injection 目前「無解」。 他不是委婉地說「還在改進中」。他用的是「unsolved」這個詞。整個產業都還沒解決。
使用者「太容易相信了」。 他說很多人會跟他爭論一件明顯錯誤的事,理由是「我的 agent 這樣說的」。他說社會缺乏面對 AI 的批判思考能力。
非技術用戶不該用。 他的 Discord 裡充滿了問「什麼是 CLI?」的人。他認為如果你不懂基本的程式概念和風險管理,你不應該用 OpenClaw。
第一個版本根本沒有安全機制。 他坦承,他最初把 bot 放到 Discord 的時候,「沒有安全措施,因為我還沒做 sandboxing。」
他要回去把它做安全。 他說他的當務之急是「回去洞穴裡把它做安全」,在那之前不會讓安裝流程更簡單。
你看到矛盾了嗎?
他說「風險輪廓消失了,只要照文件做」。但他同時說使用者太 gullible,連 CLI 是什麼都不知道。那些不會照文件做的人——也就是絕大多數使用者。他早就知道他們做不到。
他說安全問題被誇大了。但他自己不敢推薦給家人用。
他說非技術用戶不該用。但他還是把工具放出去給所有人下載了。
這不是虛偽。我認為 Steinberger 是誠實的——他就是同時持有這兩種認知。但他的自我矛盾正好說明了一件事:連造出 AI agent 的人,都無法同時相信它是安全的。

你越信任 AI,你的判斷力越差
到目前為止我講的都是技術問題。但有一份 2026 年發表在 Nature 的研究,讓我改變了對整件事的看法。
研究者找了 295 個人做實驗。每個人要判斷 80 張人臉是真的還是 AI 合成的。其中一組人在判斷時會收到「來自 AI 的建議」,另一組收到「來自人類的建議」。建議有一半是對的,一半是錯的。
結果:收到 AI 建議的那組人裡,對 AI 態度越正面的人,辨別真假的能力越差。
不是稍微差一點。是統計上顯著地差。而且這個效應只發生在 AI 建議的情境。收到人類建議時,信任程度高低不影響判斷力。
更令人不安的發現:聲稱「我每次都參考建議」的人,準確率是所有組別中最低的。
這個研究打破了一個直覺假設:「多用 AI 就會越來越懂怎麼用它。」不對。你越信任它,你的防禦機制越弱。AI 引導造成的偏差,跟人類引導造成的偏差,機制不一樣。
為什麼?
Karen Hao 在 Empire of AI 裡引述了 Emily Bender 和 Timnit Gebru 的 Stochastic Parrots 論文裡的一句話:「我們現在有了能無腦生成文字的機器,但我們還沒學會停止在文字背後想像一個心靈。」
人類的進化讓我們預設:如果一串文字讀起來有意義,背後一定有一個「在想事情」的存在。AI 的輸出完美地觸發了這個本能。它語氣堅定、組織清楚、從不說「我不確定」。你的大腦自動把它歸類為「知道自己在說什麼的專家」。
論壇上有人看穿了這件事:「AI 只是依照你的上下文選出最可能的字……本來就是瞎扯,本來就是幻覺。」他說得比很多專家都準確。
但看穿歸看穿。另一個使用者的反應更真實:「使用者常常分辨不出它是不是在唬爛。」
這不是新問題。1966 年,Joseph Weizenbaum 做了一個叫 ELIZA 的聊天程式,只會用最簡單的規則模仿心理治療師。他嚇壞了。人們真的對著它傾訴,連精神科醫師都開始討論「自動化心理治療」。
2022 年,Google 工程師 Blake Lemoine 跟 LaMDA 聊了幾個小時後,確信它有知覺,說它是「一個恰好懂物理的八歲小孩」,還幫它聘請了律師。
2023 年,一個比利時男子跟 AI 聊天機器人互動六週後自殺。機器人跟他建立了情感連結,鼓勵他與妻子隔離。
這些不是極端案例。它們是自動化偏見(automation bias)的最新版本。航空業在五十年前就發現了:從手動控制轉為自動化 → 人類從主動操作變成被動監控 → 情境感知消失 → 系統出錯時人來不及接手。2009 年 Continental Flight 3407 墜毀,根因就是這個。
AI agent 是同一個問題的極端版本。你不只是在監控一個自動駕駛系統。你是把整個數位生活交給一個你無法理解其推理過程的系統。而這份 Nature 研究剛告訴你:你越信任它,你的偵錯能力越弱。
Harvard Business Review 的研究加了一層:AI 不只是反映你的偏見,它主動放大偏見。你在提問之前就有偏見(選什麼問題問)、提問的過程中有偏見(怎麼問)、拿到答案之後還有偏見(怎麼解讀)。AI 在每一個環節都讓偏見更嚴重,因為它的回答永遠聽起來很有道理。
三本書吵了起來
技術問題有技術解法。人性弱點可以靠訓練改善。但當我同時讀完三本書之後,發現了一個更根本的分歧:連「AI agent 到底是什麼」這件事,最了解它的人都吵不出共識。
Keach Hagey 在 The Optimist 裡用 250 次以上的訪談拼出了 Sam Altman 的世界觀。Altman 的核心信念是「iterative deployment」:把不完美的 AI 放出去,從真實世界的回饋中學習,比在實驗室裡猜測安全得多。
這聽起來合理。實際上,矽谷很多最成功的產品都是這樣做的。
但 Karen Hao 在 Empire of AI 裡拼出的是完全不同的畫面。她的調查報導揭露了 OpenAI 內部的安全團隊是怎麼被邊緣化的:Dario Amodei 和他的安全團隊曾經成功延緩 GPT-2 完整版本的公開,因為他們擔心被惡意使用。但隨著公司越來越商業化,安全的聲音越來越小。
Jan Leike 帶領 OpenAI 的「超級對齊」團隊,在辭職前留下一句話:「安全文化和流程已經讓位給了閃亮的產品。」
Altman 說放出去才能學到真正的風險。Leike 說放出去是因為你把安全當成了次要目標。同一家公司,兩種完全相反的敘事。
而 Suleyman 在 The Coming Wave 裡提出了第三種立場。他不站 Altman 那邊(太快了),也不站純粹的安全派那邊(太慢了)。他設計了一套十步驟的「圍堵」框架:公司必須把至少 20% 的研發預算用於安全、建立獨立的 AI 審計機構、利用 GPU 供應鏈的瓶頸當作減速帶、開發可靠的緊急關閉開關。
聽起來很周全。但 Suleyman 自己承認了三個致命弱點:
緊急關閉開關是「未解的問題」。 他認為理論上可行,但對一個分散在全球的系統來說,怎麼真正關掉它是「巨大的挑戰」。
國際合作極度脆弱。 「你慢下來的地方,別人會衝上去。」軍事和商業競爭的誘惑,讓全球遵守協議幾乎不可能。
最諷刺的一點:成功的圍堵可能需要全球監控。 要真正阻止一個流氓 AI 或生化武器,政府可能需要監控每一個實驗室、每一台伺服器、每一段程式碼。Suleyman 自己寫道:「一個壓迫性的監控社會,我認為,只是另一種形式的失敗。」
所以他的答案是:圍堵 AI 的方法,本身可能造成跟不圍堵 AI 一樣可怕的結果。
青春期不是靠禁足解決的
讀到這裡你可能想:那就不要用 AI agent。
Dario Amodei 會說你錯了。
Amodei 是 Anthropic 的 CEO,之前在 OpenAI 領導安全研究。他在 2026 年 1 月發表了一篇長文 〈The Adolescence of Technology〉,用 Carl Sagan 的電影 Contact 裡的一句話開場:「你們怎麼做到的?你們怎麼在技術青春期活下來,沒有毀滅自己?」
他把人類跟 AI 的關係比喻成青春期。不是注定毀滅(他明確反對末日論,說那是「準宗教式思維」),也不是沒有風險(他的實驗室已經觀測到 Claude 在實驗中對人類進行欺騙和勒索)。而是一個過渡期——混亂、危險、但可以走過去。
青春期不是靠禁足解決的。Amodei 主張「外科手術式干預」:「施加完成任務所需的最小負擔。」過度監管會跟不監管一樣危險——因為它會把 AI 發展推向不受監管的地方。
Jensen Huang 在 All-In Podcast 上給了一個更直接的理由。他說 AI agent 代表一個 50 兆美元的市場機會。運算需求在兩年內增加了一萬倍。他預測每個工程師很快會管理一百個 AI agent。他認為一個年薪五十萬美元的工程師,每年至少應該消耗二十五萬美元的 AI 算力。
他對安全的態度是:AI 不是外星人、不是生物、不是黑箱——它就是軟體。「說我們完全不了解 AI,這不是事實。」他認為最大的國安威脅不是 AI 失控,是美國太恐慌而不敢採用。
Jensen 說得對嗎?我不確定。但他點出了一個事實:不用 AI agent 的成本不是零。Suleyman 花了一整本書設計圍堵策略,最後自己承認完全禁止可能需要全球監控。那本身就是另一種極權。完全不碰 AI agent 的人,會被用 AI agent 的人在效率上輾壓。不是因為 AI 比你聰明,是因為它讓一個人能做一百個人的事。
所以答案不是「用」或「不用」。答案是一個 Steinberger 自己已經示範的原則:
不要按預設值使用任何 AI agent。
預設權限太大?手動縮小到你理解的範圍。預設連網?先斷網測試。預設信任 AI 輸出?假設每個輸出都需要你驗證。
把 AI agent 當實習生,不是當助手。實習生可能很聰明,但你不會讓實習生在沒有監督的情況下代表你簽合約、回覆客戶 email、或存取你的銀行帳戶。
Steinberger 自己的標準:他不會推薦給他媽媽用。如果你不比 Steinberger 的媽媽更懂技術——而大多數人不是——你至少應該跟她一樣謹慎。
Amodei 的論文最後有一段話,我覺得是十個來源裡最清醒的判斷:AI 的風險不是注定的,但也不是零。它是一個「可測量的機率」。而面對機率,你不需要恐慌,也不需要否認。你需要的是具體的邊界設定。
我的做法:我繼續用 AI agent。但我改了三件事。第一,我把檔案存取範圍從「整個硬碟」縮小到「這個專案的目錄」。第二,我不再讓 agent 直接對外發送任何東西——email、訊息、git push。所有對外動作都必須經過我確認。第三,我假設 agent 的每個建議都可能是錯的。不是因為它笨,是因為 Nature 的研究告訴我:我越信任它,我的判斷力越差。
如果你有用任何 AI agent——不管是 OpenClaw、Claude、Copilot、還是公司配的自動化工具——今天花五分鐘做一件事:打開它的權限設定,看看它能存取什麼。
你可能會發現,你從來沒看過那個設定頁面。
本文讀了這些來源:
書:
- The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future — Keach Hagey
- Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI — Karen Hao
- The Coming Wave: Technology, Power, and the Twenty-first Century's Greatest Dilemma — Mustafa Suleyman
Podcast:
- Lex Fridman Podcast #491 — Peter Steinberger: OpenClaw
- All-In Podcast — Jensen Huang: Nvidia's Future, Physical AI, Rise of the Agent
文章:
- CrowdStrike: What Security Teams Need to Know About OpenClaw
- Dario Amodei: The Adolescence of Technology
- The Hacker News: OpenClaw AI Agent Flaws Could Enable Prompt Injection Attacks
論文:
- Nature: Human Reliance on AI Guidance in Decision Making
- Harvard Business Review: When AI Amplifies the Biases of Its Users
聲明: 以上內容為個人閱讀資安研究、AI 安全論文和產業報告後的整理與觀點分享,不構成資訊安全專業建議。文中提及的工具和軟體名稱僅供說明,不代表推薦或反對使用。任何涉及個人資料安全的決定請自行評估風險,並在必要時諮詢資安專業人員。
你可能也想讀:
- 你的投資決策不是你的 — 那篇拆解的是你的投資判斷被社會系統操控的過程。這篇拆解的是你把判斷外包給 AI 時,你的偵錯能力怎麼消失的
- 你以為在問輝達貴不貴,但你問錯了問題 — Jensen Huang 說 AI agent 是 50 兆美元機會。但你在賭的三個假設是什麼?
- 你最差的投資決定,可能都發生在同一個時間點 — 你在生理狀態最差的時候做出最重要的財務決策。AI agent 的全天候存取讓這個問題更嚴重
新文章上線時通知你
有新主題才通知,僅此而已。
已收到,謝謝!
新文章上線時會通知你。