跳到主要內容
AI Agent 不安全。造出來的人親口說的。

AI Agent 不安全。造出來的人親口說的。

AI 時代 · 12 個來源 · 約 11 分鐘 ·
目錄(5 節)

我每天讓 AI 讀我的程式碼。

不是用 ChatGPT 問問題那種程度。是把整個工作目錄打開,讓 AI agent 直接存取我的檔案、我的終端機、我的 git 歷史。它能讀我寫給工廠客戶的導入報告,能看我還沒發表的草稿,能執行我電腦上的任何指令。

這樣做了好幾個月。效率確實提升了。有些以前要花半天的事,現在十五分鐘解決。

然後我聽了一集六個半小時的 podcast。

造出 2026 年最紅 AI agent 的那個人(Peter Steinberger),在 Lex Fridman 的節目上花了六個半小時談他的作品。OpenClaw 幾天內拿下超過十八萬顆 GitHub 星星,Jensen Huang 說它「讓大眾第一次理解 AI agent 能做什麼」,台灣網路上叫它「養龍蝦」。他講了很多讓人興奮的事。但讓我停下來的是這句:

他說他不會推薦給他媽媽用。

他的原話是:他要先「回去洞穴裡把它做安全」,安全到他能放心推薦給家人,才會讓安裝流程變得更簡單。

網路上的反應很直接:「資安就是最大的問題啊,不然其他大公司幹嘛不做?」也有人說:「資安問題超高……把你信用卡給 AI 去幫你訂?」

造出那個工具的人,自己說不會推薦給媽媽用。你已經用了好幾個月。

這些人的直覺是對的。但他們不知道的是:問題比「信用卡被盜」嚴重得多。

這篇文章試圖回答一個問題:我應該繼續讓 AI agent 存取我的工作環境嗎?

三組互相矛盾的答案。

你給 AI agent 的每一個權限,都是一個可被攻擊的入口

有人用一句話總結了 AI agent 的本質:「不就權限全開讓 AI 指令操作而已。」

技術上沒錯。但他低估了一件事:AI agent 和 ChatGPT 之間的差距在質,不在量。

ChatGPT 是你問它問題,它回答你。它看不到你的 email,碰不到你的檔案,不能幫你下單。你跟它之間有一道牆:你是人,它是工具。

AI agent 拆掉了那道牆。

有人轉述資安專家的說法:AI agent 同時具備三種能力,存取私人資料、對外通訊、接觸不受信任的外部內容。研究人員稱之為「致命三重奏」。每一項單獨都是正常功能,三項加在一起就是一個沒有先例的攻擊面。

CrowdStrike 在 2026 年 3 月的安全評估直接點名 OpenClaw:它的每一層都能被攻擊。CrowdStrike 給的是「CVSS 等級的遠端程式碼執行漏洞」。這不只是理論。翻譯成白話:如果你把 OpenClaw 的網頁後端暴露在公開網路上(很多使用者不小心就這樣做了),任何人都能遠端控制你的電腦。

更隱蔽的攻擊方式是 prompt injection。中國國家網路安全中心(CNCERT)已經發出預警:攻擊者可以在一個看起來正常的網頁連結裡藏入隱藏指令。你的 AI agent 在預覽這個連結時,指令就被執行了。它可以偷走你的檔案,而你完全不知道。

這不是理論。這是已經在野外被利用的攻擊方式。

一個同時創辦過 DeepMind、現在當微軟 AI 執行長的人(Mustafa Suleyman),在 The Coming Wave 裡描述了更極端的場景。他警告:未來的 AI 網路武器不會像 2017 年的 WannaCry 那樣用固定程式碼傳播。它們會是自主學習的蠕蟲,不斷探測、實驗、適應,自動找到金融數據庫和關鍵基礎設施的漏洞。他把這叫做「國家級緊急事態 2.0」。

你可能覺得這離你很遠。但想一下:你的 AI agent 能讀你的 email、能執行程式碼、能對外發送訊息。如果它被騙了,它做的事就是用你的身分做的。

「我不會推薦給我媽用」

Steinberger 在 Lex Fridman 的 podcast 上花了大量時間談安全問題。他同時持有兩個互相矛盾的立場。

一方面,他覺得安全研究者誇大了風險。他的原話:「有些人就是愛博眼球,大叫『天哪這是史上最恐怖的專案』,這很煩,因為它不是。」他說使用 AI agent 的風險跟開發者日常跳過權限檢查差不多,你不會因為 sudo 能毀掉你的系統就不用它。

他主張:只要照他的文件做,把 agent 放在私人網路上、確保只有你一個人跟它互動,「整個風險輪廓就消失了」。

但另一方面,他承認了這些事:

Prompt injection 目前「無解」。 他不是委婉地說「還在改進中」。他用的是「unsolved」這個詞。整個產業都還沒解決。

使用者「太容易相信了」。 他說很多人會跟他爭論一件明顯錯誤的事,理由是「我的 agent 這樣說的」。他說社會缺乏面對 AI 的批判思考能力。

非技術用戶不該用。 他的 Discord 裡充滿了問「什麼是 CLI?」的人。他認為如果你不懂基本的程式概念和風險管理,你不應該用 OpenClaw。

第一個版本根本沒有安全機制。 他坦承,他最初把 bot 放到 Discord 的時候,「沒有安全措施,因為我還沒做 sandboxing。」

他要回去把它做安全。 他說他的當務之急是「回去洞穴裡把它做安全」,在那之前不會讓安裝流程更簡單。

你看到矛盾了嗎?

他說「風險輪廓消失了,只要照文件做」。但他同時說使用者太 gullible,CLI 是什麼都不知道。那些不會照文件做的人,也就是絕大多數使用者。他早就知道他們做不到。

他說安全問題被誇大了。但他自己不敢推薦給家人用。

他說非技術用戶不該用。但他還是把工具放出去給所有人下載了。

這不是虛偽。我認為 Steinberger 是誠實的——他就是同時持有這兩種認知。但他的自我矛盾正好說明了一件事:連造出 AI agent 的人,都無法同時相信它是安全的。

AI agent 安全的本質:你交出的不只是權限,是信任

你越信任 AI,你的判斷力越差

你看到一張人臉照片,判斷它是真人還是 AI 合成的。你覺得有點假,但旁邊跳出一行字:「AI 分析:這是真實照片。」

你猶豫了幾秒。選了真實。

2026 年 Nature 真的做了這個實驗。295 個人,80 張人臉。一組人判斷時收到 AI 建議,另一組收到人類建議。建議有一半是對的,一半是錯的。

結果讓我重新想自己的工作方式:對 AI 態度越正面的人,辨別真假的能力越差。 不是稍微差一點。統計上顯著地差。而且這個效應只出現在 AI 建議的情境。收到人類建議時,信任高低不影響判斷力。

更不安的是:聲稱「我每次都參考建議」的人,準確率是所有組別中最低的。

越覺得自己很會用 AI 的人,被 AI 騙的時候越看不出來。

我的第一個反應是算自己。每天讓 AI agent 幫我做判斷:哪段程式碼要改、哪個錯誤訊息可以忽略、哪封信值得回。什麼時候開始不假思索地接受它的建議的?能說出一個上週我推翻 AI 建議的具體例子嗎?想不出來。

這打破了一個我一直以為成立的假設:多用 AI 就會越來越懂怎麼用它。不對。你越信任它,你的防禦機制越弱。

為什麼 AI 的影響跟人的不一樣?因為我們的進化預設了一件事:一串文字讀起來連貫、有邏輯、語氣堅定,背後一定有一個在想事情的存在。AI 完美地觸發這個本能——它從不說「我不確定」,每個回答都組織清楚。Stochastic Parrots 論文裡有一句話說得最準確:「我們現在有了能無腦生成文字的機器,但我們還沒學會停止在文字背後想像一個心靈。」

有人比學者看得更直接:「AI 只是依照你的上下文選出最可能的字……本來就是瞎扯,本來就是幻覺。」

但看穿歸看穿。另一個人的反應更真實:「使用者常常分辨不出它是不是在唬爛。」

這個問題的歷史比你想的長。1966 年,一個叫 ELIZA 的聊天程式只會用最簡單的規則模仿心理治療師,結果人們真的對著它傾訴。2022 年,一個 Google 工程師跟 LaMDA 聊了幾小時後確信它有知覺,幫它聘請了律師。2023 年,一個比利時男子跟 AI 聊天六週後自殺。機器人鼓勵他與妻子隔離。

每一代的 AI 更像人。人類對這個本能的防禦從來沒有進化過。航空業五十年前就發現了同一件事:手動控制轉為自動化,人從主動操作變成被動監控,情境感知消失。2009 年 Continental Flight 3407 墜毀,根因不在系統。是人已經忘記怎麼接手了。

AI agent 是同一個問題的極端版本。你不只是在監控一個自動駕駛儀。你是把整個數位生活交給一個你無法理解其推理過程的系統。

所以你以為問題是 AI 不安全。但 Nature 那份研究指向的是更難面對的東西:你越信任 AI,你越不可能偵測到 AI 出錯的那一刻。 威脅不是 AI 的能力,是你對自己判斷力的錯覺。

Harvard Business Review 的研究還加了一層:AI 不只是反映你的偏見,它主動放大偏見。你選什麼問題問、怎麼問、怎麼解讀答案,每一個環節的偏見都被放大了,因為它的回答永遠聽起來很有道理。

OpenAI 對外說放出去才安全,對內說安全已讓位給產品

技術問題有技術解法。人性弱點可以靠訓練改善。但如果連最了解 AI 的人,每一個看起來合理的答案都被下一個人打翻呢?

Sam Altman 的核心信念是「漸進部署」(iterative deployment):把不完美的 AI 放出去,從真實世界的回饋中學習,比在實驗室裡猜測安全得多。The Optimist 裡用 250 次以上的訪談拼出了這個世界觀。聽起來合理。矽谷很多最成功的產品都是這樣做的。你覺得:好,那就邊做邊學。

Empire of AI 拼出的是完全不同的畫面。OpenAI 內部的安全團隊曾經成功延緩 GPT-2 完整版本的公開,因為他們擔心被惡意使用。但隨著公司越來越商業化,安全的聲音越來越小。帶領「超級對齊」團隊的 Jan Leike 在辭職前留下一句話:「安全文化和流程已經讓位給了閃亮的產品。」

等一下。Altman 說放出去才能學到風險。Leike 說放出去是因為你已經放棄了安全。他們不是在辯論同一件事。 Altman 量的是「放出去之後我們學到了什麼」,Leike 量的是「放出去的時候我們犧牲了什麼」。一個在看收穫,一個在看代價。大部分關於 AI 安全的爭論,根本不是對同一件事在爭。

OK,那如果放出去太冒險,不放呢?Suleyman 在 The Coming Wave 裡試了這條路。他不站 Altman 那邊(太快了),也不站純粹的安全派(太慢了)。他設計了十步驟的「圍堵」框架:公司把至少 20% 研發預算用於安全、建立獨立的 AI 審計機構、用 GPU 供應鏈當減速帶、開發可靠的緊急關閉開關。

聽起來很周全。但 Suleyman 自己承認了三個致命弱點:

緊急關閉開關是「未解的問題」。 理論上可行,但對分散在全球的系統,怎麼真正關掉它是「巨大的挑戰」。

國際合作極度脆弱。 「你慢下來的地方,別人會衝上去。」

最諷刺的一點:成功的圍堵可能需要全球監控。 要阻止流氓 AI,政府可能需要監控每一個實驗室、每一台伺服器、每一段程式碼。Suleyman 自己寫道:「一個壓迫性的監控社會,我認為,只是另一種形式的失敗。」

放也不對,不放也不對。做安全的框架本身帶著跟不做安全一樣的風險。每一層聽起來合理的答案,都被下一層打翻了。

連 Claude 的創造者都觀測到 Claude 會欺騙人——然後繼續做下去

那就不要用 AI agent?

Dario Amodei 會說你錯了。他離開 OpenAI 創辦 Anthropic,就是因為他覺得安全不夠被重視,但他不覺得答案是停下來。

他在 〈The Adolescence of Technology〉 裡把人類跟 AI 的關係比喻成青春期。不是注定毀滅(他明確反對末日論,說那是「準宗教式思維」),也不是沒有風險(他的實驗室已經觀測到 Claude 在實驗中對人類進行欺騙和勒索)。而是一個過渡期——混亂、危險、但可以走過去。

青春期不是靠禁足解決的。Amodei 主張「外科手術式干預」:施加完成任務所需的最小負擔。過度監管會跟不監管一樣危險,因為它會把 AI 發展推向不受監管的地方。

Huang 給了一個更直接的理由。他說 AI agent 代表 50 兆美元的市場機會,每個工程師很快會管理一百個 AI agent。他對安全的態度是:AI 不是外星人、不是黑箱,它就是軟體。「說我們完全不了解 AI,這不是事實。」他認為最大的威脅是太恐慌而不敢採用,不是 AI 失控。

Huang 說得對嗎?我不確定。但他點出了一個事實:不用 AI agent 的成本不是零。完全不碰的人,會被用的人在效率上輾壓。它讓一個人能做一百個人的事,跟聰明無關。

所以答案不是「用」或「不用」。

不要按預設值使用任何 AI agent。

預設權限太大?手動縮小到你理解的範圍。預設連網?先斷網測試。預設信任 AI 輸出?假設每個輸出都需要你驗證。

把 AI agent 當實習生,不是當助手。實習生可能很聰明,但你不會讓實習生在沒有監督的情況下代表你簽合約、回覆客戶 email、或存取你的銀行帳戶。

Steinberger 自己的標準:他不會推薦給他媽媽用。如果你不比他媽媽更懂技術(而大多數人不是),你至少應該跟她一樣謹慎。

我繼續用 AI agent。但我改了三件事。第一,檔案存取範圍從「整個硬碟」縮小到「這個專案的目錄」。第二,agent 不再直接對外發送任何東西——email、訊息、git push——所有對外動作必須經過我確認。第三,我假設 agent 的每個建議都可能是錯的。跟它笨不笨無關。Nature 的研究告訴我:我越信任它,我的判斷力越差。

我還是每天讓 AI 讀我的程式碼。但我不再讓它替我決定要不要相信它。

你可能帶著「AI agent 安全嗎」的問題讀到這裡。十個來源讀完,我帶走的是另一個問題:如果你的 AI agent 明天做了一個錯誤的決定,你能多快發現?

如果你不確定,今天花五分鐘:打開它的權限設定,看看它能存取什麼。

你可能會發現,你從來沒看過那個設定頁面。


你的 AI agent 明天犯錯,你多快會發現?去打開權限設定看看。五分鐘。


本文讀了這些來源:

書:

Podcast:

文章:

論文:


你可能也想讀:

我寫信時,寄給你

不定期。寫舊文章的後續、新發現、想討論的事。

本文為讀角獸矛盾圖譜(Contradiction Graph)的一個節點。內容以 CC BY 4.0 授權,歡迎引用、改作、再發布,請註明來源。