對話鄧智航｜以「龍蝦」為起點，起底從單個 Agent 到 Agentic Web 的安全重構

本文作者：鄭佳美

2026-03-31 16:08

導語：安全問題不再局限模型，而是系統(tǒng)中的控制權之爭。

OpenClaw 的爆火，讓一個原本更多停留在技術圈內(nèi)部的變化，突然變得具象起來。

當一個 Agent 可以跨應用執(zhí)行任務、調(diào)用工具、在幾乎沒有人工干預的情況下完成復雜流程時，人們第一次直觀地看到：AI 正在從“生成內(nèi)容的工具”，轉(zhuǎn)變?yōu)椤皡⑴c行動的主體”。也正是在這一刻，安全問題迅速被推到前臺。

但一個更值得注意的現(xiàn)象是，在幾乎所有關于 Agent 安全的討論中，問題的定義仍然高度集中在模型層面：輸入是否被注入、輸出是否越界、對齊是否失效。這種討論路徑本身并沒有錯，但它隱含著一個前提，即安全問題主要發(fā)生在“模型”這一單點之上。

問題在于，這個前提可能正在失效。當 Agent 不再只是響應指令，而是持續(xù)接收來自不同來源的信息、在多組件結構中做出決策、并通過工具鏈將決策轉(zhuǎn)化為現(xiàn)實動作時，“安全”所指向的對象，已經(jīng)不再是單一模型，而是一個由模型、記憶、工具、環(huán)境以及交互鏈路共同構成的系統(tǒng)。

在這樣的系統(tǒng)中，風險不一定以“錯誤輸出”的形式出現(xiàn)，也不一定以“瞬時失控”的方式爆發(fā)。它可能表現(xiàn)為決策過程中的偏移、信息在鏈路中的傳遞與放大，甚至是跨組件、跨主體之間的相互影響。

這也意味著，Agent 安全的問題，正在從“是否安全”，轉(zhuǎn)向“如何被影響”。

在論文《From Secure Agentic AI to Secure Agentic Web》中，上海交通大學、上海創(chuàng)智學院張偉楠團隊正是從這一轉(zhuǎn)變出發(fā)，嘗試將 Agent 安全從模型層面的魯棒性問題，重新置于系統(tǒng)結構與運行機制之中進行討論。

圍繞這一問題，AI 科技評論與論文一作鄧智航進行了對話。下文在不改變原意的前提下，對訪談內(nèi)容進行了整理與呈現(xiàn)，試圖還原其對于 Agent 安全問題“從模型走向系統(tǒng)”的整體理解。

對話鄧智航｜以「龍蝦」為起點，起底從單個 Agent 到 Agentic Web 的安全重構

論文鏈接：https://arxiv.org/pdf/2603.01564

Agent 安全，被理解錯了嗎？

AI 科技評論：最近 OpenClaw 的爆火，讓很多人開始關注 Agent 安全，但你會發(fā)現(xiàn)大家討論的重點幾乎都集中在 prompt injection、越獄這些問題上，你是怎么看待這種觀點的？

鄧智航：我認為這其實是目前一個非常普遍的誤解?，F(xiàn)在大多數(shù)人在談 Agent 安全的時候，還是停留在 prompt injection、越獄這些比較“表層”的問題上，本質(zhì)上仍然是在關注模型輸出這一層。

但實際上，Agent 已經(jīng)不再是一個只生成文本的系統(tǒng)了。過去的 chatbot，本質(zhì)上就是輸入一段文本、輸出一段文本，而現(xiàn)在的 Agent 會調(diào)用工具，會寫入長期記憶，還會持續(xù)和外部環(huán)境進行交互。

在這種情況下，安全問題的重心必須發(fā)生轉(zhuǎn)變，也就是要從“模型會不會說話”，轉(zhuǎn)向“整個系統(tǒng)在開放環(huán)境中是否可控、可審計、可約束”。我認為這是目前最重要的一個視角變化。

AI 科技評論：也就是說，它的風險已經(jīng)不只是“說錯話”，而是會真正影響現(xiàn)實世界？

鄧智航：可以這么理解。因為 Agent 現(xiàn)在具備調(diào)用工具和操作外部系統(tǒng)的能力，它的行為已經(jīng)不再局限在生成內(nèi)容這一層，而是可以直接轉(zhuǎn)化為現(xiàn)實中的動作。比如它可以刪除你的文件，可以泄露你的隱私，甚至可以在獲取到一些敏感信息之后，調(diào)用郵件系統(tǒng)自動發(fā)送給攻擊者。所以現(xiàn)在的問題不只是“生成是否安全”，而是它在執(zhí)行層面是否安全，這個變化是非常本質(zhì)的。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

AI 科技評論：如果必須選一個關鍵因素，你覺得這種變化是由什么驅(qū)動的？很多人會說是工具調(diào)用。

鄧智航：工具調(diào)用確實是一個重要因素，但如果只能選一個更核心的點，我認為是 Agent 在開放環(huán)境中的自主行動能力。工具調(diào)用本質(zhì)上只是能力的一個接口，它讓 Agent 可以做更多事情，但真正讓安全問題發(fā)生質(zhì)變的，是 Agent 開始在一個動態(tài)、復雜，甚至帶有對抗性的環(huán)境中進行感知、判斷和執(zhí)行。

比如網(wǎng)頁中的內(nèi)容、文檔中的信息、第三方服務返回的數(shù)據(jù)，這些都會進入 Agent 的決策流程，從而共同構成一個更大的風險面。所以關鍵不只是“能不能調(diào)用工具”，而是“在什么環(huán)境中行動，以及如何行動”。

AI 科技評論：在你們的論文中把威脅分成 prompt、environment、memory、toolchain 等不同類別，這種分類背后的共性是什么？

鄧智航：如果從攻擊者的角度來看，其實這些攻擊有一個非常統(tǒng)一的本質(zhì)，那就是爭奪對 Agent 的決策控制權。無論是 prompt 攻擊、環(huán)境注入、記憶投毒，還是工具鏈上的問題，它們表面上發(fā)生在不同模塊，但本質(zhì)上都是在影響 Agent 的理解能力和認知過程。

所以安全問題的核心，并不是某個漏洞被觸發(fā)，而是 Agent 在看似正常的情況下，被悄悄帶偏了。這種“控制權的轉(zhuǎn)移”，是我認為最關鍵的共性。雷峰網(wǎng)

AI 科技評論：你剛剛提到環(huán)境，那是不是可以理解為，外部世界本身就是 Agent 的輸入？

鄧智航：是的，這個理解是對的。對于人來說，網(wǎng)頁主要是用來閱讀和判斷信息的，但對于 Agent 來說，它通常不會像人一樣去做復雜判斷，而是會把網(wǎng)頁、文件以及工具返回的內(nèi)容直接作為輸入，用來影響它的任務規(guī)劃和行為決策。

所以從系統(tǒng)安全的角度來看，我們需要把整個外部環(huán)境都視為潛在的攻擊面，也就是說默認它可能是帶有惡意意圖的，而不是默認它是可信的。

AI 科技評論：如果有人認為，通過 system prompt 和拒答機制，已經(jīng)可以解決大部分問題，你會怎么回應？

鄧智航：我覺得這是遠遠不夠的。首先，system prompt 本身就可能被篡改或者被攻擊，其次，很多攻擊并不是通過用戶正面輸入進入系統(tǒng)的，而是來自網(wǎng)頁內(nèi)容、工具返回，甚至是跨 Agent 的通信。

所以 system prompt 和拒答機制更多只是第一層護欄，它們很重要，但無法覆蓋整個 Agent 系統(tǒng)的攻擊面。真正可靠的安全方案，需要把工具權限控制、運行時監(jiān)控、協(xié)議級校驗以及持續(xù)的紅隊測試結合起來，從而形成一個更完整的安全體系，本質(zhì)上這是一個生態(tài)級的問題。

AI 科技評論：在你們的論文中把 toolchain 風險類比為供應鏈問題，這個你會怎么解釋？

鄧智航：這個類比是比較直觀的。風險不一定來自模型本身，也可能來自它依賴的第三方工具、API 或插件。比如一個被污染的工具提供方，一個返回結果不可靠的接口，或者多個看起來安全的工具在組合調(diào)用時產(chǎn)生聯(lián)動，這些都可能導致嚴重的后果。所以在 Agent 系統(tǒng)中，工具鏈其實就相當于一個供應鏈，而安全問題也就變成了供應鏈安全問題。

AI 科技評論：那像 MCP 這種統(tǒng)一工具調(diào)用方式，一方面提升能力，一方面是否也在放大風險？

鄧智航：是的，這種雙重性是非常明顯的。一方面，MCP 提供了統(tǒng)一的上下文和工具交互方式，使得不同系統(tǒng)之間可以更方便地協(xié)作，這確實大幅提升了 Agent 的能力。但另一方面，它作為一個統(tǒng)一入口，也會把權限問題、信任問題以及潛在的污染風險集中放大。

所以關鍵不在于要不要使用 MCP，而在于在使用這些能力的同時，是否同步設計了相應的安全機制。本質(zhì)上，能力越強，對應的風險面就越大。

AI 科技評論：現(xiàn)在圍繞 Agent 安全的討論很多，你覺得哪些風險被高估了，哪些被低估了？

鄧智航：被高估的，主要是那些容易被發(fā)現(xiàn)的風險，比如單輪越獄或者即時攻破，這類問題因為比較直觀，所以更容易被關注。但被低估的，是一些更接近真實部署場景的問題，比如長期記憶污染、Agent 之間的傳播效應，以及行為偏移。這些問題通常不會立刻爆發(fā)，也不容易被察覺，但會在長期過程中持續(xù)影響 Agent 的行為。

一個更“聰明”的攻擊，不會讓 Agent 當場失控，而是會慢慢改變它的偏好、信任對象和決策傾向，讓它在很多看似正常的決策中逐漸偏移。我認為這種風險是更值得警惕的。

問題，不再發(fā)生在一個 Agent 上

AI 科技評論：如果 Agent 之間形成網(wǎng)絡，會帶來什么新的變化？

鄧智航：一個很重要的變化是，我們原來在互聯(lián)網(wǎng)中有一個默認前提，就是請求的另一端大概率是人，很多信任關系是建立在這個隱含假設之上的。但在 Agentic Web 中，這個前提被打破了，因為請求很可能來自另一個 Agent，甚至是多層 Agent 的委托和自動決策。

這就意味著，原來依賴常識建立的信任關系已經(jīng)不成立了，必須轉(zhuǎn)變?yōu)轱@式表達，并且需要具備可驗證、可審計和可追蹤的能力。

AI 科技評論：這是不是也意味著，一旦出問題，會很難追溯責任？

鄧智航：是的，這是一個非?，F(xiàn)實的問題。如果是人說錯話，我們可以直接找到這個人，但如果是 Agent 出現(xiàn)問題，我們很難判斷它是自己判斷錯誤，還是被其他 Agent 誤導，或者是某個中間環(huán)節(jié)被污染。

在這種情況下，就需要一整套審計和追溯機制，否則就會變成需要一層一層往上追，這個過程是非常困難的，有點類似于追查資金來源的鏈條。

AI 科技評論：那會不會出現(xiàn)一種攻擊，不是立刻出問題，而是長期潛伏？

鄧智航：我認為這種情況是非?？赡艿模腋怕屎芨?。一個更成熟的攻擊方式，不會馬上制造一個可以被發(fā)現(xiàn)的事故，而是會悄悄改變 Agent 的偏好、信任對象以及行為傾向，讓它在很多看似正常的微小決策中持續(xù)偏移。相比那種瞬間失控，這種長期的行為漂移其實更危險，因為它更隱蔽，也更難被檢測。

AI 科技評論：那能力和安全之間的矛盾應該怎么處理？

鄧智航：這是一個不可避免的張力。Agent 的能力越強，它可以訪問的上下文越多、可以調(diào)用的工具越多，自主性也越高，但相應的風險也會增加。如果把權限收緊，它的能力又會受到限制。

所以問題不在于能不能消除這種張力，而在于能不能把它設計成一個可控的系統(tǒng)，比如通過分級授權、實時監(jiān)測以及事后追溯等機制，把這種張力轉(zhuǎn)化為一個可以被管理的狀態(tài)。

AI 科技評論：你覺得未來兩三年，Agent 安全的分水嶺會出現(xiàn)在哪里？

鄧智航：我認為關鍵在于，整個行業(yè)能不能把身份、授權、溯源以及運行時治理這些能力真正做成基礎設施。如果這些基礎設施建立起來，Agent 才有可能從“能用但危險”，走向“可擴展且可治理”。

如果只是依賴 prompt 工程或者局部的補丁式防御，一旦 Agent 大規(guī)模進入開放網(wǎng)絡，這種方式是無法支撐的。

AI 科技評論：那這種“安全基礎設施”，你覺得可能會以什么形式出現(xiàn)？

鄧智航：具體形式還需要行業(yè)去探索，但可以做一個類比。兩年前沒有 MCP 的時候，大家的工具調(diào)用方式是完全不統(tǒng)一的，不同系統(tǒng)之間也很難互通。但 MCP 出現(xiàn)之后，通過統(tǒng)一協(xié)議，工具調(diào)用這一層被標準化，Agent 的能力也因此提升。

未來的安全機制，也有可能以類似“協(xié)議”的形式出現(xiàn)，通過統(tǒng)一的安全協(xié)議，讓整個 Agent 生態(tài)在運行過程中更安全。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。