Agent Data Stack:為什麼每個 AI Agent 都需要自己的 Data Stack

Agent Data Stack:為什麼每個 AI Agent 都需要自己的 Data Stack

從集中式轉向分散式 Agent Data

AI agent 需要數據架構的根本轉變,從 SaaS 時代的集中式數據平台轉向分散式模型,讓每個 agent 都有自己的沙盒化 data stack。這種轉變是必要的,因為 agent 會 24/7 全天候運作,通常是在迴圈中運行,這會產生足以壓垮傳統基礎設施的查詢負載,且如果直接授予其對生產環境數據庫的訪問權限,會帶來顯著的安全風險。

現代數據棧對 Agent 的失敗之處

傳統的現代數據棧依賴於集中式系統和 ETL (Extract, Transform, Load) 流水線。由於以下幾個原因,這種模型對於 AI agent 時代是不夠的:

  • 延遲與交付速度: 構建 ETL 流水線可能需要數週或數月,而 AI agent 的使用案例必須快速交付才能保持競爭力。
  • 數據多樣性: Agent 需要即時訪問廣泛的數據源,包括 OLTP 數據庫、document DBs 和 message buses,而不僅僅是分析數據。
  • 基礎設施負載: Agentic 工作負載產生的負載比人類用戶高出好幾個數量級。Luke Kim 引用了最近的 GitHub 故障,稱其部分原因是 agentic 使用案例帶來的巨大增長。
  • 安全風險: 直接授予 agent 數據庫訪問權限是危險的。Kim 提到了一個病毒式傳播的事件,其中一個 AI agent 摧毀了生產環境數據,以及 Lovable 的一次安全事件,其原因是後端數據庫控制不足。

建議的解決方案:Agent Data Stack

為了平衡數據可訪問性與系統穩定性之間的衝突,建議的架構是為每個 agent 提供其獨立的隔離 data stack。這個 stack 充當 agent 與組織後端數據系統之間的安全防火牆層。

架構與實現

與其授予 agent 對生產系統的直接網絡訪問權限,不如讓 agent data stack 作為一個 "sidecar",提供一組經由刻意配置的、安全的本地數據集。

此架構的核心能力包括:

  • 聯邦式 SQL 查詢 (Federated SQL Querying): 能夠跨越多樣化的後端存儲,包括 Parquet, Iceberg, Snowflake, MySQL, MongoDB, 和 Elasticsearch,以及 HTTP APIs, GitHub 數據和文件系統。
  • 本地加速 (Local Acceleration): 為了確保一致的性能並防止後端過載,工作數據集會被複製到嵌入式數據庫中,例如 DuckDB, SQLite, 或 Arrow。這為 agent 創建了一個快速的本地迴圈回饋。
  • 本地模型服務 (Local Model Serving): 在與數據相同的機器上本地加載並提供模型服務,以使 agentic 工作流盡可能本地化。

實際應用:SRE Agent Demo

為了展示隔離 data stack 的效用,Kim 展示了一個使用 Open Claw 構建並由 Spice AI 提供支持的 SRE (Site Reliability Engineering) agent。 由於 agent 與生產系統是隔離的,它可以被授予對日誌 (logs)、指標 (metrics) 和數據庫的廣泛訪問權限,而不會冒險於實時環境的穩定性。

事件解決工作流

在 Demo 中,SRE agent 協助解決了一個實時網站事件,通過以下步驟:

  1. 檢測 (Detection): Agent 接收到了關於高訂單延遲的 Grafana 警報。
  2. 診斷 (Diagnosis): Agent 查詢了生產環境數據庫、監控日誌 (monitoring logs) 以及存儲在 GitHub 上 Markdown 格式的非結構化故障排除指南 (TSGs),以識別原因。
  3. 初步緩解 (Initial Mitigation): Agent 建議將訂單服務擴展到三個副本 (replicas) 以應對增加的負荷。
  4. 二次故障排除 (Secondary Troubleshooting): 當擴展導致錯誤率上升(由於數據庫連接限制)時,Agent 再次分析數據並識別出連接池 (connection pooler) 問題。
  5. 最終解決 (Final Resolution): Agent 建議將連接池模式從 "session" 改為 "transaction",從而成功恢復了服務穩定性。
  6. 事後分析 (Post-Mortem): Agent 識別了受故障訂單影響的特定客戶,提供了進行客戶溝通所需的數據。

AI 基礎設施的技術要點

  • 隔離是賦能者 (Isolation is an Enabler): 通過將 agent 與後端系統隔離,組織實際上可以讓 agent 強大,因為它們可以安全地授予其對更多樣化的生產環境數據的訪問權限。
  • 混合數據訪問 (Hybrid Data Access): 有效的 agent stack 必須結合聯邦式訪問(為了廣度)與本地複製(為了速度與安全)。
  • 統一接口 (Unified Interface): Agent 與 data stack 的交互方式就像使用標準數據庫、搜索引擎或 OpenAI endpoint,簡化了 LLM 的工具調用 (tool-calling) 過程。

Sources