Agent Data Stack：為什麼每個 AI Agent 都需要自己的 Data Stack

從集中式轉向分散式 Agent Data

AI agent 需要數據架構的根本轉變，從 SaaS 時代的集中式數據平台轉向分散式模型，讓每個 agent 都有自己的沙盒化 data stack。這種轉變是必要的，因為 agent 會 24/7 全天候運作，通常是在迴圈中運行，這會產生足以壓垮傳統基礎設施的查詢負載，且如果直接授予其對生產環境數據庫的訪問權限，會帶來顯著的安全風險。

現代數據棧對 Agent 的失敗之處

傳統的現代數據棧依賴於集中式系統和 ETL (Extract, Transform, Load) 流水線。由於以下幾個原因，這種模型對於 AI agent 時代是不夠的：

延遲與交付速度： 構建 ETL 流水線可能需要數週或數月，而 AI agent 的使用案例必須快速交付才能保持競爭力。
數據多樣性： Agent 需要即時訪問廣泛的數據源，包括 OLTP 數據庫、document DBs 和 message buses，而不僅僅是分析數據。
基礎設施負載： Agentic 工作負載產生的負載比人類用戶高出好幾個數量級。Luke Kim 引用了最近的 GitHub 故障，稱其部分原因是 agentic 使用案例帶來的巨大增長。
安全風險： 直接授予 agent 數據庫訪問權限是危險的。Kim 提到了一個病毒式傳播的事件，其中一個 AI agent 摧毀了生產環境數據，以及 Lovable 的一次安全事件，其原因是後端數據庫控制不足。

建議的解決方案：Agent Data Stack

為了平衡數據可訪問性與系統穩定性之間的衝突，建議的架構是為每個 agent 提供其獨立的隔離 data stack。這個 stack 充當 agent 與組織後端數據系統之間的安全防火牆層。

架構與實現

與其授予 agent 對生產系統的直接網絡訪問權限，不如讓 agent data stack 作為一個 "sidecar"，提供一組經由刻意配置的、安全的本地數據集。

此架構的核心能力包括：

聯邦式 SQL 查詢 (Federated SQL Querying)： 能夠跨越多樣化的後端存儲，包括 Parquet, Iceberg, Snowflake, MySQL, MongoDB, 和 Elasticsearch，以及 HTTP APIs, GitHub 數據和文件系統。
本地加速 (Local Acceleration)： 為了確保一致的性能並防止後端過載，工作數據集會被複製到嵌入式數據庫中，例如 DuckDB, SQLite, 或 Arrow。這為 agent 創建了一個快速的本地迴圈回饋。
本地模型服務 (Local Model Serving)： 在與數據相同的機器上本地加載並提供模型服務，以使 agentic 工作流盡可能本地化。

實際應用：SRE Agent Demo

為了展示隔離 data stack 的效用，Kim 展示了一個使用 Open Claw 構建並由 Spice AI 提供支持的 SRE (Site Reliability Engineering) agent。由於 agent 與生產系統是隔離的，它可以被授予對日誌 (logs)、指標 (metrics) 和數據庫的廣泛訪問權限，而不會冒險於實時環境的穩定性。

事件解決工作流

在 Demo 中，SRE agent 協助解決了一個實時網站事件，通過以下步驟：

檢測 (Detection)： Agent 接收到了關於高訂單延遲的 Grafana 警報。
診斷 (Diagnosis)： Agent 查詢了生產環境數據庫、監控日誌 (monitoring logs) 以及存儲在 GitHub 上 Markdown 格式的非結構化故障排除指南 (TSGs)，以識別原因。
初步緩解 (Initial Mitigation)： Agent 建議將訂單服務擴展到三個副本 (replicas) 以應對增加的負荷。
二次故障排除 (Secondary Troubleshooting)： 當擴展導致錯誤率上升（由於數據庫連接限制）時，Agent 再次分析數據並識別出連接池 (connection pooler) 問題。
最終解決 (Final Resolution)： Agent 建議將連接池模式從 "session" 改為 "transaction"，從而成功恢復了服務穩定性。
事後分析 (Post-Mortem)： Agent 識別了受故障訂單影響的特定客戶，提供了進行客戶溝通所需的數據。

AI 基礎設施的技術要點

隔離是賦能者 (Isolation is an Enabler)： 通過將 agent 與後端系統隔離，組織實際上可以讓 agent 更強大，因為它們可以安全地授予其對更多樣化的生產環境數據的訪問權限。
混合數據訪問 (Hybrid Data Access)： 有效的 agent stack 必須結合聯邦式訪問（為了廣度）與本地複製（為了速度與安全）。
統一接口 (Unified Interface)： Agent 與 data stack 的交互方式就像使用標準數據庫、搜索引擎或 OpenAI endpoint，簡化了 LLM 的工具調用 (tool-calling) 過程。

Agent Data Stack：為什麼每個 AI Agent 都需要自己的 Data Stack

Agent Data Stack：為什麼每個 AI Agent 都需要自己的 Data Stack

從集中式轉向分散式 Agent Data

現代數據棧對 Agent 的失敗之處

建議的解決方案：Agent Data Stack

架構與實現

實際應用：SRE Agent Demo

事件解決工作流

AI 基礎設施的技術要點

Sources