AI 與機器人綜述:代理式工作流程、本地 LLM 與類人機器人市場
AI 與機器人綜述:代理式工作流程、本地 LLM 與類人機器人市場
自主代理群與工具的崛起
AI 開發正從簡單的聊天機器人轉向能夠執行複雜多步驟與專門安全任務的自主「代理式」工作流程。
- T3MP3ST Offensive Security Harness: Pliny the Liberator 推出了 T3MP3ST,一個自主的「hackbot 打擊部隊」,可作為現有程式碼代理(如 Claude Code 與 Codex)的紅隊工具。它支援 Web 應用、網路偵查與原始碼稽核,在 XBEN 黑箱挑戰套件上取得 90.1% 的 pass@1,白箱任務則達 98.7%。可作為單一代理或依據 MITRE ATT&CK 框架的專家群組運作 [@elder_plinius]。
- Command Code Growth: Command Code 已達到 15,000 名付費客戶,月營收 200 萬美元。團隊正進行 v1 重寫,以打造與執行環境無關的核心框架,並計畫開源程式碼庫 [@MrAhmadAwais, @MrAhmadAwais]。
- Agent Orchestration Tools: 新工具正湧現以簡化代理管理,例如 CNVS,允許使用者以視覺方式編排多個代理(如 Fable 5 委派給 Cursor),並使用跨代理記憶系統 [@_MaxBlade]。此外,LangChain 發布了 OpenWiki,一個開源代理,可為程式碼庫維護維基,為編碼代理提供長期上下文 [@minchoi]。
- Deployment and Integration: Anthropic 推出了「Launch Your Agent」,這是一項 Claude Code 技能,能訪談使用者以界定、啟動並排程雲端自主代理 [@cyrilXBT]。在金融領域,Injective MCP Server 現已允許 AI 代理使用自然語言在鏈上永續期貨交易 [@injective]。
本地 LLM 效能與基礎建設
越來越多的趨勢是將高效能模型本地化執行,以降低成本並提升隱私,這得益於新興的量化方法與硬體最佳化。
- GLM-5.2 and Local Execution: GLM-5.2 正頻繁出現在作為前沿模型的高效能替代方案。它已在 AMD MI355X 上以 2626 tok/s/node 的速度提供服務 [@wafer_ai],亦可透過 NVIDIA 的建置頁面取得 [@RoundtableSpace]。部分使用者利用 DGX Sparks 與 NVFP4 量化達成高速解碼 [@0xSero]。
- Cost-Efficiency of Open Models: 使用者回報稱開源模型如 DeepSeek v4 Flash 與 GLM-5.2 的代幣消耗可比專有模型低至 20 倍 [@quxiaoyin]。一位開發者指出 DeepSeek V4 Flash(238B)相較於 Qwen 3.6 35B A3B 的運行成本顯著更低 [@jpschroeder]。
- Local Hardware Strategies: 使用 Ollama 的 Mac Mini M4 被視為取代多個 ChatGPT Plus 訂閱的成本效益方案,適用於日常任務 [@doublenickk]。其他人則利用 Google Colab 的免費 T4 GPU 等級執行如 Gemma 4 26B 等模型 [@analogalok]。
體現式 AI 與類人機器人
機器人領域正迎來商業興趣的激增,焦點集中於通用類人機器人與專門的靈巧操作。
- Market Projections: Morgan Stanley 預測全球類人機器人可觸及的總市場規模(TAM)將在 2050 年達到 7.5 兆美元,機器人總量估計為 10 億台 [@pequityresearch]。
- Commercial Deployments: Agility Robotics 的 Digit 目前已在 Amazon 物流中心部署,超過 18 個月零安全事故 [@MelvinInvests]。Weave Robotics 推出了 Isaac 1,一款價格為 7,999 美元的輪式家居助理,主打洗衣與房間整理任務 [@mikekalilmfg, @RoboHub]。
- Technical Focus: 專家強調「下一波類人機器人大賽」的勝負將取決於指尖靈巧度與處理易碎物品的能力,而非僅僅是行走能力 [@techniahq]。
前沿模型更新與研究
近期報告與學術論文突顯了前沿模型的能力演進與限制。
- Context Windows: 傳聞 Google Gemini 3.5 Pro 將以 200 萬代幣的上下文窗口推出,為 Anthropic 最新模型的 100 萬代幣上限翻倍 [@astropol0]。
- Research Idea Range: 耶魯大學與芝加哥大學的論文指出,雖然 LLM 產生的研究構想品質高,但缺乏人類研究者的「範圍」,往往只是在連結已有工作,而非提出多樣化的研究方向 [@rohanpaul_ai]。
- Model Performance: Composio 在 41 項代理工具呼叫任務上測試 GLM-5.2,完成率達 97.6%,優於 Claude Opus 4.8 與 GPT-5.5 [@composio]。
經濟與策略觀點
- The "AI Layoff Trap": Wharton School 與波士頓大學的同行評審論文認為,理性企業自動化可能導致消費需求下降的惡性循環,因為勞工被 AI 取代,除非實施「皮古稅」式的自動化稅,否則可能毀滅經濟 [@jackcoder0]。
- Enterprise Data Sovereignty: 越來越多警示企業必須掌握自己的「生產手段」(計算資源與模型權重),以免將專有知識轉移至 OpenAI、Anthropic 等前沿實驗室 [@jawwwn_]。
- Infrastructure Growth: JPMorgan 報告稱 LLM 代幣使用量年增 20 倍,H100 與 B200 GPU 租賃價格持續上升,與 AI 資本支出放緩的說法相左 [@glocalinvestor]。
SUMMARY:
近期發展凸顯了向自主代理群的轉變、高效能本地 LLM(如 GLM-5.2)的崛起,以及預估至 2050 年類人機器人市場將達 7.5 兆美元的趨勢。
TITLE:
AI 與機器人綜述:代理式工作流程、本地 LLM 與類人機器人市場