MetaClaw:一個讓 AI 助手能透過真實對話進行元學習與演化的代理程式
MetaClaw:一個讓 AI 助手能透過真實對話進行元學習與演化的代理程式
它解決了什麼問題
MetaClaw 解決了 AI 代理程式在部署後保持靜態的問題。它不單純依賴離線訓練,而是允許代理程式從真實世界的對話中持續學習與演化,隨著時間推移提升性能並適應用戶偏好,且無需用戶管理 GPU 集群。
運作原理
MetaClaw 作為個人代理程式(例如 OpenClaw、CoPaw 或 NanoClaw)與 LLM API 之間的透明代理。它會攔截互動以注入相關技能並持久化長期記憶。
根據模式的不同,它以不同的方式處理學習:
- Skills Mode:自動將對話總結為簡短的 Markdown 指令(技能),這些技能會在未來的提示詞中被檢索並注入。
- RL Mode:使用判斷 LLM (PRM) 非同步地為回應評分,並透過 Tinker、MinT 或 Weaver 等雲端後端進行 LoRA 微調。
- Auto Mode:結合了技能與 RL,使用智慧調度器將權重更新延遲到閒置時段(睡眠、閒置時間或日曆會議),因此代理程式不會被中斷。
對象是誰
它是為個人 AI 代理程式的使用者設計的,這些使用者希望他們的助手能在不同對話階段之間演化並記住事實、偏好與專案歷史,且無需本地高端硬體。
重點特色
- 一鍵部署:簡單的 CLI 設定,可自動配置受支援的個人代理程式。
- 多代理程式支援:透過 OpenAI 相容或 Anthropic 原生端點,相容於包括 OpenClaw、CoPaw、IronClaw 等在內的廣泛代理程式。
- 長期記憶:持久化跨對話階段的事實與偏好,以提供一致的上下文。
- 非同步架構:將服務、獎勵建模與訓練解耦,以確保在使用期間零延遲。
- 彈性的 RL 後端:支援多個雲端訓練提供商,包括 Tinker、MinT 與 Weaver。
Sources
- undefinedaiming-lab/MetaClaw