MetaClaw：一個讓 AI 助手能透過真實對話進行元學習與演化的代理程式

MetaClaw：一個讓 AI 助手能透過真實對話進行元學習與演化的代理程式

它解決了什麼問題

MetaClaw 解決了 AI 代理程式在部署後保持靜態的問題。它不單純依賴離線訓練，而是允許代理程式從真實世界的對話中持續學習與演化，隨著時間推移提升性能並適應用戶偏好，且無需用戶管理 GPU 集群。

運作原理

MetaClaw 作為個人代理程式（例如 OpenClaw、CoPaw 或 NanoClaw）與 LLM API 之間的透明代理。它會攔截互動以注入相關技能並持久化長期記憶。

根據模式的不同，它以不同的方式處理學習：

Skills Mode：自動將對話總結為簡短的 Markdown 指令（技能），這些技能會在未來的提示詞中被檢索並注入。
RL Mode：使用判斷 LLM (PRM) 非同步地為回應評分，並透過 Tinker、MinT 或 Weaver 等雲端後端進行 LoRA 微調。
Auto Mode：結合了技能與 RL，使用智慧調度器將權重更新延遲到閒置時段（睡眠、閒置時間或日曆會議），因此代理程式不會被中斷。

對象是誰

它是為個人 AI 代理程式的使用者設計的，這些使用者希望他們的助手能在不同對話階段之間演化並記住事實、偏好與專案歷史，且無需本地高端硬體。

重點特色

一鍵部署：簡單的 CLI 設定，可自動配置受支援的個人代理程式。
多代理程式支援：透過 OpenAI 相容或 Anthropic 原生端點，相容於包括 OpenClaw、CoPaw、IronClaw 等在內的廣泛代理程式。
長期記憶：持久化跨對話階段的事實與偏好，以提供一致的上下文。
非同步架構：將服務、獎勵建模與訓練解耦，以確保在使用期間零延遲。
彈性的 RL 後端：支援多個雲端訓練提供商，包括 Tinker、MinT 與 Weaver。

Sources

undefinedaiming-lab/MetaClaw