MetaClaw：一个通过真实世界对话实现 AI 助手元学习与进化的智能体代理

MetaClaw：一个通过真实世界对话实现 AI 助手元学习与进化的智能体代理

它解决了什么问题

MetaClaw 解决了 AI 智能体在部署后保持静态的问题。它不单纯依赖离线训练，而是允许智能体从现实世界的对话中不断学习和进化，随着时间的推移提高性能并适应用户偏好，而无需用户管理 GPU 集群。

工作原理

MetaClaw 作为个人智能体（如 OpenClaw、CoPaw 或 NanoClaw）与 LLM API 之间的透明代理。它拦截交互以注入相关技能并持久化长期记忆。

根据模式的不同，它以不同的方式处理学习：

Skills Mode：自动将对话总结为简短的 Markdown 指令（技能），这些指令会在未来的提示词中被检索并注入。
RL Mode：使用评判 LLM (PRM) 异步对响应进行评分，并通过 Tinker、MinT 或 Weaver 等基于云的后端进行 LoRA 微调。
Auto Mode：结合了技能和 RL，使用智能调度器将权重更新推迟到空闲窗口（睡眠、空闲时间或日历会议）以确保智能体不会被中断。

适用人群

它专为个人 AI 智能体用户设计，这些用户希望他们的助手能够在无需本地高端硬件的情况下，跨会话记住事实、偏好和项目历史。

亮点

一键部署：简单的 CLI 设置，自动配置支持的个人智能体。
多智能体支持：通过 OpenAI 兼容或 Anthropic 原生端点，兼容包括 OpenClaw、CoPaw、IronClaw 在内的多种智能体。
长期记忆：持久化跨会话的事实和偏好，以提供一致的上下文。
异步架构：将服务、奖励建模和训练解耦，以确保在使用期间零延迟。
灵活的 RL 后端：支持多种云端训练提供商，包括 Tinker、MinT 和 Weaver。

Sources

undefinedaiming-lab/MetaClaw