MetaClaw:一个通过真实世界对话实现 AI 助手元学习与进化的智能体代理
MetaClaw:一个通过真实世界对话实现 AI 助手元学习与进化的智能体代理
它解决了什么问题
MetaClaw 解决了 AI 智能体在部署后保持静态的问题。它不单纯依赖离线训练,而是允许智能体从现实世界的对话中不断学习和进化,随着时间的推移提高性能并适应用户偏好,而无需用户管理 GPU 集群。
工作原理
MetaClaw 作为个人智能体(如 OpenClaw、CoPaw 或 NanoClaw)与 LLM API 之间的透明代理。它拦截交互以注入相关技能并持久化长期记忆。
根据模式的不同,它以不同的方式处理学习:
- Skills Mode:自动将对话总结为简短的 Markdown 指令(技能),这些指令会在未来的提示词中被检索并注入。
- RL Mode:使用评判 LLM (PRM) 异步对响应进行评分,并通过 Tinker、MinT 或 Weaver 等基于云的后端进行 LoRA 微调。
- Auto Mode:结合了技能和 RL,使用智能调度器将权重更新推迟到空闲窗口(睡眠、空闲时间或日历会议)以确保智能体不会被中断。
适用人群
它专为个人 AI 智能体用户设计,这些用户希望他们的助手能够在无需本地高端硬件的情况下,跨会话记住事实、偏好和项目历史。
亮点
- 一键部署:简单的 CLI 设置,自动配置支持的个人智能体。
- 多智能体支持:通过 OpenAI 兼容或 Anthropic 原生端点,兼容包括 OpenClaw、CoPaw、IronClaw 在内的多种智能体。
- 长期记忆:持久化跨会话的事实和偏好,以提供一致的上下文。
- 异步架构:将服务、奖励建模和训练解耦,以确保在使用期间零延迟。
- 灵活的 RL 后端:支持多种云端训练提供商,包括 Tinker、MinT 和 Weaver。
Sources
- undefinedaiming-lab/MetaClaw