WeClone
WeClone: 什么是它,它解决了什么问题以及为什么它正受到关注
它解决了什么问题
WeClone 提供了一个端到端的流水线,用于根据一个人的实际聊天记录创建其数字分身。它允许用户通过在导出的消息数据上微调大语言模型 (LLM),从而克隆个人的说话风格和个性,有效地创建一个模仿特定个人对话“风味”的机器人。
它是如何工作的
该项目实现了一个完整的流程:
- 数据导出与预处理:它支持从 Telegram 等平台导出聊天记录(支持图像),并正在构建对 WhatsApp、Discord 和 Slack 的支持。它使用 Microsoft Presidio 来过滤敏感的私人信息(电话号码、电子邮件等),并允许使用自定义黑名单。
- 微调:它默认使用 Qwen2.5-VL-7B-Instruct 模型,采用 LoRA (Low-Rank Adaptation) 方法进行监督式微调 (SFT)。它集成了 LLaMA Factory 用于模型训练。
- 部署:微调后的模型可以部署为 API 服务器,或者集成到 AstrBot 或 LangBot 等聊天机器人框架中,以便在 Discord、Telegram 和 Slack 等平台上使用。
它是为谁准备的
- 个人用户:想要创建数字孪生或个性化 AI 助手,使其说话方式像自己或亲人。
- 研究人员:正在实验以个性驱动的 LLM 微调和多模态(文本和图像)聊天数据。
亮点
- 端到端流水线:涵盖了从数据导出和清洗到训练和部署的所有环节。
- 多模态支持:支持使用图像数据进行微调,以更好地捕捉沟通风格。
- 注重隐私:包含内置的 PII (Personally Identifiable Information) 过滤,以在训练过程中保护敏感数据。
- ** uma**
- 灵活的部署:通过与 OpenAI 兼容的 API 服务器,兼容各种聊天机器人框架和即时通讯平台。
Sources
- undefinedxming521/WeClone