WeClone

WeClone: 什么是它，它解决了什么问题以及为什么它正受到关注

它解决了什么问题

WeClone 提供了一个端到端的流水线，用于根据一个人的实际聊天记录创建其数字分身。它允许用户通过在导出的消息数据上微调大语言模型 (LLM)，从而克隆个人的说话风格和个性，有效地创建一个模仿特定个人对话“风味”的机器人。

它是如何工作的

该项目实现了一个完整的流程：

数据导出与预处理：它支持从 Telegram 等平台导出聊天记录（支持图像），并正在构建对 WhatsApp、Discord 和 Slack 的支持。它使用 Microsoft Presidio 来过滤敏感的私人信息（电话号码、电子邮件等），并允许使用自定义黑名单。
微调：它默认使用 Qwen2.5-VL-7B-Instruct 模型，采用 LoRA (Low-Rank Adaptation) 方法进行监督式微调 (SFT)。它集成了 LLaMA Factory 用于模型训练。
部署：微调后的模型可以部署为 API 服务器，或者集成到 AstrBot 或 LangBot 等聊天机器人框架中，以便在 Discord、Telegram 和 Slack 等平台上使用。

它是为谁准备的

个人用户：想要创建数字孪生或个性化 AI 助手，使其说话方式像自己或亲人。
研究人员：正在实验以个性驱动的 LLM 微调和多模态（文本和图像）聊天数据。

亮点

端到端流水线：涵盖了从数据导出和清洗到训练和部署的所有环节。
多模态支持：支持使用图像数据进行微调，以更好地捕捉沟通风格。
注重隐私：包含内置的 PII (Personally Identifiable Information) 过滤，以在训练过程中保护敏感数据。
** uma**
灵活的部署：通过与 OpenAI 兼容的 API 服务器，兼容各种聊天机器人框架和即时通讯平台。

Sources

undefinedxming521/WeClone