WeClone

WeClone: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

WeClone 提供了一個端到端的流程，根據一個人的實際聊天記錄來創建其數位分身。它允許用戶通過在匯出的訊息數據上微調大型語言模型 (LLM)，來複製一個人的說話風格和個性，有效地創建一個模仿特定人物對話「風味」的機器人。

如何運作

該項目實現了一個完整的流程：

數據匯出與預處理：它支持從 Telegram 等平台匯出聊天記錄（支持圖片），並且正在開發對 WhatsApp、Discord 和 Slack 的支持。它使用 Microsoft Presidio 來過濾敏感的私人信息（電話號碼、電子郵件等），並允許自定義黑名單。
微調：它默認使用 Qwen2.5-VL-7B-Instruct 模型，採用 LoRA (Low-Rank Adaptation) 方法進行監督式微調 (SFT)。它與 LLaMA Factory 集成。
部署：微調後的模型可以部署為 API 服務器，或者集成到 AstrBot 或 LangBot 等聊天機器人框架中，以便在 Discord、Telegram 和 Slack 等平台上使用。

對象是誰

個人：想要創建一個數位雙生或個性化的 AI 助手，使其說話方式像自己或所愛的人。
研究人員：正在實驗以個性驅動的 LLM 微調和多模態（文本和圖像）聊天數據。

重點亮點

端到端流程：涵蓋了從數據匯出和清洗到訓練和部署的所有環節。
多模態支持：支持使用圖像數據進行微調，以更好地捕捉溝通風格。
注重隱私：包含內置的 PII (Personally Identifiable Information) 過濾，以在訓練期間保護敏感數據。
** uma**
靈活的部署：通過與 OpenAI 相容的 API 服務器，與各種聊天機器人框架和訊息平台相容。

Sources

undefinedxming521/WeClone