WeClone

WeClone: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

WeClone 提供了一個端到端的流程,根據一個人的實際聊天記錄來創建其數位分身。它允許用戶通過在匯出的訊息數據上微調大型語言模型 (LLM),來複製一個人的說話風格和個性,有效地創建一個模仿特定人物對話「風味」的機器人。

如何運作

該項目實現了一個完整的流程:

  1. 數據匯出與預處理:它支持從 Telegram 等平台匯出聊天記錄(支持圖片),並且正在開發對 WhatsApp、Discord 和 Slack 的支持。它使用 Microsoft Presidio 來過濾敏感的私人信息(電話號碼、電子郵件等),並允許自定義黑名單。
  2. 微調:它默認使用 Qwen2.5-VL-7B-Instruct 模型,採用 LoRA (Low-Rank Adaptation) 方法進行監督式微調 (SFT)。它與 LLaMA Factory 集成。
  3. 部署:微調後的模型可以部署為 API 服務器,或者集成到 AstrBot 或 LangBot 等聊天機器人框架中,以便在 Discord、Telegram 和 Slack 等平台上使用。

對象是誰

  • 個人:想要創建一個數位雙生或個性化的 AI 助手,使其說話方式像自己或所愛的人。
  • 研究人員:正在實驗以個性驅動的 LLM 微調和多模態(文本和圖像)聊天數據。

重點亮點

  • 端到端流程:涵蓋了從數據匯出和清洗到訓練和部署的所有環節。
  • 多模態支持:支持使用圖像數據進行微調,以更好地捕捉溝通風格。
  • 注重隱私:包含內置的 PII (Personally Identifiable Information) 過濾,以在訓練期間保護敏感數據。
  • ** uma**
  • 靈活的部署:通過與 OpenAI 相容的 API 服務器,與各種聊天機器人框架和訊息平台相容。

Sources