WeClone

WeClone: とは何であるか、どのような問題を解決するか、そしてなぜ注目を集めているのか

解決する問題

WeCloneは、実際のチャット履歴に基づいて個人のデジタルアバターを作成するためのエンドツーエンドのパイプラインを提供します。エクスポートされたメッセージングデータを使用して大規模言語モデル(LLM)をファインチューニングすることで、個人の話し方や性格をクローンすることができ、特定の人物の会話の「味付け」を模倣するボットを効果的に作成します。

仕組み

このプロジェクトは、完全なワークフローを実装しています:

  1. データのエクスポートと前処理: Telegram(画像もサポート)などのプラットフォームからのチャット記録のエクスポートをサポートしており、WhatsApp、Discord、Slackのサポートも構築中です。Microsoft Presidioを使用して機密性の高い個人情報を(電話番号、メールアドレスなど)フィルタリングし、カスタムブロックリストの使用も可能です。
  2. ファインチューニング: デフォルトでQwen2.5-VL-7B-Instructモデルを使用し、教師ありファインチューニング(SFT)のためにLoRA(Low-Rank Adaptation)手法を採用しています。モデルのトレーニングにはLLaMA Factoryと統合されています。
  3. デプロイ: ファインチューニングされたモデルは、APIサーバーとしてデプロイしたり、AstrBotやLangBotのようなチャットボットフレームワークに統合して、Discord、Telegram、Slackなどのプラットフォームで使用したりできます。

対象者

  • 個人: 自分自身や愛する人のように話すデジタルツインや、パーソナライズされたAIアシスタントを作成したいと考えている人。
  • 研究者: 性格主導のLLMファインチューニングや、マルチモーダル(テキストと画像)なチャットデータを用いた実験を行っている研究者。

ハイライト

  • エンドツーエンドのパイプライン: データの書き出しとクリーニングから、トレーニングとデプロイまで、すべてをカバーしています。
  • マルチモーダル対応: コミュニケーションスタイルをより良く捉えるために、画像データを用いたファインチューニングをサポートしています。
  • プライバシー重視: トレーニング中に機密データを保護するために、組み込みのPII(個人識別情報)フィルタリングが含まれています。
  • ** uma**
  • 柔軟なデプロイ: OpenAI互換のAPIサーバーを介して、さまざまなチャットボットフレームワークやメッセージングプラットフォームと互換性があります。

Sources