WeClone
WeClone: とは何であるか、どのような問題を解決するか、そしてなぜ注目を集めているのか
解決する問題
WeCloneは、実際のチャット履歴に基づいて個人のデジタルアバターを作成するためのエンドツーエンドのパイプラインを提供します。エクスポートされたメッセージングデータを使用して大規模言語モデル(LLM)をファインチューニングすることで、個人の話し方や性格をクローンすることができ、特定の人物の会話の「味付け」を模倣するボットを効果的に作成します。
仕組み
このプロジェクトは、完全なワークフローを実装しています:
- データのエクスポートと前処理: Telegram(画像もサポート)などのプラットフォームからのチャット記録のエクスポートをサポートしており、WhatsApp、Discord、Slackのサポートも構築中です。Microsoft Presidioを使用して機密性の高い個人情報を(電話番号、メールアドレスなど)フィルタリングし、カスタムブロックリストの使用も可能です。
- ファインチューニング: デフォルトでQwen2.5-VL-7B-Instructモデルを使用し、教師ありファインチューニング(SFT)のためにLoRA(Low-Rank Adaptation)手法を採用しています。モデルのトレーニングにはLLaMA Factoryと統合されています。
- デプロイ: ファインチューニングされたモデルは、APIサーバーとしてデプロイしたり、AstrBotやLangBotのようなチャットボットフレームワークに統合して、Discord、Telegram、Slackなどのプラットフォームで使用したりできます。
対象者
- 個人: 自分自身や愛する人のように話すデジタルツインや、パーソナライズされたAIアシスタントを作成したいと考えている人。
- 研究者: 性格主導のLLMファインチューニングや、マルチモーダル(テキストと画像)なチャットデータを用いた実験を行っている研究者。
ハイライト
- エンドツーエンドのパイプライン: データの書き出しとクリーニングから、トレーニングとデプロイまで、すべてをカバーしています。
- マルチモーダル対応: コミュニケーションスタイルをより良く捉えるために、画像データを用いたファインチューニングをサポートしています。
- プライバシー重視: トレーニング中に機密データを保護するために、組み込みのPII(個人識別情報)フィルタリングが含まれています。
- ** uma**
- 柔軟なデプロイ: OpenAI互換のAPIサーバーを介して、さまざまなチャットボットフレームワークやメッセージングプラットフォームと互換性があります。
Sources
- undefinedxming521/WeClone