WeClone: とは何であるか、どのような問題を解決するか、そしてなぜ注目を集めているのか

解決する問題

WeCloneは、実際のチャット履歴に基づいて個人のデジタルアバターを作成するためのエンドツーエンドのパイプラインを提供します。エクスポートされたメッセージングデータを使用して大規模言語モデル（LLM）をファインチューニングすることで、個人の話し方や性格をクローンすることができ、特定の人物の会話の「味付け」を模倣するボットを効果的に作成します。

仕組み

このプロジェクトは、完全なワークフローを実装しています：

データのエクスポートと前処理: Telegram（画像もサポート）などのプラットフォームからのチャット記録のエクスポートをサポートしており、WhatsApp、Discord、Slackのサポートも構築中です。Microsoft Presidioを使用して機密性の高い個人情報を（電話番号、メールアドレスなど）フィルタリングし、カスタムブロックリストの使用も可能です。
ファインチューニング: デフォルトでQwen2.5-VL-7B-Instructモデルを使用し、教師ありファインチューニング（SFT）のためにLoRA（Low-Rank Adaptation）手法を採用しています。モデルのトレーニングにはLLaMA Factoryと統合されています。
デプロイ: ファインチューニングされたモデルは、APIサーバーとしてデプロイしたり、AstrBotやLangBotのようなチャットボットフレームワークに統合して、Discord、Telegram、Slackなどのプラットフォームで使用したりできます。

対象者

個人: 自分自身や愛する人のように話すデジタルツインや、パーソナライズされたAIアシスタントを作成したいと考えている人。
研究者: 性格主導のLLMファインチューニングや、マルチモーダル（テキストと画像）なチャットデータを用いた実験を行っている研究者。

ハイライト

エンドツーエンドのパイプライン: データの書き出しとクリーニングから、トレーニングとデプロイまで、すべてをカバーしています。
マルチモーダル対応: コミュニケーションスタイルをより良く捉えるために、画像データを用いたファインチューニングをサポートしています。
プライバシー重視: トレーニング中に機密データを保護するために、組み込みのPII（個人識別情報）フィルタリングが含まれています。
** uma**
柔軟なデプロイ: OpenAI互換のAPIサーバーを介して、さまざまなチャットボットフレームワークやメッセージングプラットフォームと互換性があります。

WeClone

WeClone: とは何であるか、どのような問題を解決するか、そしてなぜ注目を集めているのか

解決する問題

仕組み

対象者

ハイライト

Sources