WeClone: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지
WeClone: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지
해결하는 문제
WeClone은 실제 채팅 기록을 기반으로 개인의 디지털 아바타를 생성하는 엔드투엔드 파이프라인을 제공합니다. 내보보낸 메시징 데이터를 사용하여 대규모 언어 모델(LLM)을 미세 조정(fine-tuning)함으로써 사용자가 특정 개인의 말하기 스타일과 성격을 복제할 수 있게 하며, 결과적으로 특정 인물의 대화 "맛"을 흉내 내는 봇을 효과적으로 생성합니다.
작동 방식
이 프로젝트는 전체 워크플로우를 구현합니다:
- 데이터 내보내기 및 전처리: Telegram과 같은 플랫폼에서 채팅 기록을 내보내는 것을 지원하며(이미지 지원 포함), WhatsApp, Discord, Slack에 대한 지원을 구축 중입니다. Microsoft Presidio를 사용하여 민감한 개인 정보(전화번호, 이메일 등)를 필터링하고 사용자 정의 차단 목록을 허용합니다.
- 미세 조정(Fine-tuning): 기본적으로 Qwen2.5-VL-7B-Instruct 모델을 사용하며, 지도 학습 미세 조정(SFT)을 위해 LoRA (Low-Rank Adaptation) 방식을 채택합니다. 모델 학습을 위해 LLaMA Factory와 통합됩니다.
- 배포포: 미세 조정된 모델은 API 서버로 배포하거나 AstrBot 또는 LangBot과 같은 챗봇 프레임워크에 통합하여 Discord, Telegram, Slack과 같은 플랫폼에서 사용할 수 있습니다.
대상 사용자
- 개인: 자신이나 사랑하는 사람처럼 말하는 디지털 트윈 또는 개인화된 AI 어시스턴트를 만들고 싶은 사람.
- 연구자: 성격 중심의 LLM 미세 조정 및 멀티모달(텍스트 및 이미지) 채팅 데이터 실험을 하는 사람.
주요 특징
- 엔드투엔드 파이프라인: 데이터 내보내기 및 정제부터 학습 및 배포까지 모든 과정을 다룹니다.
- 멀티모달 지원: 커뮤니케이션 스타일을 더 잘 포착하기 위해 이미지 데이터로 미세 조정을 지원합니다.
- 개인정보 보호 중심: 학습 중 민감한 데이터를 보호하기 위해 내장된 PII (개인 식별 정보) 필터링을 포함합니다.
- ** uma**
- 유연한 배포: OpenAI 호환 API 서버를 통해 다양한 챗봇 프레임워크 및 메시징 플랫폼과 호환됩니다.
Sources
- undefinedxming521/WeClone