PageIndex: 무엇인지, 어떤 문제를 해결하며, 왜 인기를 얻고 있는지

PageIndex: 무엇인지, 어떤 문제를 해결하며, 왜 인기를 얻고 있는지

해결하는 문제

PageIndex는 전통적인 벡터 기반 Retrieval-Augmented Generation (RAG)에서 발견되는 정확도 및 설명 가능성 문제를 해결합니다. 문구는 비슷하지만 쿼리와 관련이 없는 결과를 반환할 수 있는 의미론적 유사성(semantic similarity)에 의존하는 대신, PageIndex는 길고 전문적인 문서에 대해 추론 기반 검색을 통해 진정한 관련성에 집중합니다.

작동 방식

PageIndex는 벡터 데이터베이스와 인위적인 청킹(chunking)을 계층적 트리 인덱스(hierarchical tree index)로 대체합니다. 프로세스는 크게 두 단계로 진행됩니다:

  1. 트리 인덱스 생성: 긴 문서(PDF 또는 Markdown 파일 등)를 의미론적인 "목차" 트리 구조로 변환하여, 임의의 청크가 아닌 자연스러운 섹션으로 콘텐츠를 구성합니다.
  2. 추론 기반 검색: LLM을 사용하여 에이전트 방식의 트리 검색(agentic tree search)을 수행하며, 이는 인간 전문가가 특정 정보를 찾기 위해 문서를 탐색하는 방식을 시뮬레이션합니다. 이를 통해 검색 프로세스를 추적할 수 있게 하고 명시적인 페이지 및 섹션 참조를 기반으로 합니다.

대상 사용자

금융 보고서, 법률 문서, 규제 문서, 기술 매뉴얼, 학술 교과서와 같이 복잡하고 긴 전문 문서를 다루는 사용자를 위해 설계되었습니다.

주요 특징

  • Vectorless Architecture: 벡터 데이터베이스와 청킹 전략의 복잡성을 제거합니다.
  • 높은 정확도: 금융 문서 QA를 위한 FinanceBench 벤치마크에서 98.7%의 정확도를 달성했습니다.
  • 추적 가능한 결과: 모든 검색은 추론 중심이며 특정 문서 참조를 기반으로 하므로 "vibe retrieval"을 방지합니다.
  • 문맥 인식: 검색은 대화 기록과 도메인 지식에 따라 조정됩니다.
  • 유연한 배포: 셀프 호스팅 가능한 오픈 소스 도구, API/MCP를 통한 클라우드 서비스, 또는 엔터프라이즈 배포가 가능합니다.

Sources