trulens：用於追蹤 LLM 實驗與代理行為的系統化評估與可觀測性框架

它解決了什麼問題

TruLens 透過提供系統化的評估與追蹤實驗方式，消除對 LLM 應用程式「感覺檢查」的需求。它協助開發者找出提示詞、模型、檢索器與知識來源中的失效模式，讓開發者能以資料驅動的方式迭代，提升應用效能。

它如何運作

TruLens 使用基於 OpenTelemetry 的插桩，將每一次函式呼叫、LLM 產生以及工具呼叫皆捕獲為結構化的 span。接著對這些 span 套用「回饋函式」與特定評估器（例如 RAG 三元組）。這些評估可以在應用執行時即時內嵌執行，或在離線批次模式下於事先收集的資料集上執行，結果可於使用者介面中檢視。

目標對象

此框架針對建構 LLM 驅動應用程式的開發者設計，特別是使用 RAG（檢索增強生成）或代理系統的開發者，讓他們能從零散的測試走向嚴謹的評估。

重點特色

OpenTelemetry 整合：與 Jaeger、Grafana Tempo、Datadog 等可觀測性工具完全相容。
代理評估器：七項專門指標，用以衡量推理一致性、計畫遵循、工具選擇與執行效率。
彈性評估：同時支援即時內嵌評估與高吞吐量的批次處理。
廣泛相容性：可與 LangChain、LlamaIndex 等主流框架整合，並支援多家 LLM 供應商，包括 OpenAI、Anthropic、Gemini 與 Bedrock。

trulens：用於追蹤 LLM 實驗與代理行為的系統化評估與可觀測性框架

trulens：用於追蹤 LLM 實驗與代理行為的系統化評估與可觀測性框架

它解決了什麼問題

它如何運作

目標對象

重點特色

Sources