stanza: 一個支援 60 多種語言並具備神經網路管線的多元語言 Python NLP 函式庫,以及專門的生物醫學模型

stanza: 一個支援 60 多種語言並具備神經網路管線的多元語言 Python NLP 函式庫,以及專門的生物醫學模型

它解決了什麼問題

Stanza 提供了一套針對超過 60 種人類語言的全面且準確的自然語言處理 (NLP) 工具,消除了從頭開始建立語言特定管線的需求。它也彌補了 Python 使用者與基於 Java 的 Stanford CoreNLP 軟體之間的差距。

運作方式

Stanza 使用 PyTorch 實作了神經網路管線,可以下載並在本地端執行。它支援多種 NLP 任務,包括斷詞 (tokenization)、詞形還原 (lemmatization)、詞性標註 (part-of-speech tagging) 以及依存句法分析 (dependency parsing)。此外,它也作為 Java Stanford CoreNLP 軟體的 Python 包裝器 (wrapper),允許使用者透過環境變數和用戶端介面來存取其功能。

對象是誰

它專為進行語言學分析的研究人員和開發人員設計,也適用於處理生物醫學和臨床文獻等專業領域的人士。

重點特色

  • 廣泛的語言支援:基於 Universal Dependencies 的 60 多種語言預訓練模型。
  • 專門的領域模型:針對生物醫學和臨床英文文本的專用模型套件。
  • 彈性的實作方式:同時提供原生 PyTorch 神經網路管線以及 Java CoreNLP 的包裝器。
  • 可自定義:所有神經模組都可以使用 CoNLL-U 或 BIOES 格式在自定義數據上進行訓練。

Sources