stanza: 60以上の言語に対応するニューラルパイプラインと特化型バイオメディカルモデルを備えた多言語Python NLPライブラリ

stanza: 60以上の言語に対応するニューラルパイプラインと特化型バイオメディカルモデルを備えた多言語Python NLPライブラリ

何を解決するか

Stanzaは、60以上の言語に対して正確な自然言語処理(NLP)ツールの包括的なセットを提供し、言語固有のパイプラインをゼロから構築する必要性を排除します。また、PythonユーザーとJavaベースのStanford CoreNLPソフトウェアの間のギャップを埋める役割も果たします。

仕組み

Stanzaは、ダウンロードしてローカルで実行可能なPyTorchを使用したニューラルパイプラインを実装しています。トークン化、レマタイゼーション(原型化)、品詞タグ付け、依存構造解析などのさまざまなNLPタスクをサポートしています。さらに、JavaのStanford CoreNLPソフトウェアのPythonラッパーとして機能し、環境変数やクライアントインターフェースを介してその機能にアクセスすることを可能にします。

対象ユーザー

言語学的分析を行う研究者や開発者、およびバイオメディカルや臨床文献などの専門領域に従事する人々を対象として設計されています。

ハイライト

  • 幅広い言語サポート: Universal Dependenciesに基づく60以上の言語の学習済みモデル。
  • 特化型ドメインモデル: バイオメディカルおよび臨床英語テキスト用の専用モデルパッケージ。
  • 柔軟な実装: ネイティブなPyTorchニューラルパイプラインと、Java CoreNLPのラッパーの両方を提供。
  • カスタマイズ可能: すべてのニューラルモジュールは、CoNLL-UまたはBIOES形式を使用してカスタムデータでトレーニング可能です。

Sources