Handy: プライバシー重視のオフライン音声文字起こしツール。文字起こし結果をアクティブなテキストフィールドに直接貼り付け可能

Handy: プライバシー重視のオフライン音声文字起こしツール。文字起こし結果をアクティブなテキストフィールドに直接貼り付け可能

解決する課題

Handyは、プライバシーを重視したオープンソースの音声文字起こしアプリケーションです。ユーザーが話した言葉を、コンピュータ上のあらゆるアクティブなテキストフィールドに直接文字起こしできます。クラウドベースの文字起こしサービスを使用する必要がないため、オーディオデータがローカルに留まり、プライバシーが確保されます。

仕組み

ユーザーは、設定可能なキーボードショートカットまたはプッシュ・トゥ・トーク・モードを介して文字起こしを開始します。アプリケーションはSileroによる音声活動検知(VAD)を使用して無音部分をフィルタリングし、その後、ローカルのMLモデルを使用してオーディオを処理します。Whisperモデルのさまざまなサイズ(GPU加速対応)や、自動言語検出のためのCPU最適化されたParakeet V3モデルなど、複数のモデルオプションをサポートしています。

対象ユーザー

Windows、macOS、およびLinuxで完全にオフラインで動作する、無料、プライベート、かつ拡張可能な音声文字起こしツールを求めているユーザー向けに設計されています。

ハイライト

  • 完全にローカル: すべての処理はユーザーのデバイス上で行われ、クラウドへのデータ送信はありません。
  • クロスプラットフォーム: Windows、macOS、およびLinuxをネイティブにサポート。
  • 柔軟なモデルサポート: Whisper (Small, Medium, Turbo, Large) および Parakeet V3 モデルをサポート。
  • 拡張性: Tauriアプリケーションとして構築されており(Rustバックエンド、Reactフロントエンド)、簡単にフォーク可能です。
  • システム統合: macOS上のRaycastと統合されており、リモートコントロール用のCLIフラグをサポートしています。

Sources