Handy: プライバシー重視のオフライン音声文字起こしツール。文字起こし結果をアクティブなテキストフィールドに直接貼り付け可能
Handy: プライバシー重視のオフライン音声文字起こしツール。文字起こし結果をアクティブなテキストフィールドに直接貼り付け可能
解決する課題
Handyは、プライバシーを重視したオープンソースの音声文字起こしアプリケーションです。ユーザーが話した言葉を、コンピュータ上のあらゆるアクティブなテキストフィールドに直接文字起こしできます。クラウドベースの文字起こしサービスを使用する必要がないため、オーディオデータがローカルに留まり、プライバシーが確保されます。
仕組み
ユーザーは、設定可能なキーボードショートカットまたはプッシュ・トゥ・トーク・モードを介して文字起こしを開始します。アプリケーションはSileroによる音声活動検知(VAD)を使用して無音部分をフィルタリングし、その後、ローカルのMLモデルを使用してオーディオを処理します。Whisperモデルのさまざまなサイズ(GPU加速対応)や、自動言語検出のためのCPU最適化されたParakeet V3モデルなど、複数のモデルオプションをサポートしています。
対象ユーザー
Windows、macOS、およびLinuxで完全にオフラインで動作する、無料、プライベート、かつ拡張可能な音声文字起こしツールを求めているユーザー向けに設計されています。
ハイライト
- 完全にローカル: すべての処理はユーザーのデバイス上で行われ、クラウドへのデータ送信はありません。
- クロスプラットフォーム: Windows、macOS、およびLinuxをネイティブにサポート。
- 柔軟なモデルサポート: Whisper (Small, Medium, Turbo, Large) および Parakeet V3 モデルをサポート。
- 拡張性: Tauriアプリケーションとして構築されており(Rustバックエンド、Reactフロントエンド)、簡単にフォーク可能です。
- システム統合: macOS上のRaycastと統合されており、リモートコントロール用のCLIフラグをサポートしています。
Sources
- undefinedcjpais/Handy