openbrowser: Playwright を使用して自然言語タスクを実行する TypeScript 用自律ウェブブラウジングフレームワーク

openbrowser: Playwright を使用して自然言語タスクを実行する TypeScript 用自律ウェブブラウジングフレームワーク

解決する課題

Open Browser は、AI エージェントがウェブと自律的にやり取りできる方法を提供します。各ウェブサイトごとに手動でスクリプトを書く代わりに、ユーザーは自然言語でタスクを記述すれば、エージェントがナビゲーション、クリック、入力、データ抽出など、タスク完了に必要な操作をすべて処理します。

仕組み

このフレームワークは、AI エージェントが現在のページ状態とユーザーの目標を大規模言語モデル(LLM)に送信するループを使用します。LLM は、ボタンのクリックやフィールドへの入力など、必要なアクションを決定し、それらを Playwright のブラウザインスタンスを通じて実行します。エージェントはタスクが完了するまで、観察とアクションのサイクルを繰り返します。

対象ユーザー

自律的なウェブブラウジング機能をアプリケーションに組み込みたい TypeScript 開発者や、CLI を使って手動コーディングなしでウェブタスクを自動化したい方を対象としています。

ハイライト

  • マルチモデルサポート: Vercel AI SDK を介して OpenAI、Anthropic、Google のモデルに対応。
  • インタラクティブ REPL: リアルタイムデバッグやプロトタイピング用のライブブラウザプロンプトを搭載。
  • サンドボックス実行: リソース制限(CPU/メモリ)とドメイン制限を提供し、エージェントの安全な実行を実現。
  • 本番環境向け機能: ストール検出、コスト追跡、セッション管理、リプレイ録画を含む。

Sources