ai-crawler-py: 自然言語プロンプトと自動スキーマを使って構造化データを抽出するローコード AI ウェブクローラー

ai-crawler-py: 自然言語プロンプトと自動スキーマを使って構造化データを抽出するローコード AI ウェブクローラー

解決する課題

静的な CSS や XPath セレクタを用いたカスタムウェブスクレイパーの構築・保守が不要になります。ウェブサイト上の特定データを取得するために複雑なスクリプトを書く代わりに、ユーザーは必要な情報を英語で記述するだけで、ツールがその情報の検出と抽出を自動で行います。

仕組み

ユーザーは開始 URL と、取得したいコンテンツを説明する自然言語プロンプトを提供します。AI エージェントがドメインをインテリジェントに探索し、関連ページを特定してデータを抽出します。出力は Markdown または構造化 JSON として提供でき、後者の場合はユーザーが OpenAPI スキーマを提供するか、プロンプトから AI に生成させて、データがアプリケーションの要件に合致するようにします。

対象ユーザー

手動でスクレイパーを開発する時間をかけずに、分析や自動化パイプライン向けにウェブデータを取得したい開発者やデータサイエンティスト向けに設計されています。

ハイライト

  • 自然言語コントロール: プレーンな英語のプロンプトでクローラーエージェントを指示し、データ要件を定義できます。
  • AI 主導の発見: ユーザーのプロンプトに最も合致するページを自動的に特定・優先順位付けします。
  • 柔軟な出力: Markdown と構造化 JSON の両フォーマットに対応しています。
  • 自動スキーマ生成: 自然言語の記述からパース用スキーマを自動的に作成できます。
  • 技術的汎用性: 静的ページと JavaScript レンダリングページの両方に対応し、オプションでジオロケーションターゲティングも可能です。

Sources