oxylabs-ai-studio-py:一個使用自然語言提示的 AI 驅動網頁資料擷取與代理式瀏覽的 Python SDK

oxylabs-ai-studio-py:一個使用自然語言提示的 AI 驅動網頁資料擷取與代理式瀏覽的 Python SDK

它解決了什麼問題

此 SDK 為開發者提供了一種簡化的方式,將 AI 驅動的網頁資料擷取與瀏覽功能整合到 Python 應用程式中。它免除手動處理複雜的爬蟲邏輯、代理管理與 JavaScript 渲染的需求,同時允許使用者透過自然語言提示從網路上擷取結構化資料。

工作原理

SDK 作為 Oxylabs AI Studio API 的封裝,提供針對不同資料擷取任務的專屬類別:

  • AiCrawler:使用自然語言提示在整個網站的多個頁面中尋找並擷取資料。
  • AiScraper:從單一頁面擷取特定資料,並能產生 JSON Schema 以取得結構化輸出。
  • AiSearch:執行 AI 增強的網路搜尋,並以 Markdown 格式返回內容。
  • BrowserAgent:一個代理式瀏覽器,可與網站互動(例如使用搜尋欄)根據使用者提示找尋特定資訊。
  • AiMap:將網域映射,根據關鍵字或自然語言提示辨識特定類型的 URL。

目標對象

需要大規模收集網路結構化資料、自動化網頁瀏覽任務,並將 AI 驅動的搜尋與內容發掘整合到軟體中的開發者。

重點特色

  • 自然語言擷取:使用提示引導 AI 找到並擷取特定資料點。
  • 結構化輸出:支援多種格式,包括 JSON、CSV 與 Markdown,並可為 JSON 輸出生成 Schema。
  • 代理式瀏覽:內建 Browser Agent,能在頁面上執行操作以達成目標。
  • 全球代理支援:內建地理位置目標功能,繞過區域限制。
  • 非同步支援:每個方法皆提供對應的非同步版本,適用於高效能應用程式。

Sources