oxylabs-ai-studio-py:一个用于通过自然语言提示进行 AI 驱动网页数据提取和代理浏览的 Python SDK

oxylabs-ai-studio-py:一个用于通过自然语言提示进行 AI 驱动网页数据提取和代理浏览的 Python SDK

它解决了什么问题

此 SDK 为开发者提供了一种简化的方式,将 AI 驱动的网页数据提取和浏览功能集成到他们的 Python 应用中。它消除了手动处理复杂爬取逻辑、代理管理和 JavaScript 渲染的需求,同时允许用户使用自然语言提示从网页中提取结构化数据。

工作原理

SDK 充当 Oxylabs AI Studio API 的包装器,为不同的数据提取任务提供专用类:

  • AiCrawler:使用自然语言提示在整个网站的多个页面中查找并提取数据。
  • AiScraper:从单个页面提取特定数据,并能够生成用于结构化输出的 JSON 模式。
  • AiSearch:执行 AI 增强的网页搜索,并以 markdown 格式检索内容。
  • BrowserAgent:一个代理浏览器,可与网站交互(例如使用搜索栏),根据用户提示查找特定信息。
  • AiMap:将域映射为基于关键字或自然语言提示识别特定类型 URL 的工具。

适用人群

需要大规模收集网页结构化数据、自动化网页浏览任务,并将 AI 驱动的搜索与网页内容发现集成到软件中的开发者。

亮点

  • 自然语言提取:使用提示引导 AI 查找并提取特定数据点。
  • 结构化输出:支持包括 JSON、CSV 和 Markdown 在内的多种格式,并为 JSON 输出生成模式。
  • 代理浏览:包含一个能够在页面上执行操作以实现目标的 Browser Agent。
  • 全局代理支持:内置地理位置定位支持,以绕过地区限制。
  • 异步支持:每个方法都有对应的异步版本,适用于高性能应用。

Sources