Cloudflare 发现 Bytespider 位居 AI 爬虫榜首

  尽管这些爬虫活动猖獗,但许多网站运营商并未意识到这些爬虫的存在,排名前一百万的网站中,只有 2.98% 会主动阻止或挑战 AI 机器人请求。

1720773737179.jpg

  Cloudflare 透露,过去一年中最活跃的人工智能网络爬虫是字节跳动运营的 Bytespider,该公司利用该爬虫为其人工智能模型收集训练数据,包括 ChatGPT 竞争对手豆包。为 Alexa 编制内容索引的 Amazonbot 和训练 Claude 聊天机器人的 ClaudeBot 分别位居第二和第三。OpenAI 的 GPTBot 位居第四。

  有趣的是,虽然 Bytespider 在请求数和拦截频率方面领先,但GPTBot在这两个方面都排名第二。尽管如此,许多网站运营商仍然不知道这些流行的 AI 爬虫访问了他们的网站。

  Cloudflare的分析显示,只有一小部分网站(前一百万个网站中的约 2.98%)采取措施阻止或挑战AI 机器人请求。尽管更受欢迎的网站更频繁地成为此类爬虫的目标,也更有可能阻止此类爬虫。

  该研究还强调,尽管许多网站在其 robots.txt 文件中引用了 GPTBot、CCBot 和 Google,但它们并没有明确禁止 Bytespider 和 ClaudeBot 等流行的 AI 爬虫。阻止的有效性取决于机器人操作员是否遵守这些说明。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论