Anthropic的爬虫忽略了网站的反人工智能抓取政策

时间：2024-07-26 10:19:20 来源：编辑：

Anthropic使用ClaudeBot网络爬虫来为Claude等AI模型抓取训练数据，该爬虫在24小时内对iFixit网站进行了近一百万次攻击，似乎在此过程中违反了该维修公司的使用条款。

“如果任何这些请求触及我们的服务条款，他们会告诉你，我们的内容是明令禁止的。但不要问我，问克劳德吧!”iFixit首席执行官凯尔·维恩斯(KyleWiens)在X上表示，并发布了Anthropic聊天机器人承认iFixit的内容是禁止的。“你不仅在不付费的情况下获取我们的内容，而且还占用了我们的开发运营资源。如果你想就授权我们的内容用于商业用途进行讨论，我们就在这里。”

“爬取速度太快了，触发了我们的警报，并让我们的开发团队开始行动，”维恩斯告诉TheVerge。“iFixit的流量很大。作为互联网的顶级网站之一，我们对网络爬虫和机器人非常熟悉。我们可以很好地处理这种负载，但这是一个异常。”

iFixit的使用条款政策规定，未经公司事先明确书面许可，“严禁复制、复印或分发”网站上的任何内容，具体包括“训练机器学习或人工智能模型”。然而，当404Media就此事向Anthropic提出质询时，这家人工智能公司链接回了一个常见问题解答页面，称其爬虫只能通过robots.txt文件扩展名来阻止。

Wiens表示，iFixit此后已将抓取延迟扩展添加到其robots.txt中。“根据我们的日志，在我们将其添加到robots.txt后，它们确实停止了，”Wiens说。

Anthropic发言人JenniferMartinez告诉TheVerge：“我们尊重robots.txt，当iFixit实施它时，我们的爬虫程序也尊重该信号。”

iFixit似乎并不是唯一一家这么做的公司，ReadtheDocs联合创始人EricHolscher和Freelancer.com首席执行官MattBarrie在Wiens的帖子中表示，他们的网站也遭到了Anthropic爬虫的猛烈抓取。这似乎也不是ClaudeBot的新行为，几个月前的Reddit帖子就报道了Anthropic的网络抓取量急剧增加。今年4月，LinuxMint网络论坛将网站中断归咎于ClaudeBot的抓取活动造成的压力。

通过robots.txt文件禁止爬虫也是许多其他AI公司(如OpenAI)的首选退出方法，但它没有为网站所有者提供任何灵活性来表示哪些内容是允许的，哪些是不允许的。另一家AI公司Perplexity则完全忽略了robots.txt排除。尽管如此，它仍然是公司将其数据排除在AI培训材料之外的少数几种选择之一，Reddit在最近打击网络爬虫时就采用了这种方法。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

上一篇:英特尔准备为Linux部署LunarLake优化自适应锐化滤波器

下一篇:Fitbit最新更新为多种型号带来YouTube音乐控制和改进的心率跟踪功能