Anthropic使用ClaudeBot网络爬虫来为Claude等AI模型抓取训练数据,该爬虫在24小时内对iFixit网站进行了近一百万次攻击,似乎在此过程中违反了该维修公司的使用条款。
“如果任何这些请求触及我们的服务条款,他们会告诉你,我们的内容是明令禁止的。但不要问我,问克劳德吧!”iFixit首席执行官凯尔·维恩斯(KyleWiens)在X上表示,并发布了Anthropic聊天机器人承认iFixit的内容是禁止的。“你不仅在不付费的情况下获取我们的内容,而且还占用了我们的开发运营资源。如果你想就授权我们的内容用于商业用途进行讨论,我们就在这里。”
“爬取速度太快了,触发了我们的警报,并让我们的开发团队开始行动,”维恩斯告诉TheVerge。“iFixit的流量很大。作为互联网的顶级网站之一,我们对网络爬虫和机器人非常熟悉。我们可以很好地处理这种负载,但这是一个异常。”
iFixit的使用条款政策规定,未经公司事先明确书面许可,“严禁复制、复印或分发”网站上的任何内容,具体包括“训练机器学习或人工智能模型”。然而,当404Media就此事向Anthropic提出质询时,这家人工智能公司链接回了一个常见问题解答页面,称其爬虫只能通过robots.txt文件扩展名来阻止。
Wiens表示,iFixit此后已将抓取延迟扩展添加到其robots.txt中。“根据我们的日志,在我们将其添加到robots.txt后,它们确实停止了,”Wiens说。
Anthropic发言人JenniferMartinez告诉TheVerge:“我们尊重robots.txt,当iFixit实施它时,我们的爬虫程序也尊重该信号。”
iFixit似乎并不是唯一一家这么做的公司,ReadtheDocs联合创始人EricHolscher和Freelancer.com首席执行官MattBarrie在Wiens的帖子中表示,他们的网站也遭到了Anthropic爬虫的猛烈抓取。这似乎也不是ClaudeBot的新行为,几个月前的Reddit帖子就报道了Anthropic的网络抓取量急剧增加。今年4月,LinuxMint网络论坛将网站中断归咎于ClaudeBot的抓取活动造成的压力。
通过robots.txt文件禁止爬虫也是许多其他AI公司(如OpenAI)的首选退出方法,但它没有为网站所有者提供任何灵活性来表示哪些内容是允许的,哪些是不允许的。另一家AI公司Perplexity则完全忽略了robots.txt排除。尽管如此,它仍然是公司将其数据排除在AI培训材料之外的少数几种选择之一,Reddit在最近打击网络爬虫时就采用了这种方法。