最近有报道称,新闻聚合器和社区网站Reddit计划阻止人工智能初创公司从其网站上抓取数据。如果该公司继续这样做,谷歌和必应使用的新闻爬虫可能最终会受到影响。
这些报道源自《华盛顿邮报》的一篇报道,声称Reddit可能会取消使用谷歌凭据登录该网站的功能,并阻止这家科技巨头的网络爬虫抓取该网站。这篇新闻文章提到了Reddit最近在与谷歌等人工智能公司达成协议,为他们从网站上获取的数据付费方面遇到的困难。
Reddit后来否认了这一点,尽管不是全部,只是明确谴责了报告中的Google登录部分。这就剩下第二部分,即阻止网络爬虫,需要解释。
数据抓取发生了什么?
最近,人工智能初创公司及其聊天机器人的训练方式已成为Reddit、X等新闻网站争议的话题。这导致一些新闻机构不得不通过API阻止和限制来阻止这些尝试。X首席执行官埃隆·马斯克(ElonMusk)曾批评人工智能初创公司窃取其平台数据,并将这一问题归咎于他最近在该网站上实施的API更改。
几个月前,Reddit也出现了类似的问题,迫使该公司效仿X的做法,屏蔽API,这一举动引发了大量争议,并促使许多子Reddit永久关闭。然而,现在的问题似乎是搜索爬虫的问题,它们继续免费抓取网站。
人工智能初创公司传统上依赖公开的网络数据来训练他们的聊天机器人和其他人工智能模型。这使他们能够避免创建自己的数据集的昂贵且耗时的过程。然而,新闻机构和其他内容创作者越来越多地对这种做法表示失望,他们认为人工智能初创公司正在从他们的工作中获利,而不需要付费。
然而,阻止搜索引擎爬虫访问其网站将意味着Reddit内容将不再出现在Google和Bing搜索结果中。这对Reddit来说将是一个重大挫折,因为搜索引擎是该网站的主要流量来源。
不过,Reddit似乎并不担心这一点,据报道,一位匿名消息人士是Reddit的代表,他表示“Reddit可以在没有搜索的情况下生存”。随着人工智能变得更加强大和广泛,对训练人工智能模型的数据的需求只会增加,因此希望搜索巨头和新闻网站能够尽快就此达成协议和解决。