据ProofNews调查并与Wired联合发表,超过170,000个YouTube视频是用于训练一些大型科技公司AI系统的海量数据集的一部分。Apple、Anthropic、Nvidia和Salesforce等科技公司未经许可就使用了从视频平台窃取的“YouTube字幕”数据。训练数据集是从属于48,000多个频道的YouTube视频中提取的字幕集合——它不包括视频中的图像。
数据集中包括MrBeast和MarquesBrownlee等热门创作者的视频,以及ABCNews、BBC和纽约时报等新闻媒体的片段。数据集中包括来自TheVerge的100多个视频,以及来自Vox的许多其他视频。
“苹果从多家公司获取了AI数据,”布朗利(其昵称MKBHD)在X上的一篇帖子中写道。“其中一家公司从YouTube视频中抓取了大量数据/文字记录,包括我的视频。”他补充道:“这将是一个长期存在的问题。”
作为调查的一部分,ProofNews还发布了一个交互式查找工具。您可以使用其搜索功能查看您的内容(或您最喜欢的YouTuber的内容)是否出现在数据集中。
字幕数据集是非营利组织EleutherAI的大型资料库ThePile的一部分,这是一个开源集合,还包含书籍、维基百科文章等数据集。去年,对一个名为Books3的数据集的分析揭示了哪些作者的作品曾被用于训练人工智能系统,作者在针对使用它来训练人工智能的公司提起的诉讼中引用了该数据集。
人工智能公司很少愿意公开其人工智能系统中的数据;YouTube内容的具体用途一直是近几个月来的一个关键问题。今年3月,当OpenAI推出其强大的视频生成工具Sora时,首席技术官MiraMurati多次回避有关该系统是否接受过YouTube视频训练的问题。
她当时对《华尔街日报》表示:“我不会透露所用数据的细节,但这些数据是公开的或经过授权的数据。”当《华尔街日报》询问有关YouTube内容的具体情况时,穆拉蒂表示她“对此并不确定”。
在之前的采访中,YouTube首席执行官尼尔·莫汉(NealMohan)曾表示,使用视频内容(包括转录)来训练AI会违反该平台的条款。5月份,在《Decoder》节目的一集中,谷歌首席执行官SundarPichai同意莫汉的评估,即如果OpenAI确实用YouTube内容训练了Sora,那么它就会违反YouTube的条款。
皮查伊说:“我们有条款和条件,我们希望人们在制造产品时遵守这些条款和条件,这就是我的感受。”