近日,Proof News的一项新调查发现,全球一些最大的科技公司在未经许可的情况下,使用了包含超过173,000个YouTube视频转录文本的数据集来训练其AI模型。这个数据集由非营利组织EleutherAI创建,包含来自超过48,000个频道的YouTube视频转录文本,包括苹果、NVIDIA和Anthropic等公司都使用了该数据集。这项调查揭示了AI技术的一个不为人知的事实:大部分AI技术是建立在未经过创作者同意或补偿的数据基础上的。
该数据集不包括任何来自YouTube的视频或图像,但包含了该平台上一些最大创作者的视频转录文本,例如Marques Brownlee和MrBeast,以及大型新闻出版商如《纽约时报》、BBC和ABC新闻。Engadget的视频字幕也在数据集中。
Marques Brownlee在X平台上发布称,“苹果从多家公司获取了他们的AI数据,其中之一从YouTube视频中抓取了大量数据/转录文本,包括我的视频。”他补充道:“这将会是一个长期存在的问题。”
Google的一位发言人告诉Engadget,YouTube CEO Neal Mohan之前的评论仍然有效,即使用YouTube数据来训练AI模型将违反平台的服务条款。苹果、NVIDIA、Anthropic和EleutherAI都没有回应Engadget的评论请求。
到目前为止,AI公司对于用于训练其模型的数据一直不够透明。本月早些时候,艺术家和摄影师批评苹果没有透露用于训练其Apple Intelligence的训练数据来源,这是一种即将推出的生成式AI技术,将应用于数百万苹果设备。
YouTube是世界上最大的视频存储库,不仅包含转录文本,还包含音频、视频和图像,使其成为训练AI模型的宝贵数据集。今年早些时候,OpenAI的首席技术官Mira Murati在接受《华尔街日报》采访时,回避了关于公司是否使用YouTube视频来训练其即将推出的AI视频生成工具Sora的问题。Murati当时表示:“我不会详细说明所使用的数据,但它是公开可用的或有许可的数据。”Alphabet CEO Sundar Pichai也曾表示,使用YouTube数据来训练AI模型的公司将违反平台的服务条款。
如果你想查看你或你喜欢的频道的YouTube视频字幕是否包含在数据集中,可以访问Proof News的查询工具。
文章来源于互联网:苹果、NVIDIA和Anthropic涉嫌未经许可使用YouTube转录文本训练AI模型