苹果、NVIDIA和Anthropic涉嫌未经许可使用YouTube转录文本训练AI模型

tekbb • 2024年 7月 18日 pm10:22 • AI • 阅读 705

近日，Proof News的一项新调查发现，全球一些最大的科技公司在未经许可的情况下，使用了包含超过173,000个YouTube视频转录文本的数据集来训练其AI模型。这个数据集由非营利组织EleutherAI创建，包含来自超过48,000个频道的YouTube视频转录文本，包括苹果、NVIDIA和Anthropic等公司都使用了该数据集。这项调查揭示了AI技术的一个不为人知的事实：大部分AI技术是建立在未经过创作者同意或补偿的数据基础上的。

该数据集不包括任何来自YouTube的视频或图像，但包含了该平台上一些最大创作者的视频转录文本，例如Marques Brownlee和MrBeast，以及大型新闻出版商如《纽约时报》、BBC和ABC新闻。Engadget的视频字幕也在数据集中。

Marques Brownlee在X平台上发布称，“苹果从多家公司获取了他们的AI数据，其中之一从YouTube视频中抓取了大量数据/转录文本，包括我的视频。”他补充道：“这将会是一个长期存在的问题。”

Apple has sourced data for their AI from several companies

One of them scraped tons of data/transcripts from YouTube videos, including mine

Apple technically avoids “fault” here because they’re not the ones scraping

But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) July 16, 2024

Google的一位发言人告诉Engadget，YouTube CEO Neal Mohan之前的评论仍然有效，即使用YouTube数据来训练AI模型将违反平台的服务条款。苹果、NVIDIA、Anthropic和EleutherAI都没有回应Engadget的评论请求。

到目前为止，AI公司对于用于训练其模型的数据一直不够透明。本月早些时候，艺术家和摄影师批评苹果没有透露用于训练其Apple Intelligence的训练数据来源，这是一种即将推出的生成式AI技术，将应用于数百万苹果设备。

YouTube是世界上最大的视频存储库，不仅包含转录文本，还包含音频、视频和图像，使其成为训练AI模型的宝贵数据集。今年早些时候，OpenAI的首席技术官Mira Murati在接受《华尔街日报》采访时，回避了关于公司是否使用YouTube视频来训练其即将推出的AI视频生成工具Sora的问题。Murati当时表示：“我不会详细说明所使用的数据，但它是公开可用的或有许可的数据。”Alphabet CEO Sundar Pichai也曾表示，使用YouTube数据来训练AI模型的公司将违反平台的服务条款。

如果你想查看你或你喜欢的频道的YouTube视频字幕是否包含在数据集中，可以访问Proof News的查询工具。

文章来源于互联网:苹果、NVIDIA和Anthropic涉嫌未经许可使用YouTube转录文本训练AI模型