涉17万个***！英伟达等巨头被曝违规使用YouTube数据训练模型

tamoadmin 2024年07月17日 16:23 0

　　科技巨头被曝使用未经授权的YouTube内容训练AI（人工智能）模型。

　　当地时间7月16日，据外媒报道，包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司，被曝在训练AI模型时使用了来自谷歌旗下***网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集，其中包含从YouTube上抓取的大量***字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。

　　报道指出，这些科技公司在训练AI模型时都使用了一个名为“YouTube Su***itles（YouTube字幕）”的数据集，大小为5.7GB，包含4.89亿个单词，来自Youtube上超过4.8万个频道中的17.35万个***。该数据集由***字幕的纯文本组成，包括***博主上传的部分和Youtube自动转录的文本，除了英语外，通常还附带日语、德语和***语等语言的翻译。

（图片来源网络，侵删）

　　非营利性组织EleutherAI是争议数据集的创作者，公司尚未对此事作出回应。根据***介绍，EleutherAI的目标是“降低AI开发的门槛，通过训练和发布模型，让大家接触到尖端的AI技术”。此前，EleutherAI发布了名为“Pile”的数据汇编，其中的大部分数据集都是对公众开放的，包括YouTube Su***itles。

　　资料显示，在苹果于今年4月发布端侧小模型OpenELM模型的几周之前，公司就使用了Pile进行训练。不过，值得注意的是，苹果自己并没有下载这些数据。因此，从技术层面来说，是EleutherAI违反了YouTube的使用条款。

　　AI初创公司Anthropic的一位发言人证实，Pile数据集已被用于训练公司的生成式AI助手Claude，而YouTube的相关条款仅涉及“直接使用其平台”，建议与Pile的原作者讨论任何违反YouTube服务条款的行为。苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。

　　此次***影响到的创作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主，以及《***》、英国广播公司（BBC）和美国ABC News等大型新闻出版商。另外，数据集中的一些材料宣传了“地平说”等阴谋论，甚至还包含了已被删除的***的内容。现在，Pile已从官方下载网站上下架，但仍可通过文件共享服务访问。

　　对此，知名科技博主Marques Brownlee在X（原推特）平台上表示：“苹果从几家公司获取了他们AI所需的数据，其中一家从YouTube***中抓取了大量数据/转录文本，包括我的***。从技术上来说苹果没有‘犯错’，他们没有主动抓取数据。但这将是一个长期存在的问题。”

　　虽然苹果和其他公司或许是使用了公开的数据集，并没有违规行为，但此次***让人们又一次关注到AI训练背后的数据问题。今年年初，YouTube的母公司谷歌被曝利用该平台的***来训练旗下模型，谷歌当时回应称，这种行为没有违反平台与创作者的协议。

　　今年3月，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在接受***访时还曾对文生***模型Sora的训练数据来源含糊其词。4月，YouTube首席执行官尼尔·莫汉（Neal Mohan）在***访中表示，他并没有直接证据能够证明OpenAI确实使用了YouTube的***来完善其文生***AI工具Sora，如果真的使用了，那就“明显违反”了YouTube平台的使用条款。

本文地址：https://www.ioojwtt.com/post/58604.html

标签： #YouTube