人工智能训练数据的价格只有大型科技公司才能负担得起

数据是当今先进的人工智能系统的核心,但其成本却越来越高——除了最富有的科技公司之外,其他公司都无法承受。

去年,OpenAI 研究员 James Betker在他的个人博客上发表了一篇关于生成式 AI 模型的性质及其训练数据集的文章。在这篇文章中,Betker 声称训练数据(而不是模型的设计、架构或任何其他特征)是日益复杂、功能强大的 AI 系统的关键。

Betker 写道:“在同一数据集上训练足够长的时间后,几乎每个模型都会收敛到同一点。”

Betker 说得对吗?训练数据是否是模型功能的最大决定因素,无论是回答问题、画人手还是生成逼真的城市景观?

这当然是有道理的。

统计机器

生成式人工智能系统基本上是概率模型——一大堆统计数据。它们根据大量示例猜测哪些数据放在哪里最“合理”(例如,在“我去市场”这句话中,“去”这个词放在“去市场”之前)。因此,直观来看,模型需要的示例越多,在这些示例上训练的模型的性能就越好。

非营利性人工智能研究机构艾伦人工智能研究所 (AI2) 的高级应用研究科学家 Kyle Lo 告诉 TechCrunch:“看起来性能提升确实来自数据,至少在你拥有稳定的训练设置之后是这样。”

罗举了 Meta 的 Llama 3 的例子,这是今年早些时候发布的一个文本生成模型,尽管架构非常相似,但其性能却优于 AI2 自己的 OLMo 模型。Llama 3 的训练数据比 OLMo 多得多,罗认为这解释了它在许多流行的 AI 基准测试中的优势。

(我在这里要指出的是,当今人工智能行业广泛使用的基准不一定是衡量模型性能的最佳标准,但除了像我们自己的定性测试之外,它们是我们必须遵循的少数衡量标准之一。)

这并不是说在指数级增长的数据集上进行训练就能让模型的质量成倍提高。Lo 指出,模型的运行遵循“垃圾进,垃圾出”的模式,因此数据管理和质量非常重要,也许比单纯的数量更重要。

“精心设计数据的小型模型可能会优于大型模型,”他补充道。“例如,大型模型 Falcon 180B 在 LMSYS 基准测试中排名第 63 位,而小型模型 Llama 2 13B 排名第 56 位。”

去年 10 月,OpenAI 研究员 Gabriel Goh 在接受 TechCrunch 采访时表示,与前代DALL-E 2相比,更高质量的注释极大地提高了 OpenAI 的文本转图像模型DALL-E 3的图像质量。“我认为这是改进的主要来源,”他说。“文本注释比以前 [使用 DALL-E 2] 好得多——甚至无法比较。”

许多 AI 模型(包括 DALL-E 3 和 DALL-E 2)都是通过让人类注释者标记数据来训练的,这样模型就可以学会将这些标签与该数据的其他观察到的特征联系起来。例如,一个模型被输入了大量带有每个品种注释的猫图片,最终会“学会”将短尾猫和短毛猫等术语与它们独特的视觉特征联系起来。

不良行为

像 Lo 这样的专家担心,对大型、高质量训练数据集的日益重视将导致人工智能开发集中到少数拥有数十亿美元预算、有能力购买这些数据集的参与者身上。合成数据或基础架构方面的重大创新可能会打破现状,但两者似乎都不是近期的趋势。

“总体而言,管理可能对 AI 开发有用的内容的实体有动力锁定他们的材料,”Lo 说。“随着数据访问权的关闭,我们基本上是在支持一些先行者获取数据,并拉高梯子,这样其他人就无法获得数据来赶超。”

事实上,争夺更多训练数据的竞争并没有导致诸如秘密聚合受版权保护的内容等不道德的(甚至是非法的)行为,但它却让财力雄厚的科技巨头们获得了在数据许可上投入大量资金的回报。

OpenAI 等生成式 AI 模型主要基于图像、文本、音频、视频和其他数据(其中一些受版权保护)进行训练,这些数据来源于公共网页(包括有问题的AI 生成的网页)。世界上的 OpenAI 声称合理使用可以保护他们免受法律报复。许多权利持有者不同意这一观点,但至少目前,他们无法阻止这种做法。

生成式人工智能供应商通过可疑手段获取大量数据集以训练其模型的例子不胜枚举。据报道, OpenAI未经 YouTube 或创作者同意,转录了超过一百万小时的 YouTube 视频,并将其输入其旗舰模型GPT-4。谷歌最近扩大了其服务条款,部分原因是能够利用公开的谷歌文档、谷歌地图上的餐厅评论和其他在线资料为其人工智能产品提供服务。据说 Meta 曾考虑冒着被起诉的风险,在受知识产权保护的内容上训练其模型。

与此同时,大大小小的公司都依赖 第三世界国家的工人来为训练集创建注释,每小时的工资只有几美元。其中一些注释员受雇于Scale AI 等大型初创公司,他们连续几天工作,完成的任务让他们接触到暴力和血腥的画面,却没有任何福利或未来工作的保障。

种植成本

换句话说,即使是更为公开的数据交易也未必能培育出一个开放、公平的生成式人工智能生态系统。

OpenAI 已花费数亿美元从新闻出版商、库存媒体库等处获得内容许可,以训练其 AI 模型——这一预算远远超出了大多数学术研究团体、非营利组织和初创公司的预算。Meta 甚至考虑收购出版商 Simon & Schuster,以获得电子书摘录的版权(最终,Simon & Schuster 于 2023 年以 16.2 亿美元的价格卖给了私募股权公司 KKR)。

预计人工智能训练数据市场规模将在十年内从现在的约 25 亿美元增长至近 300 亿美元,数据经纪商和平台纷纷收取高价,在某些情况下甚至不顾用户群的反对。

素材库 Shutterstock 已与 AI 供应商签署了价值 2500 万美元至 5000 万美元的协议,而 Reddit声称已通过将数据授权给 Google 和 OpenAI 等组织赚取了数亿美元。似乎很少有多年来有机积累了丰富数据的平台没有与生成式 AI 开发商签署协议——从 Photobucket 到 Tumblr 再到问答网站 Stack Overflow。

平台的数据可以出售——至少取决于你相信哪种法律论点。但在大多数情况下,用户一分钱也赚不到。而且它正在损害更广泛的人工智能研究界。

“规模较小的公司将无法负担这些数据许可证,因此无法开发或研究人工智能模型,”罗说。“我担心这可能会导致对人工智能开发实践缺乏独立审查。”

独立努力

如果黑暗中有一线阳光,那就是少数独立的、非营利性的努力,它们创建了海量数据集,任何人都可以使用这些数据集来训练生成式人工智能模型。

EleutherAI 是一个草根非营利研究组织,最初于 2020 年以松散的 Discord 集体形式成立,目前正与多伦多大学、AI2 和独立研究人员合作创建 The Pile v2,这是一组数十亿段主要来自公共领域的文本段落。

今年 4 月,人工智能初创公司 Hugging Face 发布了 FineWeb,这是 Common Crawl 的过滤版本。Common Crawl 是由非营利组织 Common Crawl 维护的同名数据集,由数十亿个网页组成。Hugging Face 声称它在许多基准测试中提高了模型性能。

一些发布开放训练数据集的努力,如 LAION 小组的图像集,遇到了版权、数据隐私和其他同样严重的道德和法律挑战。但一些更专注的数据管理员承诺会做得更好。例如,Pile v2 删除了其前身数据集 The Pile 中发现的有问题的版权材料。

问题是,这些开放式努力能否与科技巨头保持同步。只要数据收集和管理仍是资源问题,答案很可能是否定的——至少在某些研究突破让竞争环境变得公平之前是这样。

本站全部资讯来源于实验室原创、合作机构投稿及网友汇集投稿,仅代表个人观点,不作为任何依据,转载联系作者并注明出处:https://www.lvsky.net/393.html

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论