为什么大型语言模型(LLM)的临界值和突发行为是假的?

%YO]QA~V2P}DEI{%KMY38F5.png

  为什么大型语言模型中没有突发属性。

  去年我们听到了很多关于大型语言模型 (LLM) 的涌现特性的消息。我将与你们分享我和其他一些科学家的想法,说明为什么没有涌现特性,尤其是为什么这些所谓的涌现特性所基于的假设临界值并不重要。

  关于涌现特性的兴奋始于 [1] 的一篇论文,其中作者表明,将 LLM 扩展到特定大小之外(他们声称这是至关重要的)时,系统会出现意想不到的行为。意想不到之处在于,它没有被认为是可以像“做”算术那样完成的。为了支持他们的说法,作者提供的图表显示,LLM 在准确度方面的性能急剧上升。他们演示中的问题如下:他们使用对数图表,其中 x 轴表示权重(即正在使用的 LLM 的神经网络的超参数),并以相等的单位分为 10^1、10^2、10^3……10^10、10^11。图表上的急剧上升发生在 10^10 和 10^11 之间。但是,10^10 和 10^11 之间的这个单位偏移实际上是将 100 亿乘以 10,这意味着增加(即偏移)了 900 亿!这种表示应该以线性比例进行,以避免对系统行为变化率产生任何误解。如果我们以线性比例绘制 [1] 中的相同图形,变化率将几乎保持不变 [2]。因此,系统将按照预期正常演变,而 10^10 不会成为关键和令人担忧的边界。此外,将系统扩大 900 亿个权重意味着需要比将参数从 1,000 个增加到 10,000 个(即增加 9K)或从 10,000 个增加到 100,000 个(即增加 90K)时更多的数据来支持它,与添加 900 亿个参数相比,这不需要在其训练库中提供那么多数据。例如,当 LLM 的训练数据大量增加时,它能够假装对两个数字进行加法(被认为是突发行为),并给出加法结果,因为它已经看到了类似的加法运算,和/或包含加法运算及其结果的句子。一个反例是给它非常大的复杂数字(例如,126541478975317 + 97631257998631),那么它不会给出正确的结果,因为即使它的训练数据存储库很大,这些数字也不太可能存在;这是因为这些数字变得非常独特,尽管语料库很大,但它们的相遇极其罕见甚至不可能。

  人们很容易认为,在不久的将来,两个大数相加的问题将在 LLM 中得到解决,例如,通过词汇捕捉两个数字的出现,将它们传输到执行基本逻辑运算的“认知”代理软件模块(该模块与 LLM 相连),并将运算结果传回 LLM。然而,这将被称为“实施行为”而不是“突发行为”。

  最后但并非最不重要的一点是,我补充了 [3, 4] 中的以下评论来支持我的论点。在超过 1,000 次的一系列实验中,[3] 中的作者没有发现 LLM 具有涌现推理能力的证据,[4] 中的作者声称用于评估 LLM 的指标是涌现假设问题的根源。

  最后,关于基于人工智能的编程(突发行为),我并不是说,如果我们让人工智能系统不断分析和生成新程序,它有一天不会编写出一段精彩的代码,因为与无限猴子定理略微讽刺的是,有一天它会的。

  参考

  1-Wei, J.、Tay, Y.、Bommasani, R.、Raffel, C.、Zoph, B.、Borgeaud, S.、… & Fedus, W. (2022)。大型语言模型的新兴能力。arXiv预印本 arXiv:2206.07682。

  2-Carter,D. (2023)。法学硕士中没有“新兴能力”。 更好的编程 https://betterprogramming.pub/there-are-no-emergent-abilities-in-llms-2bb42e17ce7e(2024 年 1 月 23 日检索)

  3-Lu, S.、Bigoulaeva, I.、Sachdeva, R.、Madabushi, HT 和 Gurevych, I. (2023)。大型语言模型中的新兴能力仅仅是情境学习吗?arXiv预印本 arXiv:2309.01809。

  4-Schaeffer, R.、Miranda, B. 和 Koyejo, S. (2023)。大型语言模型的新兴能力是海市蜃楼吗?arXiv预印本 arXiv:2304.15004。

  Mario Antoine Aoun是 ACM 专业会员,自 2006 年起担任ACM 计算评论的审稿人。他拥有超过 25 年的计算机编程经验,拥有魁北克大学蒙特利尔分校的认知信息学博士学位。他的主要研究兴趣是基于混沌理论和脉冲神经元的记忆建模。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论