为什么大型语言模型（LLM）的临界值和突发行为是假的？_人工智能

%YO]QA~V2P}DEI{%KMY38F5.png

　　为什么大型语言模型中没有突发属性。

　　去年我们听到了很多关于大型语言模型 (LLM) 的涌现特性的消息。我将与你们分享我和其他一些科学家的想法，说明为什么没有涌现特性，尤其是为什么这些所谓的涌现特性所基于的假设临界值并不重要。

　　关于涌现特性的兴奋始于 [1] 的一篇论文，其中作者表明，将 LLM 扩展到特定大小之外（他们声称这是至关重要的）时，系统会出现意想不到的行为。意想不到之处在于，它没有被认为是可以像“做”算术那样完成的。为了支持他们的说法，作者提供的图表显示，LLM 在准确度方面的性能急剧上升。他们演示中的问题如下：他们使用对数图表，其中 x 轴表示权重（即正在使用的 LLM 的神经网络的超参数），并以相等的单位分为 10^1、10^2、10^3……10^10、10^11。图表上的急剧上升发生在 10^10 和 10^11 之间。但是，10^10 和 10^11 之间的这个单位偏移实际上是将 100 亿乘以 10，这意味着增加（即偏移）了 900 亿！这种表示应该以线性比例进行，以避免对系统行为变化率产生任何误解。如果我们以线性比例绘制 [1] 中的相同图形，变化率将几乎保持不变 [2]。因此，系统将按照预期正常演变，而 10^10 不会成为关键和令人担忧的边界。此外，将系统扩大 900 亿个权重意味着需要比将参数从 1,000 个增加到 10,000 个（即增加 9K）或从 10,000 个增加到 100,000 个（即增加 90K）时更多的数据来支持它，与添加 900 亿个参数相比，这不需要在其训练库中提供那么多数据。例如，当 LLM 的训练数据大量增加时，它能够假装对两个数字进行加法（被认为是突发行为），并给出加法结果，因为它已经看到了类似的加法运算，和/或包含加法运算及其结果的句子。一个反例是给它非常大的复杂数字（例如，126541478975317 + 97631257998631），那么它不会给出正确的结果，因为即使它的训练数据存储库很大，这些数字也不太可能存在；这是因为这些数字变得非常独特，尽管语料库很大，但它们的相遇极其罕见甚至不可能。

　　人们很容易认为，在不久的将来，两个大数相加的问题将在 LLM 中得到解决，例如，通过词汇捕捉两个数字的出现，将它们传输到执行基本逻辑运算的“认知”代理软件模块（该模块与 LLM 相连），并将运算结果传回 LLM。然而，这将被称为“实施行为”而不是“突发行为”。

　　最后但并非最不重要的一点是，我补充了 [3, 4] 中的以下评论来支持我的论点。在超过 1,000 次的一系列实验中，[3] 中的作者没有发现 LLM 具有涌现推理能力的证据，[4] 中的作者声称用于评估 LLM 的指标是涌现假设问题的根源。

　　最后，关于基于人工智能的编程（突发行为），我并不是说，如果我们让人工智能系统不断分析和生成新程序，它有一天不会编写出一段精彩的代码，因为与无限猴子定理略微讽刺的是，有一天它会的。

　　参考

　　1-Wei, J.、Tay, Y.、Bommasani, R.、Raffel, C.、Zoph, B.、Borgeaud, S.、… & Fedus, W. (2022)。大型语言模型的新兴能力。arXiv预印本 arXiv:2206.07682。

　　2-Carter，D. (2023)。法学硕士中没有“新兴能力”。更好的编程 https://betterprogramming.pub/there-are-no-emergent-abilities-in-llms-2bb42e17ce7e（2024 年 1 月 23 日检索）

　　3-Lu, S.、Bigoulaeva, I.、Sachdeva, R.、Madabushi, HT 和 Gurevych, I. (2023)。大型语言模型中的新兴能力仅仅是情境学习吗？arXiv预印本 arXiv:2309.01809。

　　4-Schaeffer, R.、Miranda, B. 和 Koyejo, S. (2023)。大型语言模型的新兴能力是海市蜃楼吗？arXiv预印本 arXiv:2304.15004。

　　Mario Antoine Aoun是 ACM 专业会员，自 2006 年起担任ACM 计算评论的审稿人。他拥有超过 25 年的计算机编程经验，拥有魁北克大学蒙特利尔分校的认知信息学博士学位。他的主要研究兴趣是基于混沌理论和脉冲神经元的记忆建模。

为什么大型语言模型（LLM）的临界值和突发行为是假的？

版权声明

相关推荐

评论