当无色绿色 DNN 在无法解释的幻想中疯狂沉睡时

@@7$4IS25@E3ZIDU%DH`1NQ.png

  

  围绕深度学习和人工智能 (AI) 的误导性炒作似乎并没有消退。事实上,随着大型语言模型 (LLM) 及其产品(如 GPT-4、Sora、Copilot、Llama 3 等)的出现,许多人开始提高赌注,因为我们开始听到诸如“AGI(通用人工智能)即将到来”或“孩子们应该停止学习编码,因为人工智能编程已经到来”之类的宣言。在这种模糊的氛围中,表明 LLM 的“理论”局限性(或者,就此而言,整个深度神经网络架构的局限性)的基础研究被完全忽略。这些模型中的典型问题,例如无法解释、幻觉、错误推理、复杂问题解决和非平凡规划任务的彻底失败、类比推理失败等,都被抱歉地抛在一边。这种状况是不健康的,不仅因为我们欺骗了一代年轻的科学家和工程师,而且因为这条道路阻碍了在黑箱之外取得进展,一旦纸牌屋倒塌,这反过来只会导致失望,而这种情况可能会引发另一个非常寒冷和严重的人工智能寒冬。

  我将在此讨论 (i) 一些误导性的说法;以及 (ii) 一些关于深度神经网络 (DNN)“理论上”局限性的结果——这些结果被顽固地抛在一边或完全忽略。我希望,就像我在关于这个主题的其他几篇文章和博客中写的那样,能够让讨论变得理智,并开始认真思考其他可能有助于产生可解释、可靠且可扩展的人工智能的替代方案。

  无色绿色幻想#1:

  忘记计算理论吧,人工智能很快就会取代程序员。

  一段时间以来,媒体上不断出现一种完全不科学的说法,即人工智能很快就会取代计算机程序员。事实上,高层人士一直在说这样的话:年轻人不应该再学习计算机编程了,因为“人工智能就是未来的程序员”。这些说法完全是错误的,并不是因为目前的技术水平,而是因为这种说法永远不可能是真的!自动发现新问题的正式(即明确的)解决方案永远不可能自动化。任何对计算理论稍有了解的人都知道(或应该知道)这一点。

  假设某个人工智能想出了一个算法 A 来解决特定问题 P。为了确保 A 能够解决 P,人工智能必须执行 A 来测试其功能。据推测,这是由测试程序 T1 完成的。在对 A 执行 T1 时,人工智能本质上是在试图解决停机问题[1],因为测试可能永远不会终止,并且人工智能永远不会知道测试程序 T1 是否终止或它正在测试的原始程序 A 是否终止。如果人工智能不关心计算理论和数理逻辑,它可以尝试构建另一个程序 T2 来测试 T1 是否运行良好。那么,如果 T2 没有终止会怎样?非终止可能发生在原始程序 A 中,测试程序 T1 中,或者正在测试 T1 的新测试程序 T2 中。

  图 1.程序测试程序的无限回归,无限地测试程序。

  我们是否应该继续这种无限回归,并设计 T3 来测试 T2?显然,自动编程会导致停机问题,这是涉及“自我参照”的悖论的一个实例——这些问题总是导致无限回归(参见[2])。

  总而言之,我们永远无法自动化计算机程序的构建(或测试)。逻辑如此,计算理论亦然。好吗,CEO 先生?

  人工智能可以实现我们长期以来对计算机辅助软件工程 (CASE) 的梦想,帮助程序员自动生成我们经常反复编写的繁琐代码。这是可以实现的,现代工具通过“巧妙地”将记忆中的和在类似上下文中发现的代码片段拼接在一起,实现了许多这样的功能。这种自动化非常有用,可以提高生产率,但任何关于完全自动化人类直觉(图灵的神谕!)以提出复杂问题的新解决方案的说法都是幻想,计算机科学警察局 (CSPD) 应该对任何此类说法发出传票。

  无色绿色幻想#2

  我们在可解释人工智能(XAI)方面取得了进展。

  首先,我仅将此类说法归类为“幻想”,仅针对完全基于神经网络(深度或其他)亚符号架构的人工智能。此类模型无法解释,我不确定这为什么难以理解。F (x1, x2, xn) 如何/为何产生某些输出 y 的可解释性是在进行反向推理——它是关于回溯并根据原始输入x1, x2, ..., xn解释计算的每一步。在符号系统中,这是通过维护计算的“语义图”来实现的,通常使用某种符号结构,例如抽象语法树或计算图。换句话说,可解释性需要神经网络中不存在的“结构化语义”[3]——我们早就知道这些模型无法表示或建模符号结构[4]。我尝试在之前的文章中解释这一点(总结在图 2A 中),但最近我收到评论说我的视觉解释(图 2B)更能有效地阐明这一点。

  如果这两种论据都不能说服你,纯分布式亚符号架构是无法解释的,那么我可能也无法说服你地球不是平的。当然,有些人远非地平说论者,他们承认分布式亚符号架构是无法解释的,比如人工智能界的杰出人物 Yann LeCun,但他们对这个问题的解决方案是忽略问题,或者不予理会,声称可解释性之类的东西“没有必要”,甚至声称“有时,要求可解释性是适得其反的”(要求可解释性来解释系统拒绝申请人的原因,或者要求可解释性来解释系统发射核导弹的原因,是没有成效的?)无论如何,忽略问题的论点仍然比否认问题更明智,因为所有关于在纯分布式亚符号系统(例如 DNN)的可解释性方面取得进展的挥手肯定是纯粹的幻想。

  图 2.两个例子说明了为什么在分布式子符号系统(例如 DNN)中无法实现可解释性。

  幻想#3

  LLM 是迈向 AGI 的第一步。

  在过去一年左右的时间里,我读过的最有趣的论文之一是《深度 CNN 能否避免内容构成中的无限回归/循环?》[4]虽然标题提到了 CNN(卷积神经网络),但论文中的论点适用于所有 DNN。该论文清楚地表明(并且在许多方面重申了几十年前的先前结果,最著名的是 Fodor 和他的同事),分布式亚符号系统中的概念定义不明确,因为它们是由“相似性”决定的,而没有同一性的相似性会导致无限回归。这一结果与研究非常相关,该研究也证实了分布式亚符号模型本质上是非符号的。[3]在这两种情况下,研究都重申了这样一个事实,即 DNN 无法执行需要存储、引用和量化符号对象的推理。但如果是这样的话,那么许多作为任何 AGI 先决条件的任务甚至超出了最先进的大型语言模型 (LLM)。这些任务之一是规划,这是任何自主代理/机器人的基本任务。在[5]中,据报道,即使是最先进的 LLM 表现也很差,即使制定随机计划也会得分更高。任何能够访问大型语言模型的人都可以在几分钟内证实这一点。我们进行了几次这样的测试,包括简单的规划任务,如图 3 所示。

  图 3.所有 LLM 都无法解决的两个简单规划任务。

  尽管小孩子可以非常轻松地解决图 3 中的问题(尽管不可否认,他们可能无法制定“最佳”计划),但所测试的最高级 LLM 不仅未能达到目标状态,而且所建议的计划也不符合任何合理的策略——该计划几乎是一组随机(杂乱无章)的步骤。对于熟悉对象身份的“理论”重要性以及在解决此类问题时需要能够存储和引用符号变量的人来说,这并不奇怪。如上所述,分布式亚符号系统本质上是非符号的,它们缺乏任何对象身份的概念,因此在解决需要规划的任务时不能依赖它们。鉴于这些事实,当所有这些讨论都仅仅由下一个标记预测引发时,听到有人谈论 AGI 即将到来真是令人惊讶!

  AGI 的定义是与人类智力水平相当或超过人类智力的智能。这不仅需要掌握规划和日常问题解决技能,这些任务甚至连最先进的 LLM 都无法尝试解决,而且这种级别的智能需要解决人工智能中长期存在且尚未解决的问题,例如框架问题,更不用说倒置复杂性悖论了。这里的底线是:虽然大规模语言逆向工程(LLM 就是如此)中数据驱动的自下而上的策略在文本生成方面取得了令人印象深刻的表现,但由此推断 AGI 即将到来也是一种幻想,这也需要计算机科学警察局 (CSPD) 立即关注。

  幻想#4

  法学硕士 (LLM) 理解语言。

  我已经论证过,LLM 不会成为下一代人工智能程序员,而且如果它们完全建立在分布式亚符号架构中,它们将无法解释,也无法执行需要规划和解决问题技能的简单任务。现在,我将消除一些与 LLM 及其所谓的自然语言理解成功有关的误解。与流行的(“民间”)看法相反,LLM 并不真正理解语言,原因与它们在一般问题解决和规划方面失败的原因相同,也是它们无法解释的原因。

  虽然大多数 LLM 考试都涉及文本生成任务(例如,总结、问答、内容检索),但对 LLM 语言能力的真正测试应该反过来进行。从设计上讲,LLM 非常适合作为文本生成器,但要测试他们的“理解能力”,你应该提供文本(而不是要求提供文本)并询问他们对给定文本的理解。一种简单的方法是给 LLM 一些文本(几句话或一小段话),并要求 LLM 显示该文本中隐含的所有实体和关系。下面显示了一个简单的示例:

  你

  使用正式且明确的表示形式(例如,使用 RDF 或 Prolog 符号)向我显示下面文本中隐含的实体和关系。

  我当时在巴塞罗那,这座城市正在庆祝他们战胜皇家马德里,同时也准备进行独立投票。

  ChatGPT

  人(自身)。

  城市(巴塞罗那1)。

  事件(celebration_win1)。

  事件(preparation_vote1)。

  在城市(自身,巴塞罗那1)。

  获胜(巴塞罗那 1,皇家马德里 1)。

  庆祝(巴塞罗那1,庆祝_胜利1)。

  准备(巴塞罗那1,准备投票1)。

  虽然法学硕士能够抓住唾手可得的果实,认识到“巴塞罗那”是一个城市,胜利和投票是事件,但对文本的更深入理解,尽管很小,却还远远不够。首先,巴塞罗那这座城市——即地理位置,显然是赢得皇家马德里(而不是巴塞罗那足球俱乐部)的原因,而巴塞罗那地理位置也是庆祝和准备投票的原因。法学硕士无法应对的事实(正是因为它们不处理对象身份和符号引用)是,在语言中,我们经常使用单个实体来同时指代多种语义类型(这种现象被称为“共同谓词” [6])。如果你要求法学硕士向你展示“在我知道他们解雇了我最喜欢的专栏作家后,我扔掉了我正在阅读的报纸”中隐含的实体和关系,也会发生同样的情况。同样,最先进的法学硕士将确定解雇专栏作家的是同一个物理对象报纸(有人扔掉的),而不是同一引用隐含的另一个实体。我不想过多地关注这些表明语言理解能力(缺乏)的测试,我还想强调一点,法学硕士也可以接受基本语言理解能力的测试,而且结果远没有令人印象深刻。

  结束语

  虽然人工智能已经取得了很大进展,但我们距离通用人工智能还差得很远。即使是法学硕士的主要强项,即语言,也远未成定局。在人工智能的几乎所有领域,所有迹象都表明我们需要融入新技术和新技术,而且几乎所有报告的理论限制都指向一个方向:如果不融入符号知识和符号推理,就不可能有可靠、可解释、可预测和推理的人工智能。

  不管你对符号式还是亚符号式(或混合式、模块化和新兴范式)持何种立场,目前任何关于 AGI 的讨论都是幻想。现有的人工智能还不能完成 4 岁儿童的第二天性任务,包括许多需要语言理解的任务。

  如果我们不进行自我监管,如果期刊、会议和媒体等受人尊敬的场所不进行自我监管,我们作为一个社区是否应该认真考虑创建某种计算机科学警察局(CSPD)?

  参考

  [1] 停机问题,斯坦福哲学百科全书

  [2] Andrea Cantini,2004 年,《20 世纪的悖论、自指和真理》,《逻辑史手册》第 6 卷,Dov M. Gabbay 和 John Woods(编辑),爱思唯尔出版社。

  [3] Kieran Browne 和 Ben Swift,2020 年。《语义与解释:为什么反事实解释会在深度神经网络中产生对抗性示例》,可在线访问https://arxiv.org/abs/2012.10076

  [4] Tim van Gelder,1990。《为什么分布式表示本质上是非符号的》,载于 Dorffner(编辑),《人工智能和认知研究中的 Konnektionismus》,Springer-Verlag Berlin Heidelberg。

  [5] Karthik Valmeekam、Matthew Marquez、Sarath Sreedharan、Subbarao Kambhampati。2023 年。《大型语言模型的规划能力——一项批判性调查》,《神经信息处理系统进展》第 36 期(NeurIPS 2023)

  [6] Nicholas Asher 和 James Pustejovsky。2005 年。词义和常识形而上学。见:类型选择和局部语境语义学课程材料,ESSLLI 2005。

  


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论