认知心理学测试表明,人工智能是非理性的,只是方式与人类不同

伦敦大学学院研究人员的一项新研究发现,ChatGPT 等流行生成式 AI 平台背后的大型语言模型在被要求回答相同的推理测试时给出了不同的答案,而在提供额外背景信息时也没有改善。

这项研究发表在《皇家学会开放科学》上,使用认知心理学测试来测试最先进的大型语言模型 (LLM),以衡量它们的推理能力。研究结果强调了在委托这些人工智能任务(尤其是涉及决策的任务)之前了解它们如何“思考”的重要性。

近年来,支持 ChatGPT 等生成式 AI 应用的 LLM 变得越来越复杂。它们能够生成逼真的文本、图像、音频和视频,这引发了人们对其窃取工作机会、影响选举和犯罪行为的担忧。

然而,这些人工智能也被证明会经常捏造信息、做出不一致的反应,甚至会计算出错误的简单数学答案。

在这项研究中,伦敦大学学院的研究人员系统地分析了七位法学硕士是否具有理性推理能力。作者采用了理性智能体(无论是人类还是人工智能)的常见定义,即它是否根据逻辑和概率规则进行推理。非理性智能体是不根据这些规则进行推理的智能体。

法学硕士们接受了 12 项认知心理学常见测试,以评估推理能力,包括 Wason 任务、Linda 问题和 Monty Hall 问题。人类解决这些任务的能力很低;在最近的研究中,只有 14% 的参与者正确回答了 Linda 问题,16% 的参与者正确回答了 Wason 任务。

模特们的回答中有很多不合理之处,比如对同一个问题问了 10 次,给出的答案却大相径庭。模特们很容易犯一些简单的错误,包括基本的加法错误和将辅音误认为元音,这导致他们给出错误的答案。

例如,Wason 任务的正确答案范围从 GPT-4 的 90% 到 GPT-3.5 和 Google Bard 的 0%。Llama 2 70b 的正确答案率为 10%,它把字母 K 误认为元音,因此回答错误。

尽管大多数人也无法正确回答 Wason任务,但这不太可能是因为他们不知道元音是什么。

这项研究的第一作者、伦敦大学学院计算机科学系的奥利维亚·麦克米伦-斯科特 (Olivia Macmillan-Scott) 表示:“根据我们的研究结果以及其他对大型语言模型的研究,可以肯定地说,这些模型还没有像人类一样‘思考’。话虽如此,拥有最大数据集的模型 GPT-4 的表现比其他模型好得多,这表明它们正在迅速改进。然而,很难说这个特定的模型是如何推理的,因为它是一个封闭的系统。我怀疑还有其他工具在使用,而这些工具是你在它的前身 GPT-3.5 中找不到的。”

有些模型出于道德原因拒绝回答这些任务,尽管这些问题是无害的。这可能是由于保护参数未按预期运行所致。

本站全部资讯来源于实验室原创、合作机构投稿及网友汇集投稿,仅代表个人观点,不作为任何依据,转载联系作者并注明出处:https://www.lvsky.net/477.html

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论