科技专家寻求迄今为止最严峻的人工智能测试_人工智能

新考试旨在挑战先进的人工智能。

一群技术专家发起了一场全球性的“人类最后一场考试”活动，旨在通过提出最困难的问题来将人工智能系统推向极限。人工智能安全中心 (CAIS) 和 Scale AI 正在领导一项计划，以确定人工智能何时达到专家级能力。目前的基准测试对于许多人工智能模型来说已经变得太容易了，因此这项努力旨在创建一项强调抽象推理的新考试，而抽象推理是人工智能仍然面临挑战的领域。组织者希望这项新考试能够随着人工智能技术的发展而保持相关性。

OpenAI 发布其最新模型OpenAI o1后，对更严格测试的需求随之而来。该模型在传统推理基准测试中表现出色。CAIS 执行董事 Dan Hendricks 表示，像 Anthropic 的 Claude 模型这样的人工智能系统已经显著提高了标准测试，使得这些基准测试的价值降低。然而，人工智能在规划和视觉模式识别等更复杂的任务上却举步维艰，这凸显了更高级评估的必要性。

考试将包括 1,000 多个众包问题，即使对于非专家来说也颇具挑战性。考试的目的是通过保留一些问题来防止人工智能简单地记住答案。参与者必须在 11 月 1 日之前提交问题，最佳贡献者将获得奖励。虽然考试旨在全面测试人工智能，但有关武器的问题将被排除在外，以避免潜在风险。

科技专家寻求迄今为止最严峻的人工智能测试

版权声明

相关推荐

评论