郑工长

全球最难 AI 考试,为什么顶流模型都挂了?3 个真相

发布于 2026年3月29日 | 分类: AI随心分享

全球最难 AI 考试,为什么顶流模型都挂了?3 个真相

人类轻松 100 分,Claude Opus 4.6 只有 0.2 分。一家名不见经传的小公司,凭什么拿到 36 分?

2026 年 3 月 25 日,AI 圈迎来了一颗重磅炸弹。

ARC-AGI-3 测试成绩公布:人类玩家轻松完成 100% 任务,Claude Opus 4.6 得分 0.2%,GPT 5.4 得分 0.3%。而一家叫 Symbolica 的小公司,凭借 Agentica SDK 框架,一举拿下 36%。

180 倍的差距。

这不是简单的分数差距,而是暴露了当前 AI 最深层的问题——我们引以为傲的大语言模型,在真正的智能面前,可能只是个"高级复读机"。

一、ARC-AGI-3 到底在考什么?

先搞清楚这个"全球最难 AI 考试"是什么。

ARC-AGI(抽象与推理语料库)的核心理念就八个字:人类容易,AI 困难

前两个版本(ARC-AGI-1 和 2)考的是静态谜题:给你几个输入输出示例,比如网格图案变换,让 AI 推断规律并应用到新输入。每个任务只给 2-6 个示例,没有训练数据可以背。

ARC-AGI-3 彻底变了。

它把测试从"做卷子"变成了"玩游戏"。AI 被丢进一个完全陌生的交互式环境,没有说明书,没有提示词,必须自己:

  • 探索 —— 这个环境有什么规则?
  • 推断 —— 我的目标是什么?
  • 建模 —— 环境的内部机制是什么?
  • 学习 —— 行动中实时调整策略

简单说,就是像人类一样现场学习、现场适应

举个例子:你走进一个从没玩过的密室逃脱,没有攻略,只能靠观察、试错、归纳来逃出去。这就是 ARC-AGI-3 的测试场景。

而传统大模型的训练逻辑是:背下几十万道类似的密室题目,考试时靠模式匹配找最接近的答案。

一个是现场开卷,一个是背题库。高下立判。

二、为什么 Opus 4.6 只拿了 0.2%?

Claude Opus 4.6 是什么水平?

Anthropic 的旗舰模型,编程能力顶尖,推理能力顶尖,代理任务能力顶尖。在几乎所有公开 benchmark 上都是第一梯队。

但在 ARC-AGI-3 面前,它是个"学霸型学渣"。

问题出在哪?五个字:没有训练数据

大语言模型的本质是什么?模式压缩 + 概率预测。GPT-4、Claude、Gemini,都是靠吃掉互联网上的万亿级文本,学习"下一个词该说什么"。

这种模式有两个致命弱点:

第一,无法真正抽象。

ARC-AGI-3 的每个任务都是全新的、唯一的。AI 必须从零开始理解规则,而不是从记忆库里找相似案例。

就像你问一个背了 10 年英语题库的学生:"用你从没见过的语法结构造句。"他当场傻眼。

第二,不会实时学习。

大模型是"预训练"的,权重固定。你问它问题,它基于训练时的知识回答。但在 ARC-AGI-3 里,环境每分每秒都在变,AI 必须边玩边学、边学边改。

这相当于要求一个已经毕业十年的医生,现场学会一种全新的手术技术,然后立刻上台主刀。

Opus 4.6 再强,也是"毕业十年的医生"。它没法现场学习。

三、Symbolica 的 36% 是怎么做到的?

既然大模型都不行,Symbolica 凭什么行?

先看这家公司的背景:

  • 创始人 George Morgan,前特斯拉高级自动驾驶工程师
  • 核心团队来自特斯拉、Neuralink、ClearML
  • 顾问 Stephen Wolfram —— WolframAlpha 和 Mathematica 的创造者

这不是一支普通的创业团队,这是一群相信"符号推理"的叛逆者。

Symbolica 的技术路线,和大模型完全相反:

大模型:深度学习 + 海量数据 + 概率预测
Symbolica:范畴论 + 类型论 + 符号推理

简单说,大模型是靠"统计规律"猜答案,Symbolica 是靠"逻辑推导"算答案。

他们的 Agentica SDK 做了两件事:

第一,构建符号推理引擎。

不是让 AI 背模式,而是让 AI 建立形式化的逻辑表示。遇到新环境,先推理规则结构,再推导行动策略。

第二,实时学习与规划。

框架内置了探索-建模-规划-执行的闭环。AI 进入环境后,会主动试探、收集信息、更新内部模型、调整行动计划。

这才是真正的"智能体"——有目标、能探索、会学习、可调整

36% 的分数意味着什么?意味着 Symbolica 的框架让 Claude Opus 4.6 的能力放大了 180 倍。

不是模型本身变强了,是用模型的方式对了。

四、这对 AI 发展意味着什么?

ARC-AGI-3 的成绩,给整个行业敲响了警钟。

过去两年,我们被大模型的"能力爆炸"冲昏了头脑。GPT-4 能写代码、Claude 能搞科研、Gemini 能做多模态……似乎 AGI 就在眼前。

但 ARC-AGI-3 告诉我们:现在的 AI,连"现场学一款新游戏"都做不到。

真正的智能是什么?

  • 不是背下全人类的文字,然后模仿输出
  • 是进入陌生环境,快速理解规则,高效达成目标
  • 是像孩子一样,用极少样本就能学会新东西
  • 是像人类一样,边做边学、边错边改

这些能力,大模型本质上是缺失的

Symbolica 的崛起,说明了一条被忽视的路径:符号推理 + 神经网络的混合架构

这不是要否定深度学习,而是说——纯深度学习可能不是通往 AGI 的唯一道路,甚至可能不是最优道路。

五、给开发者的启示

如果你正在用 AI 做开发,ARC-AGI-3 的成绩有几点启示:

1. 别迷信模型参数

Opus 4.6 的参数规模、训练数据量,肯定远超 Symbolica 的框架。但框架设计对了,小团队也能碾压大厂。

2. 关注架构设计

未来的竞争,不是"谁有更多 GPU",而是"谁有更好的架构"。Agent 框架、推理引擎、学习机制,这些才是护城河。

3. 混合路线可能是答案

纯深度学习有瓶颈,纯符号 AI 也有局限。神经网络 + 符号推理的结合,可能是突破的方向。

结语

ARC-AGI-3 的测试结果,像一盆冷水浇在 AI 圈的头上。

但也正是这盆冷水,让我们看清了现实:

现在的 AI 很强大,但远非真正智能。

Symbolica 的 36%,不是终点,而是起点。它证明了另一条路的存在——一条不依赖海量数据、不依赖暴力训练、更接近人类认知方式的路。

AGI 还没有到来。但 Symbolica 告诉我们,它可能比我们想象的更近,也可能比我们想象的更不同。


参考来源:

  • ARC Prize Foundation 官方技术报告
  • Symbolica AI 官方博客
  • VentureBeat 对 Symbolica 的专访
  • ARC-AGI-3 技术白皮书