Opus 4.6 vs Codex 5.3：我们正式进入了"跑分没用"的时代

2月5号，OpenAI 和 Anthropic 同一天发布了各自的新模型，GPT-5.3-Codex 和 Claude Opus 4.6。

这事本身就挺有意思的。两家掐着同一天发，说明大家都知道对手要出牌了。

但更有意思的是，这次发布之后，整个AI圈的讨论方式变了。

没人再激动地转发跑分截图了。没人再说"XX模型全面碾压"了。大家讨论的都是：用起来到底怎么样？

这个转变，值得好好聊聊。

先说结论：Opus 更好用，Codex 更能打

Nathan Lambert（Interconnects AI 的作者，长期跟踪前沿模型的独立观察者）这几天两个模型都在高强度使用，他的体感是这样的：

Claude Opus 4.6 赢在"省心"。

你跟它说"清理一下这个分支，然后推个PR"，它能理解上下文，把事情办妥。换成 Codex 5.3 做同样的事，你得像带新人一样，把每一步都交代清楚，不然它可能跳过文件，或者把东西放到奇怪的地方。

Codex 5.3 赢在"天花板"。

在复杂的代码理解和bug修复上，Codex 确实更强一点。Nathan 身边很多AI圈的朋友都对 Codex 赞不绝口，觉得它在高难度场景下就是能多走一步。

但这里有个关键问题：大多数人的日常使用，根本触碰不到那个天花板。

Codex 5.3 最大的变化：它终于不像"OpenAI的模型"了

这句话听起来像骂人，其实是夸。

之前的 Codex 版本，包括5.2，有个让人抓狂的问题，连创建一个新的 git 分支这种基础操作都经常搞砸。你能想象吗？一个编码助手，连最基本的版本管理都做不好。

Codex 5.3 最大的进步不是跑分提高了多少，而是它终于在"产品市场契合度"上追上来了。

Nathan 用了一个很精准的说法：Codex 5.3 feels much more Claude-like。反馈更快，任务覆盖面更广，从 git 操作到数据分析都能接住。

换句话说，OpenAI 终于意识到，光是模型能力强还不够，用户要的是"交给你一件事，你能靠谱地办完"，不是"你在某个benchmark上多拿了两分"。

但两个模型都有同一个毛病

Nathan 提到一个很实际的问题：不管是 Opus 4.6 还是 Codex 5.3，当你一次给它们布置好几件事的时候，它们都会"选择性失聪"，漏掉其中一些指令。

它们在处理范围明确、边界清晰的单个任务时表现最好。

这其实暗示了一个更深层的东西：当前的AI编码助手，本质上还是"执行者"，不是"项目经理"。你不能把一堆事情甩给它然后去喝咖啡，你得像一个好的技术主管一样，把任务拆解好，一个一个喂给它。

会不会管理AI，正在变成一种新的核心能力。

真正重要的话题：跑分时代结束了

这才是这篇文章最值得关注的部分。

回想2023到2025年，每次新模型发布，大家第一件事就是看跑分。GPT-4 出来看跑分，Gemini 出来看跑分，o3 出来还是看跑分。那时候跑分确实有用，因为模型之间的差距大到肉眼可见，跑分高的模型用起来确实更好。

但现在不一样了。

Nathan 说他这次几乎没看评估分数。他注意到 Opus 4.6 的搜索得分高一点，Codex 5.3 每个回答用的token少一点，但这些数字完全无法告诉他"哪个模型更好用"。

为什么？因为模型之间的差异已经从"能不能做到"变成了"做得顺不顺手"。

这就像评价两个厨师，你不能光看谁切菜更快，你得看谁做出来的菜更好吃，谁的厨房更干净，谁更能理解你说"少放点盐"到底是什么意思。

Gemini 3 的教训：跑分之王，两个月就过气了

这个例子太经典了，值得单独拿出来说。

2025年11月，Google 发布 Gemini 3 Pro，整个行业都在欢呼"Google 回来了"。纽约时报的记者都在问"Google 是不是要重夺王座了？"

结果呢？两个月后，在编码智能体这个最关键的战场上，Gemini 几乎没有存在感。

跑分上的领先，没有转化成产品上的优势。用户在实际使用中选择了 Claude 和 Codex，Gemini 3 成了一个"假王者"。

这个故事告诉我们什么？在智能体时代，跑分领先和产品领先之间的关系，比我们想象的要弱得多。

Anthropic 做对了什么？

回头看，Anthropic 的战略眼光确实值得佩服。

2025年5月 Claude 4 发布的时候，Nathan 自己都承认他当时不太看好 Anthropic 押注编码的策略。那时候 OpenAI 和 Google 在比谁的模型能拿 IMO 金牌，谁的跑分更高，场面非常热闹。

Anthropic 选择了一条看起来不那么"炫"的路：专注做好智能体体验。

他们可能不是唯一看到智能体趋势的公司，但他们是第一个把整个公司的优先级调整过来的。不追跑分，不搞噱头，就是把"用起来顺手"这件事做到极致。

到了今天，Claude Code 成了编码智能体领域的标杆。如果要给一个没什么编程经验的人推荐AI编码工具，Nathan 说他毫不犹豫会推荐 Claude。

在智能体刚刚开始普及的窗口期，用户基数就是最大的护城河。 更多用户意味着更多使用数据，更多数据意味着更快的迭代，这是一个正向飞轮。

下一个战场：子智能体和"智能体团队"

文章最后提到了一个正在浮现的新方向：子智能体。

简单说，就是一个主智能体可以派出多个"分身"，同时处理问题的不同部分，最后再把结果汇总。

评论区有个人做了个实验特别有意思：他让4个 Opus 4.6 智能体独立完成同一个任务，完全不协调，然后让第5个智能体综合结果。最终的综合输出比任何单个智能体的结果都好，而且4个智能体各自发展出了完全不同的解题思路。

这种"涌现行为"是任何跑分都测不出来的。

Claude 在子智能体功能上目前领先一点，但 OpenAI 有个独特优势：GPT-Pro 系列。当任务变得更复杂、更长期的时候，能在单个问题上调用更多算力，会成为关键的差异化因素。

所以，2026年我们该怎么选模型？

说实话，没有标准答案。

没有一个简单的表格能告诉你"做XX用这个模型，做YY用那个模型"。你需要同时使用多个模型，根据任务特点灵活切换，并且持续跟进每个模型的变化。

这听起来很麻烦，但换个角度想，这恰恰说明AI工具已经成熟到了一个新阶段。

就像你不会只用一把刀做所有的菜，你也不应该只依赖一个AI模型。真正的能力不是"选对模型"，而是"知道什么时候用哪个模型，以及怎么用好它"。

评论区有个人说了一句我觉得特别到位的话：

一年之内，我们可能就不再比较"模型"了。真正有意义的比较会变成：模型 + 编排层 + 工具访问权限。模型本身的能力正在变成基本门槛。

我觉得他说得对。我们正在从"哪个模型更强"的时代，进入"谁的系统更好用"的时代。

这个转变，对每一个使用AI工具的人来说，都值得认真想想。

先说结论：Opus 更好用，Codex 更能打#

Codex 5.3 最大的变化：它终于不像"OpenAI的模型"了#

但两个模型都有同一个毛病#

真正重要的话题：跑分时代结束了#

Gemini 3 的教训：跑分之王，两个月就过气了#

Anthropic 做对了什么？#

下一个战场：子智能体和"智能体团队"#

所以，2026年我们该怎么选模型？#