
Opus 4.6 vs Codex 5.3:我们正式进入了"跑分没用"的时代
Opus 4.6 和 Codex 5.3 同日发布,但这次没人再看跑分了。AI编码助手的竞争已经从"谁更强"转向"谁更好用",我们正式进入了系统体验比模型能力更重要的新时代。

Opus 4.6 和 Codex 5.3 同日发布,但这次没人再看跑分了。AI编码助手的竞争已经从"谁更强"转向"谁更好用",我们正式进入了系统体验比模型能力更重要的新时代。

腾讯混元团队推出 CL-bench 测试,发现即使是 GPT-5.1 也只能解决 23.7% 的上下文学习任务,揭示了 AI 在「现学现用」方面的巨大短板。