腾讯团队搞了个新测试,发现最强AI也只能考23分

腾讯团队搞了个新测试,发现最强AI也只能考23分

腾讯混元团队推出 CL-bench 测试,发现即使是 GPT-5.1 也只能解决 23.7% 的上下文学习任务,揭示了 AI 在「现学现用」方面的巨大短板。

2026-02-13 · 6 分钟 · 2463 字 · 乔木