Claude Sonnet 4.6 发布：Sonnet 终于摸到了 Opus 的天花板

Anthropic 这次的野心

2026 年 2 月 17 日，Anthropic 发布了 Claude Sonnet 4.6。

一句话总结：这是目前最强的 Sonnet 模型，在编程、长上下文推理、Agent 规划、计算机操作等核心能力上全面升级。

关键是，价格没变，还是 $3/$15 每百万 token。

免费用户和 Pro 用户打开 claude.ai，默认用的就是它。

这意味着什么？Anthropic 把曾经只有 Opus 才有的能力，直接下放到了 Sonnet。普通用户不用多花一分钱，就能用上接近旗舰级的智能。

跑分说了什么

Sonnet 4.6 在多个核心基准测试上逼近甚至追平了 Opus。

SWE-bench Verified（软件工程能力）拿到了 80.2%，这个分数放在去年，是顶级模型才能达到的水平。

ARC-AGI-2（抽象推理）达到 60.4%，需要高强度思考才能完成的任务。

在 Claude Code 中，用户 70% 的情况下更喜欢 Sonnet 4.6，而不是上一代 Sonnet 4.5。

更有意思的是，跟去年底的 Opus 4.5 比，用户也有 59% 的时候更偏好 Sonnet 4.6。一个 Sonnet 级别的模型，居然在用户体验上反超了上一代 Opus。

为什么？因为它更少过度工程化，更少偷懒，更少幻觉，更少虚假的"成功"声明。简单说，它更靠谱了。

编程能力：不只是跑分好看

编程是这次升级最明显的方向。

用户反馈说，Sonnet 4.6 在修改代码之前，会更认真地阅读上下文，不再上来就改。它还会主动合并重复逻辑，而不是到处复制粘贴。

这种改变听起来不大，但用过 AI 编程助手的人都知道，这恰恰是最让人抓狂的问题。模型不看上下文就乱改，或者同一段逻辑在三个地方各写一遍，后期维护简直是噩梦。

来自合作伙伴的反馈也很说明问题：

GitHub 的 Joe Binder 说它"在复杂代码修复上表现优秀，解决率很高"。Cursor 的 Michael Truell 说"在困难问题上有明显改进"。Cognition 的 Scott Wu 说它"在 Bug 检测上大幅缩小了与 Opus 的差距"。

Replit 的 Michele Catasta 直接说：“性价比非常惊人”。

计算机操作：像人一样用电脑

这是一个容易被忽略但极其重要的方向。

很多企业的软件没有 API，不能通过代码自动化。Claude Sonnet 4.6 的解决方案很直接：像人一样操作电脑，用鼠标点击、用键盘打字。

Anthropic 从 2024 年 10 月首次推出计算机操作功能以来，已经迭代了 16 个月。他们用 OSWorld 基准测试来衡量进步，这个测试要求 AI 操作真实软件：Chrome、LibreOffice、VS Code 等等。

现在的表现怎么样？在导航复杂电子表格、填写多步骤网页表单这些任务上，已经接近人类水平。

当然，跟最熟练的人类操作者比还有差距，但进步速度确实惊人。

安全方面也没落下。针对提示注入攻击的防护能力，已经提升到了和 Opus 4.6 同等水平。

百万 token 上下文窗口

Sonnet 4.6 支持 100 万 token 的上下文窗口（Beta 阶段）。

这意味着你可以把整个代码库，或者几十篇研究论文，一次性塞进去。而且关键是，它能在这么大的上下文中有效推理，不是简单地"看到"信息，而是真正理解和关联。

这对长时间的 Agent 任务特别重要。在 Vending-Bench Arena 测试中，Sonnet 4.6 展现了令人印象深刻的长期策略能力：它在模拟的前十个月大力投资产能建设，然后果断转向盈利。这种战略思维不是随便堆参数就能出来的。

设计感也上来了

一个意外的亮点：外部合作伙伴反馈，Sonnet 4.6 的视觉输出明显更精致了。

更好的布局、动画和设计感。Triple Whale 的 AJ Orbach 甚至说它"在构建前端页面时有完美的设计品味"。

对于需要快速出原型的团队来说，这个提升非常实用。

开发者平台更新

除了模型本身，Anthropic 还对开发者工具做了一轮更新：

自适应思考和扩展思考：模型可以根据问题复杂度自动调节思考深度
上下文压缩：长对话不再轻易爆上下文
网页搜索工具升级：自动编写和执行代码来过滤搜索结果
代码执行、记忆、工具搜索等功能正式 GA

Claude in Excel 现在还支持通过 MCP 连接器接入 S&P Global、LSEG、PitchBook、Moody’s 等金融数据服务。这对金融行业的用户来说是个大利好。

我的看法

这次发布最值得关注的不是某个跑分多高，而是一个趋势：Sonnet 正在成为大多数人的最优选择。

Opus 依然是最强的推理模型，适合深度代码重构这种硬核任务。但对绝大多数日常使用场景，Sonnet 4.6 已经够用了，而且更快、更便宜。

这也是 Anthropic 的策略：把 Opus 的能力不断下沉到 Sonnet，让更多人以更低的成本享受到顶级 AI 能力。

对开发者来说，模型 ID 是 claude-sonnet-4-6，所有 Claude 套餐都能用。免费用户也终于能用上文件创建、连接器、技能、上下文压缩这些功能了。

这波升级，确实有诚意。

Anthropic 这次的野心#

跑分说了什么#

编程能力：不只是跑分好看#

计算机操作：像人一样用电脑#

百万 token 上下文窗口#

设计感也上来了#

开发者平台更新#

我的看法#