全球首款混合推理模型发布,你的 Claude 会思考了!
新发布的 Claude 3.7 Sonnet 不仅导入了详细的逐步推理,而且也公开了「思考」过程。 感谢 DeepSeek 的内捲,推动了产业透明度的提升。
就像人类用同一个大脑既能快速反应,又能深入思考一样,Anthropic 同样认为推理能力不应仰赖于单独的模型,最好是一个模型搞定所有情境。
使用者可以自由选择是要让 Claude 3.7 Sonnet 快速作答,还是让其进行更长时间的深度思考。
在标準模式下,它是 Claude 3.5 Sonnet 的升级版;切换到扩展思考(Extended Thinking)模式(可简单理解为推理),它会在回答前进行自我反思,大幅提升在数学、物理、指令理解和程式设计等複杂任务上的表现。
从基準测试结果来看,Claude 3.7 Sonnet(扩展思维版)适用于强逻辑推理和数学任务,而 Grok 3 Beta 和 DeepSeek R1 则在特定任务(推理、数学竞赛)上表现更佳。
DeepSeek R1 在数学解题能力(97.3%)方面最强,同时在其他任务上也有不错的表现。
在推理模型的最佳化过程中,Anthropic 减少了对数学和电脑科学竞赛问题的侧重,更专注于满足企业对 LLM 的实际应用需求。
在评估 AI 解决真实软件问题能力的 SWE-bench Verified 基準测试中,Claude 3.7 Sonnet 达到了产业领先水準。同时,该模型在 TAU-bench 测试中也表现不错,直接超越旧版本,更胜过 OpenAI o1。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。
该模型现已适用于所有 Claude 订阅方案,包括免费版、专业版、团队版和企业版,同时也可透过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 使用。
特别注意,除了免费版外,所有平台均支援扩展思考模式(Extended Thinking Mode)。
当透过 API 使用 Claude 3.7 Sonnet 时,你还可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。
无论使用哪种模式,定价都与前代模型保持一致。输入 100 万个 token 收费 3 美元(约台币 98 元),输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元(约台币 492 元)。
一直以来,Claude 的程式设计能力都相当出色,也因此成为许多开发者的首选模型,现在,新发布的 Claude 3.7 Sonnet 进一步放大了这个优势。
Cursor、Cognition、Vercel、Replit 和 Canva 等公司均确认该模型在处理複杂程式码库、高阶工具使用、程式码修改规划和全堆叠更新处理等方面表现出色。
为了最佳化使用者体验,GitHub 整合功能已向所有订阅方案开放,开发者可以直接将程式码库连接到 Claude,实现更高效的协作。
无论是修复 Bug、开发新功能还是完善档案,Claude 3.7 Sonnet 都能为个人专案和企业级 GitHub 程式码库提供更好的支援。
在安全性方面,透过与外部专家合作,相较于前代模型,Claude 3.7 Sonnet 据说能更準确地区分恶意请求和正常请求,不必要的拒绝减少了45%,能够提供更流畅的互动体验。
(截取自 Claude 3.7 Sonnet 系统卡)
程式码写到一半想放弃?试试把複杂问题丢给 Claude Code
Anthropic 还推出了一款智慧程式设计工具——Claude Code,目前仅作为研究预览版限量开放。
程式码写到一半想放弃?开发者可以直接在终端中将这些複杂问题交给 Claude Code 处理。
Claude Code 是一个主动协作的 AI 程式设计助手,能够搜寻和阅读程式码、编辑档案、编写并执行测试、提交和推送程式码到 GitHub,以及使用命令列工具等。
据 Anthropic 官方介绍,在早期测试中,Claude Code 能一次性完成通常需要 45 分钟以上的人工任务,特别是在测试驱动开发(TDD)、侦错複杂问题和大规模重构方面表现突出。
Claude Code 能够直接理解开发者的程式码库,并透过自然语言命令帮助使用者更高效地编码。 它可以无缝整合到开发环境中,无需额外的伺服器或複杂的设定,极大地简化了工作流程。
其核心功能包括编辑档案、修复 Bug、回答关于程式码架构和逻辑的问题、执行测试、修复测试错误、进行程式码格式检查,以及搜寻 Git 历史纪录、解决合併冲突、建立提交和拉取请求等。
Anthropic 表示,在接下来的几週内,他们计画持续最佳化 Claude Code,重点改进包括提升工具调用的稳定性、支援长时间执行的命令、改进应用程式内的算绘效果,以及增强 Claude 对自身能力的理解。
这次发布预览研究版本也是希望深入了解开发者如何使用 Claude 进行程式设计,从而为进一步最佳化未来的模型版本提供参考。
有兴趣的开发者可至官方网站查看相关事项,传送门:
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
AI 发展速度太快,连命名都跟不上了?
X 网友倒是用上了,不过注意点有点偏差,一年前编写的越狱提示词还能用上。
询问 strawberry 里有多少个 r,Claude Sonnet 3.7 虽然答错了,但官方似乎特意给这个问题里埋了一个彩蛋。不得不说,官方真的很懂玩梗。
知名部落客 @rowancheung 抢先体验了 Claude 3.7 Sonnet,并盛讚该模型为世界上最好的程式码 AI 模型,在接收到一个简单的指令后,就生成了一个类似 Minecraft 的游戏,并且可立即执行。
耗费的推理 Token 越多,Claude 3.7 Sonnet 绘制的「彩虹独角兽」效果越好。
与 DeepSeek R1 展示的思考过程相比,Claude 3.7 Sonnet 公开的思考过程相对客观、缺乏个人化表达。
然而,这是 Anthropic 有意为之的设计。
Anthropic 没有对模型的思维过程进行标準角色训练,而是希望给予 Claude 最大自由度进行自主思考,但就像人类思维一样,这可能包含不完全正确或尚未成熟的想法。
并且,Anthropic 认为所谓「思考」过程不一定真实反映了 AI 的内部决策逻辑,因此,Anthropic 未来将基于使用者回馈和研究决定是否继续公开 Claude 的思维链。
有趣的是,我们之前提到过,随着各家新模型的相继发布,各类版本号和命名规则也是让人眼花撩乱。
去年当 OpenAI CEO Sam Altman 被问及公司产品的命名策略时,他也坦言相当头痛。 Anthropic CEO Amodei 曾表示,虽然 Claude 的命名方式在早期看起来不错,但随着模型的快速迭代和更新,沿用的命名体系同样变得捉襟见肘。
他指出,目前没有任何 AI 公司真正「搞定命名」这个问题,大家都在努力寻找更简单、更清晰的命名方式。这或许是 AI 巨头们少数达成的共识。