连夜实测Claude 3.7 Sonnet，AI编程的天花板又被干碎了

这周的大模型诸神混战可太刺激了，。昨晚 Anthropic 终于出手，正式发布 Claude 3.7 Sonnet。这是市面上，也就是一个模型拥有两种思考方式。可以类比《思考，快与慢》中的系统 1 和系统 2，在专门评估软件编程能力的测试基准 SWE-bench Verified 上，力压群雄。那可能有人就要问了，这是比 DeepSeek R1 还厉害吗？从测试基准数据看，除了数学能力之外，在物理

童欧巴

1046人浏览 · 2025-03-28 01:13:14

童欧巴 · 2025-03-28 01:13:14 发布

这周的大模型诸神混战可太刺激了，精彩到抽耳光都不想快进。

昨晚 Anthropic 终于出手，正式发布 Claude 3.7 Sonnet。

这是市面上首个混合推理模型，也就是一个模型拥有两种思考方式。

可以类比《思考，快与慢》中的系统 1 和系统 2，既能快速响应，也能扩展推理，进行深度思考。

在专门评估软件编程能力的测试基准 SWE-bench Verified 上，力压群雄。

那可能有人就要问了，这是比 DeepSeek R1 还厉害吗？

从测试基准数据看，除了数学能力之外，在物理化、遵循指令和编程能力上，确实 Claude 3.7 Sonnet 更胜一筹。

但据最新消息，DeepSeek R2 将在 5 月前发布，DeepSeek V4 也大概率是今年，所以大可以期待一波 DeepSeek 接下来的表现。

与 Claude 3.7 Sonnet 一同发布的，还有 Claude Code，一个在命令行中工作的智能编程 Agent。

不仅能完成像搜索和阅读代码，编辑文件，编写和运行测试，提交和推送代码到 GitHub 仓库这些常规操作。

也可以在测试驱动开发、调试复杂问题和大规模的代码库重构方面发挥作用，甚至能帮程序员完成 45 分钟以上的手动工作任务。

这听起来可太酷了，不过目前限量开放，可以在如下地址排队申请。

https://console.anthropic.com/code/welcome

说回 Claude 3.7 Sonnet，作为程序员和 AI 编程重度用户的我，实测玩了一整个晚上，测完之后彻底失眠了。。

挑选了 10 个示例，大家一块来感受一下：

全球最强 AI 编程大脑的惊艳与震撼。

实测

你只需要输入一句提示词，就能生成一个小游戏，直接上手玩起来。

提示词：在网页上中制作一款 3D 我的世界游戏

3d我的世界

提示词：在网页中制作一款 3D 赛车游戏

3d赛车

提示词：在网页中制作一款超级马里奥游戏

写个网页或者动画效果更是不在话下，效果比上代模型好多了。

提示词：写一个 B 站网站

B站网站

提示词：创建一个 HTML 文件，包含 CSS 和 JavaScript，用来生成动画天气卡片，卡片用不同的动画形式直观地表示以下天气状况：风(例如移动的云、摇曳的树木)、雨(例如落下的雨滴)、太阳(例如闪耀的光线)、雪(例如飘落的雪花、积雪)，并排显示所有卡片，底部有一个漂亮的按钮可以切换动画速度。

天气卡

3D 效果也能轻松驾驭。