
连夜实测Claude 3.7 Sonnet,AI编程的天花板又被干碎了
这周的大模型诸神混战可太刺激了,。昨晚 Anthropic 终于出手,正式发布 Claude 3.7 Sonnet。这是市面上,也就是一个模型拥有两种思考方式。可以类比《思考,快与慢》中的系统 1 和系统 2,在专门评估软件编程能力的测试基准 SWE-bench Verified 上,力压群雄。那可能有人就要问了,这是比 DeepSeek R1 还厉害吗?从测试基准数据看,除了数学能力之外,在物理
这周的大模型诸神混战可太刺激了,精彩到抽耳光都不想快进。
昨晚 Anthropic 终于出手,正式发布 Claude 3.7 Sonnet。
这是市面上首个混合推理模型,也就是一个模型拥有两种思考方式。
可以类比《思考,快与慢》中的系统 1 和系统 2,既能快速响应,也能扩展推理,进行深度思考。
在专门评估软件编程能力的测试基准 SWE-bench Verified 上,力压群雄。
那可能有人就要问了,这是比 DeepSeek R1 还厉害吗?
从测试基准数据看,除了数学能力之外,在物理化、遵循指令和编程能力上,确实 Claude 3.7 Sonnet 更胜一筹。
但据最新消息,DeepSeek R2 将在 5 月前发布,DeepSeek V4 也大概率是今年,所以大可以期待一波 DeepSeek 接下来的表现。
与 Claude 3.7 Sonnet 一同发布的,还有 Claude Code,一个在命令行中工作的智能编程 Agent。
不仅能完成像搜索和阅读代码,编辑文件,编写和运行测试,提交和推送代码到 GitHub 仓库这些常规操作。
也可以在测试驱动开发、调试复杂问题和大规模的代码库重构方面发挥作用,甚至能帮程序员完成 45 分钟以上的手动工作任务。
这听起来可太酷了,不过目前限量开放,可以在如下地址排队申请。
https://console.anthropic.com/code/welcome
说回 Claude 3.7 Sonnet,作为程序员和 AI 编程重度用户的我,实测玩了一整个晚上,测完之后彻底失眠了。。
挑选了 10 个示例,大家一块来感受一下:
全球最强 AI 编程大脑的惊艳与震撼。
实测
你只需要输入一句提示词,就能生成一个小游戏,直接上手玩起来。
提示词:在网页上中制作一款 3D 我的世界游戏
3d我的世界
提示词:在网页中制作一款 3D 赛车游戏
3d赛车
提示词:在网页中制作一款超级马里奥游戏
写个网页或者动画效果更是不在话下,效果比上代模型好多了。
提示词:写一个 B 站网站
B站网站
提示词:创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风(例如移动的云、摇曳的树木)、雨(例如落下的雨滴)、太阳(例如闪耀的光线)、雪(例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。
天气卡
3D 效果也能轻松驾驭。
提示词:使用 p5.js 生成 3D 粒子的流动效果,通过颜色变化创造有吸引力的视觉体验等。
粒子流动
提示词:使用 p5.js 模拟 300 条小鱼在鱼群中游动,确保不要撞到墙壁
鱼群
提示词:生成运动中的太阳系的 3D 动画
甚至还可以直接把泳道图搬进 SVG 图片里。
这个提示词来自 @LinearUncle 在 X 上的分享,内容比较长这里就不贴了,大家自取。
最后,我试着把 Claude 3.7 Sonnet 发布的博客全文复制粘贴给他,让他基于内容画一张 SVG 图。
博客地址:https://www.anthropic.com/news/claude-3-7-sonnet
神奇的事情发生了。。
设计精美的文章配图这不就来了?
尾声
测完这代 Claude 我算是整明白了,当年咱们熬夜肝掉的那些头发,放现在可能就值两行提示词。
你说焦虑?我反而更兴奋了!
这哪是 AI 要抢饭碗,分明是给咱们程序员发了把加特林啊。
不过说真的,随着 AI 生成代码的能力越来越强,
有件事该重新定义了:
什么才是程序员真正的护城河?
更多推荐
所有评论(0)