📌 周五 DeepSeek V4 终于开源,在做到了 1M 上下文 FLOPs / KVCache 的极限压缩之后,不少小伙伴问我在 Claude Code 里 DeepSeek V4 体验怎么样,和不久前支持超长程任务的 GLM5.1 比效果如何?终于今天博主在对比体验了2天之后,简单给大家分析一下。
    
📌 模型架构对比:
🌟 GLM 5.1 使用的是 DSA(DeepSeek Sparse Attention)基于 MLA + Indexer 实现稀疏注意力,相比之前的 GLM 4 系列已经实现了大幅成本压缩。
🌟 DeepSeek V4 使用的是混合稀疏注意力CSA(Compressed Sparse Attention)+ HCA(Heavily Compressed Attention)交错布层。1M 上下文下相比 V3.2 (DSA)单 token 推理 FLOPs 仅 27%、KV cache 仅 10%。
这一层看下来DS V4 的token成本控制更好,但由于任务完成的token消耗与模型执行能力/效率相关,总花费不一定。
    
📌 长程任务对比:
这里我对比了一个经典任务,让模型上网查资料,模仿马里奥赛车8做一个3D游戏,要求模型先自主规划-执行-自主规划多轮测试-交付最终游戏代码。
🌟 GLM 5.1 相对比较好的完成了这个任务,比如在跑道选择、任务选择、游戏道具、赛道跳板、加速板上都实现了对应马里奥赛车8的功能,已经具备基本可玩性。
🌟 DeepSeek V4 实现的相对简陋,并且在前期调研(网络搜索)、多轮测试中模型倾向于快速结束任务,游戏实现也相对demo,没有体现到 1M 上下文的优势。
从这个demo例子来看,长编程任务上 GLM 5.1 更强(SWEBench Pro 上GLM 5.1 更强)。
    
📌 Routine 任务对比:
另外在平时已经写好Skills的日常任务(比如搜集网站信息)上我也对比了 GLM 5.1 和 DeepSeek V4 的效果,两者表现差距不大,在基础工具调用中都能满足需求(Terminal Bench 2.0上DeepSeek V4更强),相比之下V4在这类任务上性价比更高。但是需要更多planning、长程调研的任务上,GLM 5.1 的体验更好。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐