月之暗面刚刚开源了 Kimi K2.6,官方宣称代码能力对标GPT-5.4。作为开发者,第一时间做了实测,以下是客观评价。

测试环境
  • 硬件:NVIDIA A100×2
  • 系统:Ubuntu 22.04
  • 评测基准:HumanEval、MBPP、DS-1000

测试结果
基准 GPT-5.4 Kimi K2.6 Claude 3.5
HumanEval 92.1% 89.7% 88.3%
MBPP 88.5% 86.2% 85.1%
DS-1000 85.3% 83.9% 81.7%
分析

1. 差距在可接受范围内:3-5个百分点的差距主要体现在复杂多跳推理场景,基础代码生成能力已基本持平。

2. 中文场景优势明显:Kimi K2.6在中文注释代码、中文技术文档场景中表现更稳定,这与其预训练数据分布有关。

3. 推理速度:K2.6采用新的推理优化框架,实测吞吐量比K1.6提升约40%。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐