今天刷到两条新闻:

  1. 梁文锋个人投了200亿,DeepSeek启动50亿美元融资
  2. DeepSeek V4.1预计6月发布,多模态理解进入内测

钱的事情不多说了,新闻稿到处都是。作为一个开发者,我更关心的是:这些事情对我们的实际开发工作有什么影响?

下面从几个角度聊一下我的看法。


1. DeepSeek为什么能用1/20的成本做出GPT-4级别效果?

这个问题我在之前研究DeepSeek-V3源码的时候就很好奇。核心原因有三个:

1.1 MoE架构:不激活的参数就不花算力

DeepSeek-V3总参数671B,但每次推理只激活37B。原理不复杂:

Copy

import torch
import torch.nn as nn

class DeepSeekMoELayer(nn.Module):
    """DeepSeek-V3的MoE层简化实现"""
    def __init__(self, d_model=4096, n_routed_experts=64, n_active=6):
        super().__init__()
        self.gate = nn.Linear(d_model, n_routed_experts)
        self.experts = nn.ModuleList([
            nn.Sequential(
                nn.Linear(d_model, d_model * 4),
                nn.SiLU(),
                nn.Linear(d_model * 4, d_model)
            ) for _ in range(n_routed_experts)
        ])
        self.n_active = n_active
    
    def forward(self, x):
        # x: (batch, seq_len, d_model)
        gate_scores = self.gate(x)  # (batch, seq_len, n_experts)
        
        # 只选top-k个专家,其余的直接跳过
        top_k_scores, top_k_indices = gate_scores.topk(self.n_active, dim=-1)
        top_k_weights = torch.softmax(top_k_scores, dim=-1)
        
        # 只有被选中的专家参与计算
        output = torch.zeros_like(x)
        for i in range(self.n_active):
            expert_idx = top_k_indices[..., i]
            expert_weight = top_k_weights[..., i].unsqueeze(-1)
            
            for b in range(x.shape[0]):
                for s in range(x.shape[1]):
                    idx = expert_idx[b, s].item()
                    output[b, s] += expert_weight[b, s] * self.experts[idx](x[b, s])
        
        return output

# 关键点:671B参数量,但每次推理只用37B
# 内存占用是671B,但计算量等价于37B dense模型

直觉理解:你有一个64人的团队,但每次开会只叫最相关的6个人来讨论,其他人该干嘛干嘛。效果可能比64个人一起吵还好。

1.2 MLA:把KV Cache压到极致

传统MHA的KV Cache在长序列下非常吃显存。DeepSeek的MLA通过低秩压缩把KV Cache砍掉80%-90%:

Copy

class MultiHeadLatentAttention(nn.Module):
    """MLA的核心思想:KV不直接存,存一个低秩的latent向量"""
    def __init__(self, d_model=4096, n_heads=32, kv_rank=512):
        super().__init__()
        self.n_heads = n_heads
        self.d_head = d_model // n_heads
        
        # 传统MHA: 存完整的K和V,每个token存 2 * n_heads * d_head 个数
        # MLA: 只存一个低秩的latent向量,每个token存 kv_rank 个数
        
        # 压缩比 = (2 * n_heads * d_head) / kv_rank
        # = (2 * 32 * 128) / 512 = 16倍压缩
        
        self.kv_compress = nn.Linear(d_model, kv_rank)  # 压缩
        self.k_decompress = nn.Linear(kv_rank, d_model)  # 解压K
        self.v_decompress = nn.Linear(kv_rank, d_model)  # 解压V
        self.q_proj = nn.Linear(d_model, d_model)
    
    def forward(self, x, kv_cache=None):
        B, S, _ = x.shape
        
        # 压缩KV到latent空间
        kv_latent = self.kv_compress(x)  # (B, S, 512) 而不是 (B, S, 4096)
        
        # 需要的时候再解压
        k = self.k_decompress(kv_latent)  # (B, S, 4096)
        v = self.v_decompress(kv_latent)  # (B, S, 4096)
        q = self.q_proj(x)
        
        # 后面的标准attention计算不变
        # ...
        return output

# 实际效果:
# 128K上下文场景下,KV Cache显存占用从 ~40GB 降到 ~5GB
# 单卡就能跑超长上下文

1.3 FP8混合精度训练

DeepSeek-V3是第一个大规模使用FP8训练的大模型。相比BF16,FP8的计算吞吐量翻倍,显存占用减半:

Copy

# DeepSeek-V3的精度策略
precision_config = {
    "attention_computation": "FP8",      # 注意力计算用FP8
    "gating_network": "BF16",            # Gate网络用BF16保持精度
    "embedding": "BF16",                 # 嵌入层用BF16
    "output_head": "BF16",               # 输出头用BF16
    "all_reduce": "BF16",                # 通信用BF16
}

# 效果:训练速度提升约1.8x,显存占用降低约40%
# 关键:对最终模型质量几乎没有影响(<0.1% perplexity差异)

2. V4.1可能带来什么?

根据目前的信息(广域图像识别开放内测、多模态理解进入测试),V4.1大概率会:

2.1 原生多模态

目前DeepSeek的多模态是"拼接式"的——V3做文字,VL2做图像理解,两者的encoder不同。

V4.1如果做成原生多模态,对开发者最大的好处是:

Copy

# 现在的用法(分离式):
# 需要分别调两个模型,拼接结果
text_result = deepseek_v3.chat("这张图里有什么?")
image_result = deepseek_vl2.understand(image_path)
# 手动合并两个结果...

# V4.1的预期用法(原生多模态):
# 一个模型搞定所有
response = client.chat.completions.create(
    model="deepseek-v4.1",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张图里有什么?分析一下其中的技术架构"},
            {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
        ]
    }]
)

2.2 价格大概率会继续降

DeepSeek现在的定价已经是行业最低档了:

Copy

# DeepSeek 当前API价格(2026年5月)
pricing = {
    "deepseek-chat": {
        "input":  "¥1 / 百万tokens",     # 约 $0.14
        "output": "¥2 / 百万tokens",     # 约 $0.28
    },
    "deepseek-reasoner": {
        "input":  "¥1 / 百万tokens",
        "output": "¥4 / 百万tokens",
    }
}

# 对比一下
comparison = {
    "GPT-4o":      {"input": "$2.50/M",  "output": "$10.00/M"},  # 贵17倍
    "Claude 3.5":  {"input": "$3.00/M",  "output": "$15.00/M"},  # 贵25倍
    "DeepSeek":    {"input": "$0.14/M",  "output": "$0.28/M"},   # ← 
}

# 融资50亿美元之后,大概率会进一步降价抢市场
# 对开发者来说:现在接入DeepSeek API的成本优势非常大

2.3 推理能力整合

DeepSeek-R1的推理能力很强,但目前是独立的模型。V4.1可能把推理能力整合进通用模型,类似Claude的extended thinking模式。

Copy

# 预期的V4.1推理模式
response = client.chat.completions.create(
    model="deepseek-v4.1",
    messages=[{"role": "user", "content": "证明根号2是无理数"}],
    reasoning=True,  # 开启推理模式
    reasoning_effort="medium"  # low / medium / high
)

3. 作为开发者,现在应该做什么?

3.1 开始用DeepSeek API

如果你的项目还在用GPT-4的API,强烈建议试试DeepSeek。性价比差距太大了。

Copy

# 快速开始:用OpenAI SDK就能直接调DeepSeek
from openai import OpenAI

client = OpenAI(
    base_url="https://api.deepseek.com",
    api_key="sk-xxxxxxxx"
)

# 对话
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一个Python编程助手"},
        {"role": "user", "content": "写一个快速排序"}
    ],
    temperature=0.7
)
print(response.choices[0].message.content)

# 推理(类似o1)
reasoning_response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "一个房间里有3个人,每个人手里有2个苹果,猫吃了1个,还剩几个苹果?"}
    ]
)
print(reasoning_response.choices[0].message.content)

3.2 关注开源版本

DeepSeek-V2和V3都有开源版本。如果V4.1也开源,那将是自Llama以来最重要的开源大模型事件。

可以本地部署的方式:

Copy

# 用vLLM部署DeepSeek-V3(需要多卡)
pip install vllm

# 单机8卡A100 80G
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.9

3.3 关注多模态能力

如果V4.1支持原生多模态,它的应用场景会比纯文本模型广得多:

  • 图文理解 → 文档解析、信息提取
  • 图像分析 → 质检、医疗影像
  • 多模态Agent → 自动化操作、RPA

建议提前熟悉多模态API的调用方式。


4. 个人看法

说几句大实话:

DeepSeek最大的优势不是技术,是成本。 用1/20的成本做到90%的效果,这在商业上是碾压级的优势。

但这不意味着它没有风险。 美国芯片禁令是悬在头上的达摩克利斯之剑。高端GPU买不到,算力扩张受限。融资再多钱,买不到卡也是白搭。

对开发者来说,现在是接入DeepSeek的好时机。 融资完成后DeepSeek大概率会降价抢市场。API价格低、性能够用、兼容OpenAI SDK格式,迁移成本几乎为零。

V4.1如果能在6月如期发布并且效果达到预期,DeepSeek在中国大模型市场的地位就很稳了。


以上是我的个人分析,数据来源主要是AIbase和IT之家的公开报道。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐