DeepSeek融资50亿美元+V4.1即将发布:开发者应该关注什么?
钱的事情不多说了,新闻稿到处都是。下面从几个角度聊一下我的看法。
今天刷到两条新闻:
- 梁文锋个人投了200亿,DeepSeek启动50亿美元融资
- DeepSeek V4.1预计6月发布,多模态理解进入内测
钱的事情不多说了,新闻稿到处都是。作为一个开发者,我更关心的是:这些事情对我们的实际开发工作有什么影响?
下面从几个角度聊一下我的看法。
1. DeepSeek为什么能用1/20的成本做出GPT-4级别效果?
这个问题我在之前研究DeepSeek-V3源码的时候就很好奇。核心原因有三个:
1.1 MoE架构:不激活的参数就不花算力
DeepSeek-V3总参数671B,但每次推理只激活37B。原理不复杂:
Copy
import torch
import torch.nn as nn
class DeepSeekMoELayer(nn.Module):
"""DeepSeek-V3的MoE层简化实现"""
def __init__(self, d_model=4096, n_routed_experts=64, n_active=6):
super().__init__()
self.gate = nn.Linear(d_model, n_routed_experts)
self.experts = nn.ModuleList([
nn.Sequential(
nn.Linear(d_model, d_model * 4),
nn.SiLU(),
nn.Linear(d_model * 4, d_model)
) for _ in range(n_routed_experts)
])
self.n_active = n_active
def forward(self, x):
# x: (batch, seq_len, d_model)
gate_scores = self.gate(x) # (batch, seq_len, n_experts)
# 只选top-k个专家,其余的直接跳过
top_k_scores, top_k_indices = gate_scores.topk(self.n_active, dim=-1)
top_k_weights = torch.softmax(top_k_scores, dim=-1)
# 只有被选中的专家参与计算
output = torch.zeros_like(x)
for i in range(self.n_active):
expert_idx = top_k_indices[..., i]
expert_weight = top_k_weights[..., i].unsqueeze(-1)
for b in range(x.shape[0]):
for s in range(x.shape[1]):
idx = expert_idx[b, s].item()
output[b, s] += expert_weight[b, s] * self.experts[idx](x[b, s])
return output
# 关键点:671B参数量,但每次推理只用37B
# 内存占用是671B,但计算量等价于37B dense模型
直觉理解:你有一个64人的团队,但每次开会只叫最相关的6个人来讨论,其他人该干嘛干嘛。效果可能比64个人一起吵还好。
1.2 MLA:把KV Cache压到极致
传统MHA的KV Cache在长序列下非常吃显存。DeepSeek的MLA通过低秩压缩把KV Cache砍掉80%-90%:
Copy
class MultiHeadLatentAttention(nn.Module):
"""MLA的核心思想:KV不直接存,存一个低秩的latent向量"""
def __init__(self, d_model=4096, n_heads=32, kv_rank=512):
super().__init__()
self.n_heads = n_heads
self.d_head = d_model // n_heads
# 传统MHA: 存完整的K和V,每个token存 2 * n_heads * d_head 个数
# MLA: 只存一个低秩的latent向量,每个token存 kv_rank 个数
# 压缩比 = (2 * n_heads * d_head) / kv_rank
# = (2 * 32 * 128) / 512 = 16倍压缩
self.kv_compress = nn.Linear(d_model, kv_rank) # 压缩
self.k_decompress = nn.Linear(kv_rank, d_model) # 解压K
self.v_decompress = nn.Linear(kv_rank, d_model) # 解压V
self.q_proj = nn.Linear(d_model, d_model)
def forward(self, x, kv_cache=None):
B, S, _ = x.shape
# 压缩KV到latent空间
kv_latent = self.kv_compress(x) # (B, S, 512) 而不是 (B, S, 4096)
# 需要的时候再解压
k = self.k_decompress(kv_latent) # (B, S, 4096)
v = self.v_decompress(kv_latent) # (B, S, 4096)
q = self.q_proj(x)
# 后面的标准attention计算不变
# ...
return output
# 实际效果:
# 128K上下文场景下,KV Cache显存占用从 ~40GB 降到 ~5GB
# 单卡就能跑超长上下文
1.3 FP8混合精度训练
DeepSeek-V3是第一个大规模使用FP8训练的大模型。相比BF16,FP8的计算吞吐量翻倍,显存占用减半:
Copy
# DeepSeek-V3的精度策略
precision_config = {
"attention_computation": "FP8", # 注意力计算用FP8
"gating_network": "BF16", # Gate网络用BF16保持精度
"embedding": "BF16", # 嵌入层用BF16
"output_head": "BF16", # 输出头用BF16
"all_reduce": "BF16", # 通信用BF16
}
# 效果:训练速度提升约1.8x,显存占用降低约40%
# 关键:对最终模型质量几乎没有影响(<0.1% perplexity差异)
2. V4.1可能带来什么?
根据目前的信息(广域图像识别开放内测、多模态理解进入测试),V4.1大概率会:
2.1 原生多模态
目前DeepSeek的多模态是"拼接式"的——V3做文字,VL2做图像理解,两者的encoder不同。
V4.1如果做成原生多模态,对开发者最大的好处是:
Copy
# 现在的用法(分离式):
# 需要分别调两个模型,拼接结果
text_result = deepseek_v3.chat("这张图里有什么?")
image_result = deepseek_vl2.understand(image_path)
# 手动合并两个结果...
# V4.1的预期用法(原生多模态):
# 一个模型搞定所有
response = client.chat.completions.create(
model="deepseek-v4.1",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "这张图里有什么?分析一下其中的技术架构"},
{"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
]
}]
)
2.2 价格大概率会继续降
DeepSeek现在的定价已经是行业最低档了:
Copy
# DeepSeek 当前API价格(2026年5月)
pricing = {
"deepseek-chat": {
"input": "¥1 / 百万tokens", # 约 $0.14
"output": "¥2 / 百万tokens", # 约 $0.28
},
"deepseek-reasoner": {
"input": "¥1 / 百万tokens",
"output": "¥4 / 百万tokens",
}
}
# 对比一下
comparison = {
"GPT-4o": {"input": "$2.50/M", "output": "$10.00/M"}, # 贵17倍
"Claude 3.5": {"input": "$3.00/M", "output": "$15.00/M"}, # 贵25倍
"DeepSeek": {"input": "$0.14/M", "output": "$0.28/M"}, # ←
}
# 融资50亿美元之后,大概率会进一步降价抢市场
# 对开发者来说:现在接入DeepSeek API的成本优势非常大
2.3 推理能力整合
DeepSeek-R1的推理能力很强,但目前是独立的模型。V4.1可能把推理能力整合进通用模型,类似Claude的extended thinking模式。
Copy
# 预期的V4.1推理模式
response = client.chat.completions.create(
model="deepseek-v4.1",
messages=[{"role": "user", "content": "证明根号2是无理数"}],
reasoning=True, # 开启推理模式
reasoning_effort="medium" # low / medium / high
)
3. 作为开发者,现在应该做什么?
3.1 开始用DeepSeek API
如果你的项目还在用GPT-4的API,强烈建议试试DeepSeek。性价比差距太大了。
Copy
# 快速开始:用OpenAI SDK就能直接调DeepSeek
from openai import OpenAI
client = OpenAI(
base_url="https://api.deepseek.com",
api_key="sk-xxxxxxxx"
)
# 对话
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "你是一个Python编程助手"},
{"role": "user", "content": "写一个快速排序"}
],
temperature=0.7
)
print(response.choices[0].message.content)
# 推理(类似o1)
reasoning_response = client.chat.completions.create(
model="deepseek-reasoner",
messages=[
{"role": "user", "content": "一个房间里有3个人,每个人手里有2个苹果,猫吃了1个,还剩几个苹果?"}
]
)
print(reasoning_response.choices[0].message.content)
3.2 关注开源版本
DeepSeek-V2和V3都有开源版本。如果V4.1也开源,那将是自Llama以来最重要的开源大模型事件。
可以本地部署的方式:
Copy
# 用vLLM部署DeepSeek-V3(需要多卡)
pip install vllm
# 单机8卡A100 80G
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-V3 \
--tensor-parallel-size 8 \
--max-model-len 32768 \
--gpu-memory-utilization 0.9
3.3 关注多模态能力
如果V4.1支持原生多模态,它的应用场景会比纯文本模型广得多:
- 图文理解 → 文档解析、信息提取
- 图像分析 → 质检、医疗影像
- 多模态Agent → 自动化操作、RPA
建议提前熟悉多模态API的调用方式。
4. 个人看法
说几句大实话:
DeepSeek最大的优势不是技术,是成本。 用1/20的成本做到90%的效果,这在商业上是碾压级的优势。
但这不意味着它没有风险。 美国芯片禁令是悬在头上的达摩克利斯之剑。高端GPU买不到,算力扩张受限。融资再多钱,买不到卡也是白搭。
对开发者来说,现在是接入DeepSeek的好时机。 融资完成后DeepSeek大概率会降价抢市场。API价格低、性能够用、兼容OpenAI SDK格式,迁移成本几乎为零。
V4.1如果能在6月如期发布并且效果达到预期,DeepSeek在中国大模型市场的地位就很稳了。
以上是我的个人分析,数据来源主要是AIbase和IT之家的公开报道。
更多推荐



所有评论(0)