AI创业与趋势--DeepSeek最新研究:AI架构的范式突破
Karpathy说:或许所有输入都应该是图像,即使是纯文本,也应该渲染成图像再输入。听起来很荒谬——我们花了几十年把扫描文档转成可搜索文本,现在要反过来?但这揭示了一个被忽视的真相。DeepSeek的两项研究不是技术迭代,而是范式突破——把查表和计算分离,把视觉作为通用输入接口。四个启示:技术选择是范式问题、限制催生创造力、工程化是创新、保持批判性乐观。正如Karpathy所说:也许有一天回头看今
2025年,DeepSeek团队发布了两项重要研究:Engram和OCR视觉压缩。
这两项工作看起来是技术迭代,实际上是对AI架构范式的根本性挑战。
Engram:给AI装上"字典"
核心问题
假设主持人问:“中国古代四大发明是什么?”
人类的回答方式:直接从记忆调取——造纸术、印刷术、火药、指南针。
AI大模型的回答方式:
| 层级 | 计算过程 |
|---|---|
| 第1层 | 接收"四大发明"输入 |
| 第2层 | 推理到"中国古代" |
| 第3层 | 关联到"古代技术成就" |
| 第4层 | 定位"历史知识" |
| 第5层+ | 逐层拼出答案 |
就像问一个人"一加一等于几",他不直接说2,而是从头推导数字发明史。
问题本质:用神经网络计算模拟人类记忆,太浪费了。
语言处理的两种任务
| 类型 | 特点 | 应该怎么处理 |
|---|---|---|
| 推理类 | 理解转折关系、分析情感 | 需要深度计算 |
| 检索类 | 张仲景是谁、四大发明是什么 | 可以直接查表 |
现在Transformer把两种任务都当计算做,导致前几层被迫重建静态知识,浪费推理能力。
Engram的核心创新
把查表的归查表,把计算的归计算。
| 创新 | 说明 |
|---|---|
| n-gram查表 | 用连续词作为钥匙查找向量 |
| 哈希映射 | 解决组合爆炸问题 |
| 上下文门控 | 同一词在不同语境用不同记忆 |
参数分配的最优配置
实验发现:
| 配置 | 性能 |
|---|---|
| 100%计算(纯MoE) | 一般 |
| 75%计算+25%Engram | 最优 |
| 100%Engram(纯记忆) | 性能下降 |
为什么中间最优?
| 纯MoE | 缺少记忆,只能用计算重建知识 |
| 纯Engram | 缺少计算,遇到推理问题不行 |
| 混合 | 该查的查,该算的算 |
意外的发现
Engram提升最大的不是知识任务,而是推理任务。
| 任务类型 | 提升 |
|---|---|
| 复杂推理(BH测评) | 5分提升 |
| 代码和数学 | 显著提升 |
| 阅读理解 | 93%保留 |
原因:原本30层网络的前5层忙于重建静态知识,现在30层全部用于推理。网络等于是变深了。
OCR视觉压缩:重新定义输入范式
反直觉的观点
Karpathy说:或许所有输入都应该是图像,即使是纯文本,也应该渲染成图像再输入。
听起来很荒谬——我们花了几十年把扫描文档转成可搜索文本,现在要反过来?
但这揭示了一个被忽视的真相。
文本Token化的妥协
| 问题 | 说明 |
|---|---|
| 信息损失 | 笑脸emoji只是符号,不是富含视觉信息的笑脸 |
| 视觉元素抹除 | 颜色、字体大小要么被删,要么需要额外标记 |
| 编码问题 | Unicode历史包袱、安全风险 |
| 语言差异 | 不同语言字符数量差异巨大,同一字符多种表示 |
| 单向性局限 | 自回归只能从左到右,不能双向全局理解 |
视觉压缩的效果
| 压缩比 | OCR精度 |
|---|---|
| 不超过10倍 | 97% |
| 20倍 | 约60% |
关键洞察:信息密度才是关键,不是信息总量。
多尺度表示
| 文档部分 | 处理方式 |
|---|---|
| 表格和关键数字 | 高精度识别 |
| 页眉页脚 | 低分辨率快速扫过 |
这模拟了人类的选择性注意机制:不是所有信息都需要同等精度。
模拟抽象能力
人类记忆的遗忘不是简单删除,而是从具体细节向抽象概念转化。
| 记忆方式 | 说明 |
|---|---|
| 低分辨率图像 | 强制模型进行抽象 |
| 从模糊信号提取本质 | 不依赖清晰像素逐字读取 |
这种强制抽象可能比保留更多细节更接近智能本身。
范式之争的深层意义
视觉作为通用接口
| 观点 | 说明 |
|---|---|
| OCR只是视觉→文本任务之一 | 文本→文本可转换成视觉→文本,反之不行 |
| 数字世界大量信息天然视觉形式 | 网页是CSS渲染后的视觉,不是纯文本 |
| 信息类型 | 视觉价值 |
|---|---|
| 网页 | CSS渲染后的呈现 |
| 文档 | 版面、字体、表格结构 |
| 代码 | 缩进高亮的视觉意义 |
| 数据可视化 | 图表传达超过底层数据表 |
强行转成纯文本,就像把彩色电影转成黑白——可行但信息必然损失。
长上下文的根本性重构
| 方法 | 说明 |
|---|---|
| 现有技术 | 窗口扩展、稀疏注意力 |
| 问题 | 和Token数量增长做斗争 |
| 视觉压缩 | 用更少更密集的视觉Token表示同样信息 |
效率提升:单个A100 GPU每天处理20万页数据。
学术继承与工程创新
与现有工作的关系
| 工作 | 关系 |
|---|---|
| 字节跳动VR方法 | 相似思路,获会议Best Paper |
| DeepSeek工作 | 把研究成果做扎实、做产品化 |
工程化是被低估的创新
学术界在Environment里证明概念,真正可用需要解决无数细节:
| 问题 | 说明 |
|---|---|
| 边缘case | 扫描质量差、图像倾斜、多语言混排 |
| 权衡 | 速度vs精度、分辨率档位选择 |
| 接口 | 开发者友好集成 |
DeepSeek发布推理代码、加速支持、DF处理——从Paper到Production Ready。
未解的问题
问题一:推理能力的代价
| 问题 | 说明 |
|---|---|
| 文本Token | 离散性、可组合性,适合符号推理 |
| 视觉Token | 连续表示,是否损失符号操作能力 |
| 看懂公式 ≠ 能推导 | 模型能看懂数学公式,不代表能进行数学推导 |
问题二:训练数据成本
如果未来模型基于视觉输入:
| 挑战 | 说明 |
|---|---|
| 渲染文本为图像 | 大量渲染工作 |
| 标注视觉版面 | 复杂标注需求 |
| 组合爆炸 | 不同分辨率、字体、样式 |
数据可能成为新瓶颈。
问题三:用户体验连续性
人类输入往往是纯文本:
| 转换 | 问题 |
|---|---|
| 打字、语音转文本 | 需要额外渲染层 |
| 渲染层 | 引入新延迟和复杂度 |
两个研究的共同启示
技术选择是范式问题
| 研究 | 挑战 |
|---|---|
| Engram | 不是如何做得更好,而是对计算的假设 |
| OCR | 不是优化文本处理,而是重新定义输入 |
限制催生创造力
| 限制 | 创新 |
|---|---|
| 算力约束 | 视觉压缩成为必然选择 |
| 计算浪费 | Engram把查表和计算分离 |
工程化是最被低估的创新
把学术idea变成可用产品,本身就是对真实世界复杂性的深刻理解。
保持批判性乐观
拥抱新范式,同时清醒认知局限和未解问题。
常见问题
Q1:Engram和传统n-gram有什么区别?
传统n-gram是统计语言模型,Engram是用n-gram作为查表钥匙,从记忆库直接获取向量,绕过逐层计算。
Q2:为什么视觉压缩能提升效率?
一个图像Token能承载更多信息密度,比多个文本Token更高效。长上下文的计算复杂度是N²,减少Token数量能大幅降低计算成本。
Q3:这些研究什么时候能落地应用?
Engram已在DeepSeek模型中应用。OCR视觉压缩还在研究阶段,但方向值得关注。
Q4:Karpathy为什么说"视觉是通用接口"?
数字世界大量信息天然是视觉形式。把视觉转文本会损失信息,但文本可以渲染成视觉输入,不损失。视觉接口的覆盖范围更广。
一句话总结
DeepSeek的两项研究不是技术迭代,而是范式突破——把查表和计算分离,把视觉作为通用输入接口。
四个启示:技术选择是范式问题、限制催生创造力、工程化是创新、保持批判性乐观。
正如Karpathy所说:也许有一天回头看今天的文本Token,就像看早期的字符界面——曾经很实用,但终究会被更自然的交互方式替代。
范式之争才刚刚开始。
更多推荐



所有评论(0)