2025年,DeepSeek团队发布了两项重要研究:Engram和OCR视觉压缩。

这两项工作看起来是技术迭代,实际上是对AI架构范式的根本性挑战。


Engram:给AI装上"字典"

核心问题

假设主持人问:“中国古代四大发明是什么?”

人类的回答方式:直接从记忆调取——造纸术、印刷术、火药、指南针。

AI大模型的回答方式:

层级 计算过程
第1层 接收"四大发明"输入
第2层 推理到"中国古代"
第3层 关联到"古代技术成就"
第4层 定位"历史知识"
第5层+ 逐层拼出答案

就像问一个人"一加一等于几",他不直接说2,而是从头推导数字发明史。

问题本质:用神经网络计算模拟人类记忆,太浪费了。

语言处理的两种任务

类型 特点 应该怎么处理
推理类 理解转折关系、分析情感 需要深度计算
检索类 张仲景是谁、四大发明是什么 可以直接查表

现在Transformer把两种任务都当计算做,导致前几层被迫重建静态知识,浪费推理能力。

Engram的核心创新

把查表的归查表,把计算的归计算。

创新 说明
n-gram查表 用连续词作为钥匙查找向量
哈希映射 解决组合爆炸问题
上下文门控 同一词在不同语境用不同记忆

参数分配的最优配置

实验发现:

配置 性能
100%计算(纯MoE) 一般
75%计算+25%Engram 最优
100%Engram(纯记忆) 性能下降

为什么中间最优?

| 纯MoE | 缺少记忆,只能用计算重建知识 |
| 纯Engram | 缺少计算,遇到推理问题不行 |
| 混合 | 该查的查,该算的算 |

意外的发现

Engram提升最大的不是知识任务,而是推理任务。

任务类型 提升
复杂推理(BH测评) 5分提升
代码和数学 显著提升
阅读理解 93%保留

原因:原本30层网络的前5层忙于重建静态知识,现在30层全部用于推理。网络等于是变深了。


OCR视觉压缩:重新定义输入范式

反直觉的观点

Karpathy说:或许所有输入都应该是图像,即使是纯文本,也应该渲染成图像再输入。

听起来很荒谬——我们花了几十年把扫描文档转成可搜索文本,现在要反过来?

但这揭示了一个被忽视的真相。

文本Token化的妥协

问题 说明
信息损失 笑脸emoji只是符号,不是富含视觉信息的笑脸
视觉元素抹除 颜色、字体大小要么被删,要么需要额外标记
编码问题 Unicode历史包袱、安全风险
语言差异 不同语言字符数量差异巨大,同一字符多种表示
单向性局限 自回归只能从左到右,不能双向全局理解

视觉压缩的效果

压缩比 OCR精度
不超过10倍 97%
20倍 约60%

关键洞察:信息密度才是关键,不是信息总量。

多尺度表示

文档部分 处理方式
表格和关键数字 高精度识别
页眉页脚 低分辨率快速扫过

这模拟了人类的选择性注意机制:不是所有信息都需要同等精度。

模拟抽象能力

人类记忆的遗忘不是简单删除,而是从具体细节向抽象概念转化。

记忆方式 说明
低分辨率图像 强制模型进行抽象
从模糊信号提取本质 不依赖清晰像素逐字读取

这种强制抽象可能比保留更多细节更接近智能本身。


范式之争的深层意义

视觉作为通用接口

观点 说明
OCR只是视觉→文本任务之一 文本→文本可转换成视觉→文本,反之不行
数字世界大量信息天然视觉形式 网页是CSS渲染后的视觉,不是纯文本
信息类型 视觉价值
网页 CSS渲染后的呈现
文档 版面、字体、表格结构
代码 缩进高亮的视觉意义
数据可视化 图表传达超过底层数据表

强行转成纯文本,就像把彩色电影转成黑白——可行但信息必然损失。

长上下文的根本性重构

方法 说明
现有技术 窗口扩展、稀疏注意力
问题 和Token数量增长做斗争
视觉压缩 用更少更密集的视觉Token表示同样信息

效率提升:单个A100 GPU每天处理20万页数据。


学术继承与工程创新

与现有工作的关系

工作 关系
字节跳动VR方法 相似思路,获会议Best Paper
DeepSeek工作 把研究成果做扎实、做产品化

工程化是被低估的创新

学术界在Environment里证明概念,真正可用需要解决无数细节:

问题 说明
边缘case 扫描质量差、图像倾斜、多语言混排
权衡 速度vs精度、分辨率档位选择
接口 开发者友好集成

DeepSeek发布推理代码、加速支持、DF处理——从Paper到Production Ready。


未解的问题

问题一:推理能力的代价

问题 说明
文本Token 离散性、可组合性,适合符号推理
视觉Token 连续表示,是否损失符号操作能力
看懂公式 ≠ 能推导 模型能看懂数学公式,不代表能进行数学推导

问题二:训练数据成本

如果未来模型基于视觉输入:

挑战 说明
渲染文本为图像 大量渲染工作
标注视觉版面 复杂标注需求
组合爆炸 不同分辨率、字体、样式

数据可能成为新瓶颈。

问题三:用户体验连续性

人类输入往往是纯文本:

转换 问题
打字、语音转文本 需要额外渲染层
渲染层 引入新延迟和复杂度

两个研究的共同启示

技术选择是范式问题

研究 挑战
Engram 不是如何做得更好,而是对计算的假设
OCR 不是优化文本处理,而是重新定义输入

限制催生创造力

限制 创新
算力约束 视觉压缩成为必然选择
计算浪费 Engram把查表和计算分离

工程化是最被低估的创新

把学术idea变成可用产品,本身就是对真实世界复杂性的深刻理解。

保持批判性乐观

拥抱新范式,同时清醒认知局限和未解问题。


常见问题

Q1:Engram和传统n-gram有什么区别?

传统n-gram是统计语言模型,Engram是用n-gram作为查表钥匙,从记忆库直接获取向量,绕过逐层计算。

Q2:为什么视觉压缩能提升效率?

一个图像Token能承载更多信息密度,比多个文本Token更高效。长上下文的计算复杂度是N²,减少Token数量能大幅降低计算成本。

Q3:这些研究什么时候能落地应用?

Engram已在DeepSeek模型中应用。OCR视觉压缩还在研究阶段,但方向值得关注。

Q4:Karpathy为什么说"视觉是通用接口"?

数字世界大量信息天然是视觉形式。把视觉转文本会损失信息,但文本可以渲染成视觉输入,不损失。视觉接口的覆盖范围更广。


一句话总结

DeepSeek的两项研究不是技术迭代,而是范式突破——把查表和计算分离,把视觉作为通用输入接口。

四个启示:技术选择是范式问题、限制催生创造力、工程化是创新、保持批判性乐观。

正如Karpathy所说:也许有一天回头看今天的文本Token,就像看早期的字符界面——曾经很实用,但终究会被更自然的交互方式替代。

范式之争才刚刚开始。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐