AI创业与趋势--DeepSeek最新研究：AI架构的范式突破

Karpathy说：或许所有输入都应该是图像，即使是纯文本，也应该渲染成图像再输入。听起来很荒谬——我们花了几十年把扫描文档转成可搜索文本，现在要反过来？但这揭示了一个被忽视的真相。DeepSeek的两项研究不是技术迭代，而是范式突破——把查表和计算分离，把视觉作为通用输入接口。四个启示：技术选择是范式问题、限制催生创造力、工程化是创新、保持批判性乐观。正如Karpathy所说：也许有一天回头看今

慢慢的写代码

145人浏览 · 2026-04-03 10:49:32

慢慢的写代码 · 2026-04-03 10:49:32 发布

2025年，DeepSeek团队发布了两项重要研究：Engram和OCR视觉压缩。

这两项工作看起来是技术迭代，实际上是对AI架构范式的根本性挑战。

Engram：给AI装上"字典"

核心问题

假设主持人问：“中国古代四大发明是什么？”

人类的回答方式：直接从记忆调取——造纸术、印刷术、火药、指南针。

AI大模型的回答方式：

层级	计算过程
第1层	接收"四大发明"输入
第2层	推理到"中国古代"
第3层	关联到"古代技术成就"
第4层	定位"历史知识"
第5层+	逐层拼出答案

就像问一个人"一加一等于几"，他不直接说2，而是从头推导数字发明史。

问题本质：用神经网络计算模拟人类记忆，太浪费了。

语言处理的两种任务

类型	特点	应该怎么处理
推理类	理解转折关系、分析情感	需要深度计算
检索类	张仲景是谁、四大发明是什么	可以直接查表

现在Transformer把两种任务都当计算做，导致前几层被迫重建静态知识，浪费推理能力。

Engram的核心创新

把查表的归查表，把计算的归计算。

创新	说明
n-gram查表	用连续词作为钥匙查找向量
哈希映射	解决组合爆炸问题
上下文门控	同一词在不同语境用不同记忆

参数分配的最优配置

实验发现：

配置	性能
100%计算（纯MoE）	一般
75%计算+25%Engram	最优
100%Engram（纯记忆）	性能下降

为什么中间最优？

意外的发现

Engram提升最大的不是知识任务，而是推理任务。

任务类型	提升
复杂推理（BH测评）	5分提升
代码和数学	显著提升
阅读理解	93%保留

原因：原本30层网络的前5层忙于重建静态知识，现在30层全部用于推理。网络等于是变深了。

OCR视觉压缩：重新定义输入范式

反直觉的观点

Karpathy说：或许所有输入都应该是图像，即使是纯文本，也应该渲染成图像再输入。

听起来很荒谬——我们花了几十年把扫描文档转成可搜索文本，现在要反过来？

但这揭示了一个被忽视的真相。

文本Token化的妥协

问题	说明
信息损失	笑脸emoji只是符号，不是富含视觉信息的笑脸
视觉元素抹除	颜色、字体大小要么被删，要么需要额外标记
编码问题	Unicode历史包袱、安全风险
语言差异	不同语言字符数量差异巨大，同一字符多种表示
单向性局限	自回归只能从左到右，不能双向全局理解

视觉压缩的效果

压缩比	OCR精度
不超过10倍	97%
20倍	约60%

关键洞察：信息密度才是关键，不是信息总量。

多尺度表示

文档部分	处理方式
表格和关键数字	高精度识别
页眉页脚	低分辨率快速扫过

这模拟了人类的选择性注意机制：不是所有信息都需要同等精度。

模拟抽象能力

人类记忆的遗忘不是简单删除，而是从具体细节向抽象概念转化。

记忆方式	说明
低分辨率图像	强制模型进行抽象
从模糊信号提取本质	不依赖清晰像素逐字读取

这种强制抽象可能比保留更多细节更接近智能本身。

范式之争的深层意义

视觉作为通用接口

观点	说明
OCR只是视觉→文本任务之一	文本→文本可转换成视觉→文本，反之不行
数字世界大量信息天然视觉形式	网页是CSS渲染后的视觉，不是纯文本

信息类型	视觉价值
网页	CSS渲染后的呈现
文档	版面、字体、表格结构
代码	缩进高亮的视觉意义
数据可视化	图表传达超过底层数据表

强行转成纯文本，就像把彩色电影转成黑白——可行但信息必然损失。

长上下文的根本性重构

方法	说明
现有技术	窗口扩展、稀疏注意力
问题	和Token数量增长做斗争
视觉压缩	用更少更密集的视觉Token表示同样信息

效率提升：单个A100 GPU每天处理20万页数据。

学术继承与工程创新

与现有工作的关系

工作	关系
字节跳动VR方法	相似思路，获会议Best Paper
DeepSeek工作	把研究成果做扎实、做产品化

工程化是被低估的创新

学术界在Environment里证明概念，真正可用需要解决无数细节：

问题	说明
边缘case	扫描质量差、图像倾斜、多语言混排
权衡	速度vs精度、分辨率档位选择
接口	开发者友好集成

DeepSeek发布推理代码、加速支持、DF处理——从Paper到Production Ready。

未解的问题

问题一：推理能力的代价

问题	说明
文本Token	离散性、可组合性，适合符号推理
视觉Token	连续表示，是否损失符号操作能力
看懂公式 ≠ 能推导	模型能看懂数学公式，不代表能进行数学推导