这周最让我眼前一亮的消息,就是DeepSeek 悄悄上线了识图模式,正式迈入多模态行列。没有铺天盖地的宣传,直接灰度开测,很符合这家公司低调搞技术的风格,今天就用程序员的视角,跟大家聊透这件事。

一、先划重点:这次到底更了啥?

时间线很清晰:
4 月 24 日:DeepSeek-V4 预览版发布,纯文本模型,参数和上下文拉满
4 月 29 日:直接甩出识图模式灰度测试,多模态团队负责人陈小康一句 “Now, we see you.” 宣告 “开眼”

image.png

核心变化只有一个:从只会 OCR 提取文字,变成真・看懂图片。以前传图只能读文字、扫文档,现在能识别物体、分析场景、解读图表、判断地标,甚至能看 CT 影像给方向,彻底摆脱 “盲眼鲸鱼” 的标签。

界面上也很直观,对话页直接多了识图模式,和快速模式、专家模式并列,标注 “图片理解功能内测中”,被灰度到的用户直接能用。

image.png

二、实测能用吗?怎么上手?

目前还是小范围灰度,不是所有人都有入口,步骤很简单:

打开 DeepSeek App / 网页版,看顶部有没有 “识图模式” 标签
切换模式,点输入框旁的上传按钮,传 PNG/JPG(建议 10MB 内)
发指令就能解析,复杂分析可以开 “深度思考”,描述越精准结果越准

踩坑提醒:部分账号能看到入口但暂不可用,属于功能没配置完,等刷新就行;另外目前只做图像理解,不支持文生图、视频理解,别踩错场景。

三、锐评:这波更新到底香不香?

聊点实在的:补全最后一块短板之前 DeepSeek 靠推理、代码、性价比出圈,但缺视觉能力,场景受限。现在多模态补齐,直接变成 “能写代码、能推理、能看图” 的全能选手,做工具、搭应用的选择又多了一个。

性价比依旧是杀招这家公司向来喜欢 “价格打骨折”,之前 API 定价就很亲民,这次多模态上线,大概率会延续低价策略,对开发者、小团队太友好,成本能压一大截。

日常识物、分析图表、解读文档完全够用,灰度阶段能这水平,已经超出预期。

国产多模态彻底卷起来了,字节、阿里的多模态早就打得火热,现在 DeepSeek 加入,意味着国产主流大模型基本全员 “开眼”。卷技术、卷价格、卷场景,最后受益的都是我们开发者和用户。

image.png

四、接下来可以期待什么?

全量上线:目前灰度,估计很快会分批放开,没资格的再等等
API 开放:接口已经有识图字段,技术准备完毕,商用快了
开源可能:DeepSeek 一贯爱开源,底层模型说不定哪天就放出来,社区又有的玩了

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐