GPT Image 2.0全量上线，OpenAI重新拿回文生图王座

louwill12

2405人浏览 · 2026-04-22 14:19:13

louwill12 · 2026-04-22 14:19:13 发布

大家好，我是鲁工。

昨天，一直连续多日灰度的GPT Image 2.0正式全量上线，AI生图赛道又迎来一次大地震。

上一次OpenAI在生图模型方向搞出这么大动静，还是去年3月份的GPT-4o image generation那个模型，那会我用风靡一时的吉卜力风格来做AI视频，还在B站拿到了10w+的流量。去年12月份的时候，OpenAI发布了GPT-Image-1.5，效果一般，并且Sam也知道这玩意打不过谷歌的Nano Banana，所以本身也没多少宣传声量。

这一次，ChatGPT Images 2.0，算是重新夺回AI生图模型赛道的王座。Text-to-Image Arena跑分显示，GPT Image 2跑分能达到1512，远超谷歌的Nano Banana 2模型。

官方发布页在这里：

https://openai.com/index/introducing-chatgpt-images-2-0/

直接打开ChatGPT，就可以看到生图模型更新的提示：

这次ChatGPT Images 2.0更新，主要有如下几个亮点：

先说最核心的密集文字渲染。老问题是AI生图写字容易鬼画符，长段落基本不敢让模型处理。这次官方海报里放了手写笔记页、杂志跨页、学术海报，还有一张康托尔对角线证明的教学插图。字符密度明显拉上去了，排版也能撑得住。

多语言这块进步也很具体。官方演示里有日文漫画、中文漫画、泰文街景、韩文酒店品宣、印地语书店展示，还有希腊文、阿拉伯文、西里尔字母的排版作品。比起 GPT Image 1.5 那代，中日韩的字形还原明显上了一个台阶。

宽高比这个东西看似简单，但用过的都知道有多折腾。以前 DALL-E 3、chatgpt-image-latest 基本锁死几个档位，这次彻底铺开，banner、slide、海报、手机竖屏可以随便出。

真正和其他家拉开差距的是Thinking 模式。选 Thinking 或 Pro 模型后，生图过程能调 web search，能做视觉推理。官方举的一个例子是让模型查"OpenAI最新官方周边"，然后自己生成带各种T恤、帽子、钥匙扣的产品网格图。说白了就是生图也能上 agent。

另外多页连贯也终于补上了。一次可以要最多 8 个连续场景，多页漫画、分镜、产品画册能保持角色一致。这个是 Nano Banana Pro 之前的强项，OpenAI 这次把它追平了。

还有两个数字，最大分辨率到 2K，知识截止更新到 2025 年 12 月。

我简单举一些实测例子，可以感受下ChatGPT Images 2.0的强大生图能力。

诸葛亮朋友圈：

把Attention论文喂给GPT，生成讲解图：

生成抖音直播截图：

心脏解剖结构图：

中文文字稳定性方面，简直无敌了。感兴趣的朋友抓紧试试。

如果觉得有用，点个赞或者在看，也方便更多朋友看到。

我是鲁工，九年AI算法老兵，AI全栈开发者，深耕AI编程赛道。感兴趣的朋友也可以加我微信（louwill26_）交个朋友。

>/ 作者：鲁工

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

数字员工创业工具：一人创业全流程辅助工具搭配分析

综合来看，各类数字员工创业辅助工具不存在绝对优劣，只是适配单人创业不同环节、不同人群的差异化辅助载体。针对数字员工创业工具如何搭配使用这一问题，可以按照三个阶段形成清晰使用逻辑：想法验证阶段，以扣子app统筹调研节奏，搭配DeepSeek、Kimi完成市场分析，Notion归档资料，低成本判断项目可行性；项目推进落地阶段，以扣子app串联全部工作流，技术创业者搭配Cursor、Trae完成开发，非

DeepSeek技术社区

全网最全的GPT5.6分析，来了

DeepSeek技术社区

一周 30k+ stars 的 Skill 生态，3 个仓库代表 3 种工程师哲学

这恰恰说明大部分人没搞清楚一件事——：一个是 library（工具集合），一个是 framework（方法论框架），一个是 reference implementation（官方参考实现）。你把它们当同类装在一起，大概率会冲突 + 互相覆盖 + 让 Claude Code 行为变得不可预测。我做了 10 年后端架构，见过太多团队把「Spring」「Spring Boot」「Spring Cloud