大家好,我是鲁工。

昨天,一直连续多日灰度的GPT Image 2.0正式全量上线,AI生图赛道又迎来一次大地震。

上一次OpenAI在生图模型方向搞出这么大动静,还是去年3月份的GPT-4o image generation那个模型,那会我用风靡一时的吉卜力风格来做AI视频,还在B站拿到了10w+的流量。去年12月份的时候,OpenAI发布了GPT-Image-1.5,效果一般,并且Sam也知道这玩意打不过谷歌的Nano Banana,所以本身也没多少宣传声量。

这一次,ChatGPT Images 2.0,算是重新夺回AI生图模型赛道的王座。Text-to-Image Arena跑分显示,GPT Image 2跑分能达到1512,远超谷歌的Nano Banana 2模型。

官方发布页在这里:

https://openai.com/index/introducing-chatgpt-images-2-0/

直接打开ChatGPT,就可以看到生图模型更新的提示:

这次ChatGPT Images 2.0更新,主要有如下几个亮点:

先说最核心的密集文字渲染。老问题是AI生图写字容易鬼画符,长段落基本不敢让模型处理。这次官方海报里放了手写笔记页、杂志跨页、学术海报,还有一张康托尔对角线证明的教学插图。字符密度明显拉上去了,排版也能撑得住。

多语言这块进步也很具体。官方演示里有日文漫画、中文漫画、泰文街景、韩文酒店品宣、印地语书店展示,还有希腊文、阿拉伯文、西里尔字母的排版作品。比起 GPT Image 1.5 那代,中日韩的字形还原明显上了一个台阶。

宽高比这个东西看似简单,但用过的都知道有多折腾。以前 DALL-E 3、chatgpt-image-latest 基本锁死几个档位,这次彻底铺开,banner、slide、海报、手机竖屏可以随便出。

真正和其他家拉开差距的是Thinking 模式。选 Thinking 或 Pro 模型后,生图过程能调 web search,能做视觉推理。官方举的一个例子是让模型查"OpenAI最新官方周边",然后自己生成带各种T恤、帽子、钥匙扣的产品网格图。说白了就是生图也能上 agent。

另外多页连贯也终于补上了。一次可以要最多 8 个连续场景,多页漫画、分镜、产品画册能保持角色一致。这个是 Nano Banana Pro 之前的强项,OpenAI 这次把它追平了。

还有两个数字,最大分辨率到 2K知识截止更新到 2025 年 12 月

我简单举一些实测例子,可以感受下ChatGPT Images 2.0的强大生图能力。

诸葛亮朋友圈:

把Attention论文喂给GPT,生成讲解图:

生成抖音直播截图:

心脏解剖结构图:

中文文字稳定性方面,简直无敌了。感兴趣的朋友抓紧试试。

如果觉得有用,点个赞或者在看,也方便更多朋友看到。

我是鲁工,九年AI算法老兵,AI全栈开发者,深耕AI编程赛道。感兴趣的朋友也可以加我微信(louwill26_)交个朋友。

图片

>/ 作者:鲁工

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐