昨天深夜,OpenAI悄然发布了ChatGPT Images 2.0。

没有发布会,没有直播,没有Sam Altman的推特预热。就那么放在官网上,像一个答案——一个回答了AI图像生成领域最大问题的答案。

那个问题是:AI画的图里,字什么时候能写对?

一个被嘲笑两年的问题,终于有了答案

把时间拨回2024年3月。当时DALL-E 3画一张墨西哥餐厅菜单,结果是这样的:

  • “enchuita”(不是enchilada)
  • “churiros”(不是churros)
  • “burrto”(不是burrito)
  • “margartas”(不是margarita)

一整个菜单,没有一个菜名拼写正确。这件事被TechCrunch专门写了一篇文章,标题是"Why is AI so bad at spelling?"(AI为什么拼写这么烂?)。

两年过去了。现在让Images 2.0画同样的墨西哥餐厅菜单,结果可以直接挂到餐厅墙上用——顾客根本看不出是AI生成的。

这个进步听起来像小事。但它背后是整个AI图像生成范式的切换。

从"画"到"想":Images 2.0到底改了什么

旧模型(包括DALL-E 3和GPT-4o的图像功能)用的是扩散模型(Diffusion Model)。简单说,扩散模型的工作方式是从噪声中重建图像。问题在于,图像中的文字只占极少的像素面积,模型在重建时自然会把注意力放在占据更多像素的视觉元素上,文字就被"糊弄"过去了。

Images 2.0引入了OpenAI称之为"思考能力"(thinking capabilities)的新机制。虽然OpenAI拒绝在媒体简报中透露具体用了什么架构,但从表现来看,它很可能是结合了自回归模型(Autoregressive Model)的技术路线——这种模型的工作方式更像大语言模型,是逐像素"预测"应该画什么,而不是从噪声中"重建"。

这个区别听起来很学术,但效果是决定性的:

  • 小文字渲染:不再出现乱码和拼写错误
  • UI元素生成:按钮、图标、表单都能精确绘制
  • 密集构图:多元素复杂场景不再崩坏
  • 多语言文字:日语、韩语、印地语、孟加拉语等非拉丁文字体也有明显提升
  • 分辨率上限:支持最高2K分辨率输出

OpenAI官方原话是:“Images 2.0带来了前所未有的精确度和保真度。它不仅能概念化更复杂的图像,还能真正有效地将愿景变为现实——能够遵循指令、保留请求的细节、渲染那些经常让图像模型崩溃的精细元素。”

更像"AI设计师"而非"AI画师"

思考能力的加入,让Images 2.0的行为模式发生了质变。

以前的AI画图工具是"一句话生成一张图"。你给prompt,它给你结果。不满意就换词重试。

Images 2.0可以:

  1. 联网搜索:生成前先上网查资料,确保内容的准确性
  2. 多次迭代:从一个prompt生成多张候选图,自动筛选最优结果
  3. 自我校验:生成完成后会检查是否满足用户的所有要求

这意味着什么?意味着它可以完成以前AI画图工具根本做不了的任务:

  • 多尺寸营销素材:一次prompt,自动生成适配不同平台尺寸的整套物料
  • 多格漫画:理解分镜逻辑,生成连贯的多格故事漫画
  • 品牌视觉一致性:在多张图中保持logo、字体、配色的统一

代价是速度。OpenAI承认,生成复杂内容(比如多格漫画)需要几分钟。但这不是Bug,这是思考的时间——就像你让一个设计师做个完整的营销方案,他需要时间一样。

一周内的三个信号:AI图像生成进入终局?

看看最近一周发生了什么:

  • 4月17日,Anthropic发布Claude Design,正式进入AI视觉设计领域
  • 4月17日,一篇名为"Tokenmaxxing"的文章引发讨论——开发者过度依赖AI生成代码,反而降低了生产力
  • 4月21日,OpenAI发布Images 2.0

三个事件,指向同一个趋势:AI图像生成正在从"玩具"变成"工具",从"创意辅助"变成"创意执行"。

Claude Design瞄准的是快速视觉原型设计场景,Images 2.0则直接对标专业级图像生产。竞争的焦点已经从"谁画得更好看"变成了"谁更理解用户要什么"——而"理解"的背后,是思考能力和推理能力。

这也解释了为什么OpenAI对Images 2.0的模型架构讳莫如深。这不仅仅是图像生成技术的升级,更是OpenAI"思考"品牌在图像领域的延伸——和o系列推理模型一脉相承。

值得注意的三个细节

细节一:知识截止时间是2025年12月

这意味着Images 2.0对2026年发生的事情缺乏认知。如果你让它生成包含近期新闻人物的图像,准确度可能会打折扣。这个限制在ChatGPT的文字对话中同样存在,但在图像生成场景下,影响可能更大——因为你可能不会意识到图片中的信息是过时的。

细节二:API开放,但定价策略分层

gpt-image-2 API已经上线,但定价取决于输出质量和分辨率。OpenAI没有公布具体价格,但从这个定价策略可以看出,高质量图像生成被定位为高附加值服务,而非基础设施。

细节三:所有用户可用,但付费用户有特权

周二起,所有ChatGPT和Codex用户都能使用Images 2.0,但付费用户能生成更高级的输出。这个策略和GPT-4的发布路径一致——先用免费用户积累数据和反馈,再用付费用户变现。

这一次,受冲击最大的是谁?

不是Midjourney。

Midjourney走的是艺术创作路线,它的用户追求的是审美和风格化表达。Images 2.0的强项是精确性和实用性,两者服务的场景不同。

真正该紧张的是设计工具链中的中间环节:

  • 素材网站:当你能直接让AI生成精确到像素的营销素材,为什么还要去素材网站搜索?
  • 简易设计工具:当ChatGPT就能完成品牌物料的多尺寸适配,Canva的模板生意会受多大影响?
  • 设计外包:基础设计需求(菜单、海报、社交媒体图)的AI化程度会急剧加速

但设计师不需要恐慌。Images 2.0擅长的是"执行",不是"决策"。品牌策略、视觉语言、创意方向——这些依然需要人类的判断力。变化的是工作流程:设计师从"画图的人"变成"审图和指导AI画图的人"。

最后说一句

两年前,AI连菜单上的"burrito"都拼不对。

两年后,AI能生成2K分辨率的多格漫画,能自动适配多平台尺寸,能联网搜索确保准确性,能在生成后自我校验。

进步的速度不是线性的,是指数级的。

而OpenAI选择在深夜悄悄发布这个更新,没有任何宣传造势——也许他们知道,当产品本身足够强的时候,最好的营销就是不营销。

Images 2.0今天正式开放。你可以打开ChatGPT试试——让它画一张带有中文文字的海报,你会立刻感受到两年来的变化有多大。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐