6月27日,阿里推出了最新的多模态统一理解与生成模型Qwen VLo,在原始多模态理解与生成能力基础上进行了升级,增强了对图像的理解深度,生成图像更准确,一致性更强。

可以生成图像、编辑再创作图像、生成海报、组合物体等。后面它还会上线多图输入、极端长宽比图像生成功能。

作为一个经常要和图片打交道的自媒体人,我立马上手测试了一番。以下是5个超实用的案例,附上具体提示词:

一键生成封面图

提示词:生成一张科技感十足的公众号封面图,主题是AI改变生活,要有蓝色渐变背景和发光的电路元素

使用体验:生成的封面图很有质感,配色和元素都很现代。但是图片中间的文字翻车了,其实这个问题是AI图像模型的一个挑战,主要是因为模型在训练过程中学习的标准汉字太少了,而且汉字本身笔画又复杂,超出了当前模型在像素级别上精确模仿的能力范围。之前看到新版模型(例如Midjourney V6及更高版本)已经提升了对文字的渲染,包括对中文的支持。

更换背景颜色

提示词:修改这张证件照的背景颜色,改成白色。要求只修改背景颜色,不修改其他内容。

(左侧原图,右侧AI修改)

使用体验:右侧AI修改后的背景是白色,主体人物被完整地抠出,但边缘过渡略显生硬,特别是头发和肩膀区域与背景的融合不够自然。这可能是因为AI在抠图时对细节的识别不够精细,导致边缘像素处理不够平滑。

生成营销海报

提示词:做一张高质量咖啡店宣传海报,画面以温暖柔和的阳光色调为主,背景是一家温馨文艺风格的咖啡馆室内场景,窗边洒落阳光,桌上摆放拉花精致的拿铁咖啡、烘焙甜点和书籍。整体氛围温暖惬意,具有生活方式感和治愈气质。海报中配有中文文案“Coffee, comfort, connection”,字体为手写风或简约风格,画面保留品牌logo和二维码位置,适合用于咖啡店日常推广或新品上市宣传,画幅比例16:9,高清写实风格或插画风皆可。

使用体验:这张图片整体的风格与颜色搭配我还是很喜欢的,但是仔细看图中的英文存在明显的拼写错误(将第一个 comfort拼成了comfot)。

修改表情包

提示词:把这个猫咪图片改成戴墨镜的酷猫风格,保持原有的姿势

使用体验:效果比较符合提示词的要求,将原图中的可爱猫咪转变为戴着墨镜的酷猫风格,改完之后猫猫变胖了,花纹也变了。

内容配图智能延展

提示词:把这张16:9的横图延展成9:16的竖图,保持画面主体不变,自然补充上下背景

使用体验:在公众号、小红书、抖音时常常遇到需要修改图片尺寸的问题,但是这次一次它好像没有明白我的意图,没有做修改。

写在最后

Qwen VLo目前还在预览阶段,偶尔会有一些小bug,比如生成的图片细节可能不够完美,或者理解指令有偏差。但整体来说,对于一些简单的图片修改是可以完成的。上边的测试案例有一些局限,因为我只做了一轮提示,其实大家可以根据需求多次迭代调整提示词,让它生成的图片更符合你的预期.

体验地址:chat.qwen.ai(注:目前为预览版,功能会持续优化)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐