DALL·E 3 优势

更准确理解提示

DALL·E 3最大的改进在于生成图像更准确遵循文本提示。通过在训练中使用图像自动生成的描述文字,大幅提升了遵循提示的能力。测试发现,DALL·E 3生成的图像显著更加符合提示要求。

例如,在“双螺旋DNA森林”的提示下,DALL·E 3成功呈现DNA双螺旋的模式,而Stable Diffusion XL基础模型则未显示此结构。在提高关键词权重后,Stable Diffusion XL才开始出现双螺旋,但混合效果不佳。

文本渲染更逼真

尽管Stable Diffusion XL在渲染文本上有很大提升,DALL·E 3在准确呈现文本提示方面仍占优势。无论是广告牌字还是路标提示,DALL·E 3生成的文字更清晰易读。

DALL·E 3 劣势

样式单一

Stable Diffusion XL可呈现更丰富的画风。它生成照片更加逼真,同时社区开发的自定义模型也可支持多种艺术风格。相比之下,DALL·E 3作为单一模型,样式局限性更大。

无法微调图像

DALL·E 3暂不支持图像微调,如局部修补、扩充等。这方面Stable Diffusion XL更胜一筹。另外,DALL·E 3需要通过ChatGPT提示,无法直接控制文本提示,减弱了专业用户的微调能力。

最后

DALL·E 3更易上手,生成首次尝试就可用的图像概率更大,特别适合创意灵感生成。而Stable Diffusion XL具有更强的艺术创作能力,可通过不断微调生成理想效果。两者各有优势,可互相借鉴。DALL·E 3可为Stable Diffusion XL生成初始图像;Stable Diffusion XL可为DALL·E 3提供图像扩充。

相关阅读  神奇的ControlNet | AI绘画控制人体姿势

Categorized in: