本文将详细解析Stable Diffusion参数的含义,解决在使用Stable Diffusion时可能遇到的困惑。

一、负面提示(Negative Prompt)

负面提示,就是告诉AI你「不想要」生成什么内容。这是一个非常强大但常被忽略的功能。正确使用负面提示,可以帮助你迅速得到理想的生成结果,而不需要反复调整正面提示。

例如:

人像负面提示:畸形,丑陋,残缺,脸部切割,头部切割,多指,多臂,手部变异,多指连接

二、步数(Steps)

步数控制图像从随机噪声逐步去噪和生成的过程。通常步数越高结果越好,但到一定程度后增加步数收益递减。我们默认使用25步就能生成各种图像。

以下是不同情况下建议的步数:

  • 测试新提示词时,使用10-15步快速得到结果进行调整
  • 找到满意的提示后,增加到25步
  • 如果生成人脸或动物皮毛等需要细节的图像,可尝试提高到40步

需要注意的是,与旧版采样器LMS不同,新版DDIM和DPM Solver++采样器无需使用超高步数如100或150步。这会白白浪费GPU算力而无法提高图像质量。

三、采样器(Samplers)

Diffusion模型通过逐步去噪来生成图像。采样器算法则在每一步比较当前图像与提示语要求,逐步修改噪声以匹配文本描述。

我三种最常用的采样器:Euler A、DDIM和DPM Solver++。你可以测试哪种针对你的提示语效果最好,因为采样器的选择并无固定规则。这三种采样器运算速度很快,15-25步即可生成连贯的结果。

相比DPM Solver++,Euler A采样器生成的图像颜色更平滑、边缘不够清晰,具有“梦幻”效果。如果偏好这种效果,可选择Euler A采样器。

四、CFG(CFG Scale)

该参数控制AI的创造自由度。数字越低,AI创造性越高;越高,则越严格遵循提示语。

我们在OpenArt默认采用7的CFG值,平衡创造性和生成所需图像。低于5通常不建议,图像可能像AI幻觉;高于16也不建议,可能导致图像丑陋的人工痕迹。

不同CFG值范围适用于不同类型和目标的提示语:

  • CFG 2-6:创意但可能失真,不遵循提示,适合简短提示
  • CFG 7-10:大多数提示建议使用,平衡创造性和指引生成
  • CFG 10-15:当提示非常详细且清楚时使用
  • CFG 16-20:不建议使用,可能损害连贯性和质量
  • CFG >20:不建议用

五、种子数(Seed)

种子数决定了初始随机噪声,进而决定最终图像。这就是同样提示语和模型每次运行得到不同结果的原因,也是固定种子数和提示语可以重复生成同一图像的原因。

我们可以利用这一特性:

  • 控制角色特定特征:改变表情、发色、肤色等
  • 测试词语效果:修改提示语中的单个词测试差异
  • 改变风格:保留构图不变,改变风格

六、图片转图片(Img2img)

图片转图片原理与文本转图片完全一样,仅将随机噪声改为你提供的初始图片。

初始图片也会添加噪声,具体取决于“图片转图片强度”参数,范围0到1。0完全不添加噪声,生成与原图相同的图片;1表示完全用噪声替换图片,几乎等同直接进行文本转图片。

以下是根据使用目的建议的图片转图片强度:

  • 生成原图变体:建议强度0.5-0.75
  • 改变图片风格保持相似:建议多次使用更低强度如0.25,效果比一次使用高强度更好。我们采用4次0.25的强度,每次重新将生成图片输入进行风格转换,直到获得理想风格
相关阅读  Stable Diffusion和Midjourney应该如何选择 | 详细对比

Categorized in: