Stable Diffusion 零基礎新手入門!Part 2 - 提示詞技巧 & 算圖參數簡介

PAPAYA 電腦教室
20 Nov 202312:05

TLDR本视频介绍了Stable Diffusion 1.5版本和新模型SDXL在生成图像时的提示词技巧和重要参数。讲解了如何通过具体和精确的提示词来生成高质量的图像,并探讨了使用Negative Prompt排除不希望出现的元素。介绍了提高图像质量的Refiner和VAE模型,以及如何安装和使用它们。还讨论了调整提示词权重、Seed参数的影响、取样方法和步数对图像生成的影响。最后,分享了放大图像的技巧,包括使用Upscaler和img2img功能。

Takeaways

  • 📝 提示詞(Prompt)是使用Stable Diffusion生成圖片的关键,類似於搜索引擎中的關鍵字。
  • 🖼️ SD 1.5版本建議生成圖片的尺寸接近訓練時使用的512 x 512像素,以保持品質。
  • 🚫 Negative Prompt(反向提示)用於指定圖片中不希望出現的元素。
  • 🌟 SDXL (Stable Diffusion XL)模型允許用更少的Prompt生成更高品質的圖片。
  • 🔗 官方提供了Refiner和VAE模型來分別增強影像細節和提升圖片清晰度、色彩飽和度。
  • 📌 使用SDXL時,推薦的圖片尺寸為1024 x 1024像素。
  • 🔄 Batch Count和Batch Size控制每次算圖時生成的圖片數量和計算張數,需根據顯卡記憶體調整。
  • 🎨 好的Prompt應具體描述人、事、時、地、物,SDXL對自然語言的理解能力較強。
  • 🌱 Seed值控制圖片生成的初始狀態,相同Seed值下修改Prompt產生的圖片構圖變化不大。
  • ⚖️ 調整關鍵字的權重值可以影響元素在畫面中的出現頻率和重要性。
  • 🔍 選擇不同的Sampling Method (取樣方法)會影響圖片的精確度、隨機性和算圖速度。

Q & A

  • Stable Diffusion 1.5 版本在生成图片时有哪些提示词的建议?

    -在使用 Stable Diffusion 1.5 版本时,建议使用多个关键字组成的提示词,关键字之间用逗号分隔。由于模型是使用 512 x 512 像素的图片进行训练的,生成图片的尺寸建议不要与此大小相差太多,以获得较好的品质。此外,用户可能需要在提示词中加入关于画质的关键字,以优化生成的结果。

  • Negative Prompt 的功能是什么?

    -Negative Prompt 用于告诉 Stable Diffusion 在图片中不希望出现的元素,例如在街景中只保留行人而不包含任何车辆。它也可以用来输入不希望出现的画质方面的关键字,如避免变形、丑陋和模糊的物体。

  • Stable Diffusion XL (SDXL) 模型相比于 SD 1.5 有哪些改进?

    -SDXL 模型允许用户用更少的提示词生成品质更好的图片。它使用 1024 x 1024 的图形进行训练,因此可以生成更细腻且精致的细节。此外,SDXL 对自然语言的理解能力更高,允许用户使用完整的英文句子来描述想要的画面。

  • Refiner 和 VAE 模型分别有什么作用?

    -Refiner 模型可以在生成的图片上加入更多的影像细节,而 VAE 模型则用来提升图片的清晰度和色彩饱和度。这两个模型并非使用 SDXL 生成图片的必要文件,但可以进一步优化图像质量。

  • 如何使用 Seed 参数来控制图片生成的一致性?

    -Seed 参数决定了图片生成的初始状态。当 Seed 的值为 -1 时,系统会随机决定初始状态,导致即使使用相同的提示词,生成的图片也会有所不同。通过点击「回收」按钮,系统会从当前图片中获取 Seed 值并固定下来,这样在修改提示词后,生成的图片构图不会有太大变化。

  • 如何调整提示词中关键字的权重?

    -可以通过在关键字两侧添加圆括号或方括号来调整权重。圆括号越多,关键字的影响力提高的倍数越多;方括号越多,则关键字的影响力减小。另外,可以按住 Ctrl 键配合键盘的上下方向键直接用数值来调整权重。

  • Sampling Method (取样方法) 中 Euler a 和 DPM++ 2M Karras 有什么不同?

    -Euler a 的算图速度快,精确度较低,适合用来做算图的测试和效果评估。而 DPM++ 2M Karras 的精确度较高,算图速度较慢,但能生成细节更多的高品质影像。

  • 如何使用 Upscaler (放大器) 来提高图片的分辨率?

    -可以将原始尺寸的图片送到 Extras 标签,然后选择一个 Upscaler 来放大图片。对于照片或写实风格的画作,可以使用 R-ESRGAN 4x+;对于动漫风格的图片,则可以使用标注 Anime6B 的放大器。

  • CFG Scale 是用来控制什么的?

    -CFG Scale 用来控制 AI 绘画时的「创造力」。数值越低,生成的图像包含的创意和变化越多,但与输入的提示词关联性也越少。反之,数值越高,AI 会更严格地遵循提示词,但图片的艺术性和多样性会变差。

  • 如果用户希望一键生成高分辨率的图片,应该使用哪个功能?

    -用户可以回到「文生图」的页面,启用 Hires .fix (高分辨率修复) 功能。这个功能结合了 Upscaler 和 img2img 的功能,允许用户指定放大的倍数、放大器的类型和重绘的次数,以及降噪的强度,从而一键生成高分辨率的图片。

  • 在设置图片生成的尺寸时,应该注意什么?

    -由于 SDXL 和 SD 1.5 都是基于特定尺寸的图像进行训练的,擅自调整图片的宽高可能会导致生成图像的质量下降或出现错误细节。如果需要生成高分辨率图片,可以使用 Upscaler 或 img2img 功能进行二次绘制或放大。

  • 在 Stable Diffusion 中,如何使用提示词来控制生成图片的风格?

    -在提示词中加入艺术家的名字或特定的画作风格可以显著影响生成图片的风格。例如,加入 'Comic Book Style' 会产生美漫风格的画作,而 'Flat Vector Illustration' 则会产生向量插画的风格。

  • 在调整 Sampling Steps (取样步驟) 时,应该注意什么?

    -虽然增加 Sampling Steps 的数值可以使 AI 用更多步骤来绘制图片,从而可能提高画质,但实际上改善有一个递减效应。当图片已经绘制得差不多时,AI 继续绘制只会花费更多时间,对画质的提升幅度有限。通常,使用 Euler a 取样器时,取样步驟设为 20 即可;而选择 DPM++ 2M Karras 时,步数设在 30 - 40 可以取得算图速度和画质之间的平衡。

Outlines

00:00

🎨 Introduction to Prompt Techniques and Parameters in Stable Diffusion 1.5

This paragraph introduces the concept of using prompts in Stable Diffusion 1.5 (SD 1.5) for generating images, akin to using Google search with multiple keywords separated by commas. It emphasizes the importance of maintaining the aspect ratio similar to the model's training size (512x512 pixels) for optimal quality. The paragraph also discusses the use of Negative Prompt to exclude undesired elements from the generated images and the limitations of SD 1.5 compared to Midjourney in producing high-quality images with fewer keywords. An introduction to the new Stable Diffusion XL (SDXL) model is provided, which allows for better image generation with fewer prompts. Links to download SDXL and additional models like Refiner and VAE for further image enhancement are mentioned.

05:04

🔍 Understanding Prompt Precision and Advanced Techniques in SDXL

The second paragraph delves into the intricacies of crafting effective prompts for the SDXL model, highlighting the importance of specificity and the ability to use complete sentences for better comprehension by the AI. It discusses the significant impact of artist names and art styles on the generated images. The concept of Seed value for consistency in image generation is introduced, along with the method of adjusting keyword weights using parentheses and keyboard shortcuts. The paragraph also covers important parameters like Sampling Method, Sampling Steps, and CFG Scale, explaining their effects on image quality, creativity, and adherence to prompts.

10:05

🖼️ Methods for Upscaling Images and Future Stable Diffusion Enhancements

The final paragraph focuses on techniques for upscaling images generated by Stable Diffusion, offering two approaches: using an Upscaler for different image styles or employing the img2img feature for secondary drawing based on an existing image. The paragraph outlines the process for each method, including selecting the appropriate放大器 (Upscaler) and setting parameters for noise reduction and image consistency. It also teases upcoming content on special style drawing models and expansion features in future videos, such as ControlNet for advanced graphic control.

Mindmap

Keywords

💡Stable Diffusion

Stable Diffusion是一種基於深度學習的圖像生成模型,能夠根據使用者輸入的提示詞(Prompt)生成相應的圖像。在這個教學视频中,講解了如何使用Stable Diffusion 1.5和新模型Stable Diffusion XL(SDXL)來生成更高品質的圖片。

💡提示詞 (Prompt)

提示詞是使用者提供給Stable Diffusion模型的關鍵信息,用於指導模型生成圖像的內容。提示詞由多個關鍵字組成,這些關鍵字之間用逗號分隔。恰當的提示詞能夠讓模型更精確地理解使用者的需求,從而生成更符合預期的圖像。

💡算圖參數

算圖參數是指在使用Stable Diffusion進行圖像生成時,可以調整的一系列設置,這些設置會影響生成圖像的品質、風格和細節等。這些參數包括圖片尺寸、取樣方法、取樣步驟、CFG Scale等,用戶可以根據自己的需求進行調整。

💡Negative Prompt (反向提示)

Negative Prompt是一種特殊的提示詞,用於告知Stable Diffusion在生成圖像時應避免出現的元素或特徵。這可以幫助模型更精確地排除不想要的內容,從而生成更符合使用者需求的圖像。

💡Refiner

Refiner是Stable Diffusion的一個擴展模型,它能夠在已生成的圖片上進行細節的增強和改進,使得圖像更加精緻和真實。Refiner通常用於提升圖像的清晰度、細節豐富度和藝術性。

💡VAE

VAE是變分自編碼器(Variational Autoencoder)的簡稱,它是一種深度學習模型,用於提升圖像的清晰度和色彩飽和度。在Stable Diffusion中,VAE可以用來優化已生成圖像的視覺效果,使其更加生動和真實。

💡Seed (種子)

Seed在Stable Diffusion中指的是一個隨機數值,用於控制圖像生成的初始狀態。每個Seed值都會導致生成的圖像有所不同,即使使用相同的提示詞。通過固定Seed值,可以保證在修改提示詞後生成的圖像在構圖上保持一致。

💡權重調整

在Stable Diffusion中,權重調整是指對提示詞中各個關鍵詞的重要性進行修改,以影響生成圖像的內容。通過增加圓括號或方括號來提高或降低關鍵詞的權重,從而改變圖像中相應元素的出現頻率和強度。

💡Sampling Method (取樣方法)

Sampling Method是指在Stable Diffusion中用於生成圖像的算法方式。不同的取樣方法會影響圖像的生成速度、精確度和隨機性。常見的取樣方法包括Euler a和DPM++ 2M Karras,前者速度快但精確度較低,後者精確度高但速度較慢。

💡CFG Scale

CFG Scale是控制AI在繪圖時創造力的參數。該數值較低時,生成的圖像包含更多的創意與變化,但與輸入的提示詞關聯性較少;數值較高時,AI會更嚴格地遵循提示詞,但圖片的藝術性和多樣性可能下降。

💡Upscaler (放大器)

Upscaler是一種用於提高圖像解析度的工具或算法。在Stable Diffusion中,Upscaler可以將生成的圖像進行放大,同時保持或提升圖像的品質。不同的Upscaler採用不同的演算法來達到最佳的放大效果。

💡Hires .fix (高解析修復)

Hires .fix是一種特殊功能,用於生成高解析度的圖片。它能夠結合Upscaler和圖生圖的技術,一次性完成圖片的放大和細節修復,直接產生高品質的大尺寸圖片。

Highlights

Stable Diffusion 1.5 (SD 1.5) 使用提示詞生成圖片,類似於搜索引擎使用關鍵字。

生成圖片的長宽建议与SD 1.5训练时使用的512 x 512像素相近,以获得更好的品質。

Stable Diffusion 用户傾向于在提示詞中加入关于畫質的關鍵字,以优化生成的圖片。

Negative Prompt (反向提示) 用于指定圖片中不希望出现的元素。

Stable Diffusion XL (SDXL) 模型允许用更少的提示詞生成品質更好的圖片。

SDXL模型使用1024 x 1024像素的图形进行训练,与SD 1.5相比,能呈现更細膩且精緻的细节。

Refiner模型可以在生成的圖片上加入更多的影像細節。

VAE模型用來提升圖片的清晰度和色彩飽和度。

使用具體的Prompt能得到更好的算圖結果,SDXL对自然语言的理解能力较高。

藝術家的名字和畫作風格在Prompt中具有显著的影响力。

Seed (種子) 参数控制圖片生成的初始状态,相同Seed值会产生相似的圖片。

通过调整關键字的權重值,可以控制元素在畫面中的出現程度。

不同的Sampling Method (取樣方法) 影响圖片的精確度、隨機性和算圖速度。

CFG Scale用來控制AI繪圖時的創造力,数值高則更严格遵循Prompt。

使用Upscaler (放大器) 可以放大圖片,提高解析度。

通过img2img (圖生圖) 功能,Stable Diffusion可以进行二次繪製以放大圖片。

Hires .fix (高解析修復) 功能简化了生成高解析圖片的流程。

SDXL和其他模型相比,能更好地捕捉人、事、時、地、物等细节。

在Automatic1111介面中,可以載入和使用VAE模型来优化圖片。

通过调整Prompt中的元素和权重,可以实现对生成圖片的精细控制。

使用SDXL模型时,建议根据训练尺寸调整生成圖片的長宽值。

Stable Diffusion提供了多种工具和模型,以满足不同风格和需求的图像创作。