Stable Diffusion UI 界面參數(shù)介紹 -文生圖模塊

Stable Diffusion UI 界面參數(shù)介紹 -文生圖模塊

一、基礎(chǔ)模型和VAE配置

Stable Diffusion 大模型(checkpoint):

釋義:一種深度學(xué)習(xí)文本到圖像生成模型,也就是俗稱底模(經(jīng)常聽到SD1.0,SD1.5, SD2.0.這是官方發(fā)布的版本),基于底模微調(diào)訓(xùn)練出來的就是大模型(checkpoint),微調(diào)過程中通常使用了大量高質(zhì)量的圖片,所以通常可以生成更高質(zhì)量的圖片,也就是Stable diffusion使用的主模型。

默認(rèn)文件位置:Stable-diffusion-web-ui/models/Stable-Diffusion/ ,一般為ckptsafetensors格式 。

優(yōu)秀大模型推薦(civitai.com):

VAE(Variational Auto-Encoder)

釋義:將潛空間的數(shù)據(jù)轉(zhuǎn)換為正常圖像 ,可以簡單理解為濾鏡, 用于圖片亮度和飽和度的修正、畫面較正和以及補光等。一般在繪圖時如果出現(xiàn)圖片亮度過低、發(fā)灰等問題時就需要用到。

默認(rèn)文件位置:Stable-diffusion-web-ui/models/VAE/ ,VAE 模型的后綴為 .pt 或 .safetensors,體積一般為 335M 或 823M。

功能模塊介紹

  • **txt2img:**通過文本的描述來生成圖片。

  • img2img:通過以已有圖片為基礎(chǔ)生成相似的圖片。

  • **Extras:**額外的一些功能,比如圖片放大和去模糊這些功能。

  • **PNG info:**獲取圖片信息,若圖片是由AI生成的圖片,當(dāng)上傳一張圖片后,這里會提示圖片的相關(guān)prompt關(guān)鍵字與模型參數(shù)設(shè)置。

  • **checkpoint merger:**模型合并,可以合并多個模型,配置多個模型的權(quán)重來生成圖片。

  • **Train:**通過自己的數(shù)據(jù)集(圖片和相關(guān)數(shù)據(jù))訓(xùn)練模型。

  • Settings: UI界面設(shè)置。

  • **Extensions:**插件擴展。

  • 提示詞模塊

    正向提示詞(prompt)

    釋義:對圖片信息的正向描述,也就是我們想要圖片展現(xiàn)的樣子,通??梢詮娜宋锘蛑黧w特征、場景、環(huán)境、畫風(fēng)等角度描述圖片

    通用正向提示詞:

    中文釋義英文釋義中文釋義英文釋義中文釋義英文釋義高質(zhì)量best quality高細(xì)節(jié)highly detailed杰作masterpiece超細(xì)節(jié)ultra-detailed插圖illustration

    示例:

    best quality,masterpiece,highres,cg,
    1girl,weapon,sword,long hair,dress,water,solo,jewelry,white dress,earrings,hair ornament,splashing,upper body,hair bun,black hair,lighting,candid,Photograph,high resolution,4k,8k,Bokeh,

    負(fù)面提示詞(negative_prompt)

    釋義:不希望生圖圖片中可能包含的不協(xié)調(diào)內(nèi)容,比如低分辨率,畸形等等。

    常用提示詞:

    中文釋義英文釋義中文釋義英文釋義中文釋義英文釋義低分辨率low resolution解剖結(jié)構(gòu)不良poor anatomy文本text不好的手poor hands錯誤error缺少手指missing fingers額外的手指extra finger少量手指fewer fingers裁剪的cropped最差質(zhì)量worst quality低質(zhì)量low quality普通質(zhì)量normal quality偽影,偽像artifacts署名,簽名signature水印watermark用戶名username模糊的blurry缺少手臂missing arms長脖子long neck駝背的humpbacked不好的腳poor feet不適宜工作場所NSFW

    示例:(((simple background))),monochrome,lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,lowres,bad anatomy,bad hands,text,error,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,ugly,pregnant,vore,duplicate,morbid,mut ilated,tran nsexual,hermaphrodite,long neck,mutated hands,poorly drawn hands,poorly drawn face,mutation,deformed,blurry,bad anatomy,bad proportions,malformed limbs,extra limbs,cloned face,disfigured,gross proportions,(((missing arms))),(((missing legs))),(((extra arms))),(((extra legs))),pubic hair,plump,bad legs,error legs,username,blurry,bad feet,

    后面會針對提示詞做一期專欄介紹。

    輔助模塊:

    LoRA模型

    釋義:LoRA(Low-Rank Adaptation of Large Language Models),可以理解為大模型的補丁,用于修改風(fēng)格/對象。性價比很高(效果好而且訓(xùn)練較為快速和簡單),所以很常用。

    默認(rèn)文件路徑:stable-diffusion-webui\models\Lora,LoRA模型通常是10~200 MB,常見格式為ckpt(safetensors)。

    LoRA的原理是凍結(jié)預(yù)訓(xùn)練好的模型權(quán)重參數(shù),然后在每個Transformer塊(利用注意力機制來提高模型訓(xùn)練速度)里注入可訓(xùn)練的層,由于不需要對模型的權(quán)重參數(shù)重新計算梯度,所以可以減少參數(shù)量和計算量,提高訓(xùn)練效率和生成質(zhì)量。

    Embedding模型(Textual inversion)

    釋義:文本編碼器模型,用于改變文字向量。 embedding模型用于定義新關(guān)鍵字來生成新的對象或風(fēng)格的小文件(多用于風(fēng)格引導(dǎo)),可以將其理解為一組 Prompt。

    默認(rèn)文件路徑: stable-diffusion-webui\embeddings ,后綴為 .pt 或者 .safetensors,體積非常小,一般只有幾 kb。

    個人理解作用機制是通過文字向量的方式特定提示詞可以指向特定的角色或者風(fēng)格,從而使得可以生成我們想要的人物形象或者風(fēng)格。

    hypernetworks模型

    釋義:hypernetworks是 Stable Diffusion 的微調(diào)模型之一,可以根據(jù)自己的圖片訓(xùn)練一個小部分的神經(jīng)網(wǎng)絡(luò),生成一個新的權(quán)重,然后用這個權(quán)重來改變生成圖片的風(fēng)格。較少使用(未驗證)

    默認(rèn)文件路徑:stable-diffusion-webui\models\hypernetworks,通常為 5~300 MB,常見格式為pt。。

    基礎(chǔ)參數(shù)配置

    特性描述采樣方法(sample method)生成圖片過程中降噪算法,不同算法對于不同類型的圖片最終成效的效果有所差異,帶++的算法是優(yōu)化過的,默認(rèn)推薦R-ESRGAN 4x+,偏向二次元的算法推薦R-ESRGAN 4x+ Anime6B,效果不錯。采樣迭代步數(shù)(sampling steps)加噪和去噪的過程,也就是生成圖片不斷調(diào)整的次數(shù),理論上步驟越多,每一步移動也就越小越精確,同時也成比例增加生成圖像所需要的時間,但基本上超過50的迭代次數(shù)沒有明顯的效果,結(jié)合生成效果和時間等,可以參考模型創(chuàng)作者推薦的迭代步數(shù)。面部修復(fù)(restore faces)對生成圖片的人物面部(主要是真人)進行修復(fù),讓人臉更像真人的人臉,提供更多面部細(xì)節(jié)。平鋪/分塊(Tiling)將過大的圖片分塊生成,降低顯存要求高清修復(fù)(Hirres fix)把低分辨率的照片調(diào)整到高分辨率。在較低的分辨率下部分渲染你的圖片,再通過算法提高圖片到高分辨率,然后在高分辨率下再添加細(xì)節(jié)。寬高(width/ height)圖片的寬高尺寸。提示詞相關(guān)性(CFG scale)圖像和提示詞的匹配程度,相關(guān)性越高,AI在提示詞基礎(chǔ)上自由發(fā)揮的程度越低。 增加這個值將導(dǎo)致圖像更接近你的提示,但過高可能會讓圖像色彩過于飽和,太高后在一定程度上降低了圖像質(zhì)量??梢赃m當(dāng)增加采樣步驟來抵消畫質(zhì)的劣化。生成批次(batch count)總共生成多少批次的圖片單批生成數(shù)量(batch size)單一批次的生成圖片數(shù)量,注意數(shù)量限制,避免顯存爆炸。隨機種子(seed)SD通過特定算法計算出的固定值,seed一樣的情況下,可以生成比較相似的圖片重繪幅度(denoising strength)可以理解為AI在提示詞基礎(chǔ)上自由發(fā)揮的程度,重繪幅度越大,圖片與原始圖片越不相似,越小與原始圖片越相似。放大倍數(shù)(Upscale by)在原有寬度和長度上的放大倍數(shù),拉高需要更高的顯存。

    圖片展示及再操作欄

    上面就是文生圖的一些基本介紹啦,如有疑問,可以在評論區(qū)交流哦!

    ?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
    【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
    平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

    相關(guān)閱讀更多精彩內(nèi)容

    友情鏈接更多精彩內(nèi)容