【原】Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具

云端筑夢師AI 2023-08-20 發(fā)布于廣東

展開全文

Stable Diffusion 是一種文本到圖像生成人工智能工具，這意味著它將文字轉(zhuǎn)換為圖像。這個(gè)過程類似于將詳細(xì)的簡介郵寄給一位畫家，然后等待精心創(chuàng)作的藝術(shù)品的返回。

將穩(wěn)定擴(kuò)散視為你個(gè)人的基于人工智能的創(chuàng)意盟友。這種深度學(xué)習(xí)模型主要是為了根據(jù)文本提示生成圖像而設(shè)計(jì)的，它超越了單一功能。它還可用于修復(fù)（更改圖像的部分）、覆蓋（將圖像擴(kuò)展到其現(xiàn)有邊界之外）以及根據(jù)文本提示翻譯圖像。這種多功能性相當(dāng)于擁有一位多才多藝的藝術(shù)家供你使用。

穩(wěn)定擴(kuò)散的力學(xué)

穩(wěn)定擴(kuò)散基于深度學(xué)習(xí)模型運(yùn)行，該模型根據(jù)文本描述制作圖像。其支柱是擴(kuò)散過程，其中圖像通過一系列步驟從隨機(jī)噪聲轉(zhuǎn)變?yōu)檫B貫圖像。該模型經(jīng)過訓(xùn)練可以引導(dǎo)每個(gè)階段，從而根據(jù)提供的文本提示指導(dǎo)從開始到完成的整個(gè)過程。

穩(wěn)定擴(kuò)散背后的中心思想是將噪聲（隨機(jī)性）轉(zhuǎn)換為圖像。該模型以一堆隨機(jī)噪聲（想象一下來自無信號電視的白噪聲的彩色版本）來啟動該過程，然后在文本提示的影響下逐漸細(xì)化為可辨別的圖像。這種細(xì)化系統(tǒng)地進(jìn)行，穩(wěn)定地減少噪聲并增強(qiáng)細(xì)節(jié)，直到出現(xiàn)高質(zhì)量的圖像。

隨著擴(kuò)散過程的開始，初步階段在很大程度上決定了圖像的整體構(gòu)圖，隨后的關(guān)鍵字更改僅影響較小的部分。這強(qiáng)調(diào)需要仔細(xì)注意關(guān)鍵字權(quán)重和時(shí)間安排，以實(shí)現(xiàn)你想要的結(jié)果。

穩(wěn)定擴(kuò)散的優(yōu)點(diǎn)和缺點(diǎn)

穩(wěn)定擴(kuò)散的優(yōu)點(diǎn)之一是，它擅長創(chuàng)建詳細(xì)的高質(zhì)量圖像，并根據(jù)特定提示進(jìn)行定制設(shè)計(jì)。它可以輕松地瀏覽各種藝術(shù)風(fēng)格，無縫融合不同藝術(shù)家的技術(shù)，并在不同的關(guān)鍵詞之間平滑過渡。

與 MidJourney等同類產(chǎn)品不同，Stable Diffusion 是免費(fèi)的，這對你的預(yù)算來說是一個(gè)福音。它也是開源的，這意味著你可以根據(jù)需要對其進(jìn)行修改。無論你渴望創(chuàng)造未來派風(fēng)景還是動漫風(fēng)格的圖像，穩(wěn)定擴(kuò)散都有一個(gè)適合你的模型。稍后我們將深入研究如何下載并根據(jù)你的喜好定制這些模型。

你可以離線運(yùn)行它，無需持續(xù)的互聯(lián)網(wǎng)連接或服務(wù)器訪問，這使其成為注重隱私的用戶的寶貴工具。

然而，也有一些缺點(diǎn)，與 MidJourney 不同，Stable Diffusion 具有陡峭的學(xué)習(xí)曲線。要生成真正出色的圖像，你必須使用自定義模型、插件和一些提示工程。這有點(diǎn)像 Windows 與 Linux 的情況。

此外，該模型有時(shí)會表現(xiàn)出不可預(yù)見的關(guān)聯(lián)，從而導(dǎo)致意外的結(jié)果。提示中的輕微失誤可能會導(dǎo)致輸出出現(xiàn)重大偏差。例如，在提示中指定眼睛顏色可能會無意中影響生成的角色的種族（例如，藍(lán)眼睛通常與白種人相關(guān)）。因此，為了獲得最佳結(jié)果，必須深入了解其工作原理。

此外，提示中需要大量細(xì)節(jié)才能提供令人印象深刻的結(jié)果。與 MidJourney 不同，MidJourney在“一個(gè)美麗的女人在公園散步”等提示下表現(xiàn)良好，而穩(wěn)定擴(kuò)散需要對你希望（或不希望）在圖像中看到的所有內(nèi)容進(jìn)行全面描述。為冗長、詳細(xì)的提示做好準(zhǔn)備。

操作穩(wěn)定擴(kuò)散

運(yùn)行穩(wěn)定擴(kuò)散的方法有多種，可以通過基于云的平臺，也可以直接在本地計(jì)算機(jī)上。

以下是一些可讓你在云中測試它的在線平臺：

Leonardo AI：允許你嘗試不同的模型，其中一些模型模仿 MidJourney 的美學(xué)。

Sea Art：使用插件測試大量穩(wěn)定擴(kuò)散模型的好地方是其他高級工具。

Mage Space：提供穩(wěn)定擴(kuò)散版本 v1.5 和 2.1。盡管它有大量其他模型，但它需要會員資格。

Lexica：一個(gè)用戶友好的平臺，可指導(dǎo)你發(fā)現(xiàn)圖像的最佳提示。

Google Colabs：另一個(gè)易于訪問的選項(xiàng)。

但是，如果你選擇本地安裝，請確保你的計(jì)算機(jī)具有必要的功能。

系統(tǒng)要求

要在本地運(yùn)行 Stable Diffusion，你的 PC 應(yīng)運(yùn)行 Windows 10 或更高版本，并且至少配備具有至少 4 GB VRAM 的獨(dú)立 Nvidia 顯卡 (GPU)、16GB RAM 和至少 10GB 可用空間。

為了獲得最佳體驗(yàn)，建議使用具有 12GB vRAM、32GB RAM 和高速 SSD 的 RTX GPU。磁盤空間將取決于你的具體需求：你計(jì)劃使用的模型和附加組件越多，你需要的空間就越多。一般來說，模型需要 2GB 到 5GB 的空間。

使用自動 1111 導(dǎo)航穩(wěn)定擴(kuò)散

當(dāng)你開始穩(wěn)定擴(kuò)散之旅時(shí)，選擇正確的圖形用戶界面 (GUI) 變得至關(guān)重要。在繪制方面，Invoke AI處于領(lǐng)先地位，而SD.Next 則注重效率。ComfyUI是一個(gè)基于節(jié)點(diǎn)的超輕量級選項(xiàng)，由于與新的 SDXL 兼容，最近獲得了很大的關(guān)注。然而，Automatic 1111以其流行性和用戶友好性成為最受歡迎的。讓我們深入探討如何開始使用 Automatic 1111。

運(yùn)行穩(wěn)定擴(kuò)散的兩個(gè)不同的 GUI（A1111 和 ComfyUI）

設(shè)置自動 1111

由于此存儲庫上提供了一鍵式安裝程序，Automatic 1111 的安裝過程并不復(fù)雜。進(jìn)入 Github 頁面的“assets”部分，下載 .exe 文件并運(yùn)行它。這可能需要一些時(shí)間，所以請堅(jiān)持下去 - 請記住，耐心是關(guān)鍵。

成功安裝后，“A1111 WebUI”快捷方式將在新打開的文件夾中出現(xiàn)?？紤]將其固定到任務(wù)欄或創(chuàng)建桌面快捷方式以便于訪問。單擊此快捷方式將啟動穩(wěn)定擴(kuò)散，為你的創(chuàng)意命令做好準(zhǔn)備。

最好勾選以下復(fù)選框：自動更新 WebUI（使程序保持最新）、自動更新擴(kuò)展（保持插件和第三方工具更新），并且，如果你的電腦功能不是那么強(qiáng)大，還應(yīng)激活低 VRam (medvram) 和啟用 Xformers 的選項(xiàng)。

啟動 A1111 之前出現(xiàn)的屏幕

了解用戶界面

安裝了 A1111 的穩(wěn)定擴(kuò)散后，打開它時(shí)你將看到以下內(nèi)容

自動 1111 GUI

但不要被嚇倒。以下是運(yùn)行穩(wěn)定擴(kuò)散時(shí)界面的簡要瀏覽：

檢查點(diǎn)或模型：本質(zhì)上是 AI 圖像操作背后的核心，這些預(yù)先訓(xùn)練的穩(wěn)定擴(kuò)散權(quán)重可以與接受不同流派的不同藝術(shù)家進(jìn)行比較。一個(gè)人可能擅長動畫，而另一個(gè)人則擅長現(xiàn)實(shí)主義。你在這里的選擇決定了你圖像的藝術(shù)風(fēng)格。

積極提示：這是你在形象中表達(dá)你想要的東西的地方。

否定提示：在此指定你不希望在你的作品中看到的內(nèi)容。

創(chuàng)建樣式：如果你希望將正面和負(fù)面提示的特定組合保存為“樣式”以供將來使用，請單擊此處進(jìn)行操作。

應(yīng)用樣式：將以前保存的樣式應(yīng)用到當(dāng)前提示。

生成：設(shè)置完所有參數(shù)后，單擊此處使你的圖像栩栩如生。

采樣步驟：此參數(shù)定義將隨機(jī)噪聲轉(zhuǎn)變?yōu)樽罱K圖像所采取的步驟。20 到 75 之間的范圍通常會產(chǎn)生良好的結(jié)果，25-50 是實(shí)用的中間值。

采樣方法：如果模型代表該程序的核心，那么采樣器就是一切背后的大腦。這是用于獲取提示、編碼器和每個(gè)參數(shù)并根據(jù)你的命令將噪聲轉(zhuǎn)換為連貫圖像的技術(shù)。有很多采樣器，但我們推薦“DDIM”用于快速渲染，只需幾個(gè)步驟，“Euler a”用于皮膚光滑的人的繪圖或照片，“DPM”用于詳細(xì)圖像（DPM++ 2M Karras 可能是一個(gè)不錯(cuò)的安全選擇）。以下是使用穩(wěn)定擴(kuò)散的不同采樣方法獲得的結(jié)果的匯編。

批次計(jì)數(shù)：批次計(jì)數(shù)將一個(gè)接一個(gè)地運(yùn)行多批生成。這將允許你使用相同的提示創(chuàng)建不同的圖像。這需要更長的時(shí)間，但使用更少的 vRAM，因?yàn)槊總€(gè)圖像都是在前一個(gè)圖像完成后生成的

批次大小：這是每個(gè)批次中有多少并行圖像。這將為你提供更多圖像，速度更快，但也需要更多 vRAM 來處理，因?yàn)樗鼤谕淮猩扇魏螆D像。

CFG比例：它決定了模型的創(chuàng)作自由度，在遵循你的提示和自己的想象力之間取得平衡。較低的 CFG 將使模型忽略你的提示并更具創(chuàng)造性，較高的 CFG 會使其完全沒有自由地堅(jiān)持下去。5 到 12 之間的值通常是安全的，7.5 提供可靠的中間值。

寬度和高度：在此處指定圖像尺寸。起始分辨率可以是 512X512、512X768、768x512 或 768x768。對于 SDXL（Stability AI 的最新型號），基本分辨率為 1024x1024

種子：將其視為圖像的唯一 ID，為初始隨機(jī)噪聲設(shè)置參考。如果你打算復(fù)制特定結(jié)果，這一點(diǎn)至關(guān)重要。此外，每個(gè)圖像都有一個(gè)獨(dú)特的種子，這就是為什么不可能真正 100% 復(fù)制特定的現(xiàn)實(shí)生活圖像 - 因?yàn)樗鼈儧]有種子。

骰子圖標(biāo)：將種子設(shè)置為 -1，使其隨機(jī)化。這保證了每個(gè)圖像生成的唯一性。

回收圖標(biāo)：保留上次圖像生成的種子。

腳本：它是執(zhí)行影響你的工作流程的高級指令的平臺。作為初學(xué)者，你可能希望暫時(shí)保持不變。

保存：將生成的圖像保存在你選擇的文件夾中。請注意，穩(wěn)定擴(kuò)散還會自動將圖像保存在其專用的“輸出”文件夾中。

發(fā)送到 img2img：將你的輸出發(fā)送到 img2img 選項(xiàng)卡，使其成為類似它的新一代的參考。

發(fā)送到修復(fù)：將圖像定向到修復(fù)選項(xiàng)卡，使你能夠修改特定圖像區(qū)域，例如眼睛、手或偽像。

發(fā)送到額外內(nèi)容：此操作會將你的圖像重新定位到“額外內(nèi)容”選項(xiàng)卡，你可以在其中調(diào)整圖像大小，而不會丟失大量細(xì)節(jié)。

就是這樣——一切都準(zhǔn)備好了！現(xiàn)在，讓你的創(chuàng)造力盡情發(fā)揮，見證穩(wěn)定擴(kuò)散的神奇魅力。

提示工程 101：如何為 SD v1.5 制作良好的提示

穩(wěn)定擴(kuò)散的成功很大程度上取決于你的提示——將其視為引導(dǎo)人工智能的指南針。細(xì)節(jié)越豐富，生成的圖像就越準(zhǔn)確。

快速制作有時(shí)可能看起來令人畏懼，因?yàn)榉€(wěn)定擴(kuò)散不遵循線性模式。這是一個(gè)充滿嘗試和錯(cuò)誤的過程。從提示開始，生成圖像，選擇你喜歡的輸出，修改你珍惜或希望消除的元素，然后重新開始。沖洗并重復(fù)這個(gè)過程，直到你的杰作通過修復(fù)調(diào)整和不懈的改進(jìn)而出現(xiàn)。

正面提示、負(fù)面提示和微調(diào)關(guān)鍵詞權(quán)重

Stable Diffusion 的設(shè)計(jì)可以通過語法（關(guān)鍵字：因子）調(diào)整關(guān)鍵字權(quán)重。低于 1 的因素會淡化其重要性，而高于 1 的因素會放大其重要性。要操縱權(quán)重，請選擇特定關(guān)鍵字并按 Ctrl+Up 增加或按 Ctrl+Down 減少。此外，你可以使用括號——使用的越多，關(guān)鍵字的權(quán)重就越大。

修飾符為你的圖像添加最后的華麗，指定情緒、風(fēng)格或細(xì)節(jié)（如“黑暗、復(fù)雜、高度詳細(xì)、清晰的焦點(diǎn)”）等元素。

積極的提示概述了你想要的元素?？焖贅?gòu)建的可靠策略是按順序指定圖像類型、主題、媒介、風(fēng)格、背景或風(fēng)景、藝術(shù)家、使用的工具和分辨率。civita.com 的演示可以是“真實(shí)感渲染、（數(shù)字繪畫）、（最佳質(zhì)量）、寧靜的日本花園、盛開的櫻花、（（（錦鯉池）））、人行橋、寶塔、浮世繪藝術(shù)風(fēng)格，北齋靈感，異常藝術(shù)流行，8k超寫實(shí)，柔和的配色方案，柔和的燈光，黃金時(shí)刻，寧靜的氛圍，風(fēng)景導(dǎo)向”

相反，負(fù)面提示詳細(xì)說明了你希望從圖像中排除的所有內(nèi)容。示例包括：暗淡的顏色、丑陋、糟糕的手、太多的手指、NSFW、融合的四肢、最差的質(zhì)量、低質(zhì)量、模糊、水印、文本、低分辨率、長脖子、超出框架、多余的手指、變異的手、單色、丑陋的、重復(fù)的、病態(tài)的、不良的解剖結(jié)構(gòu)、不良的比例、毀容、低分辨率、變形的手、變形的腳、變形的臉、變形的身體部位、（（相同的發(fā)型））等。不要害怕用不同的詞。

考慮提示的一個(gè)好方法是“What+SVCM（主語、動詞、上下文、修飾語） ”結(jié)構(gòu)：

內(nèi)容：確定你想要的內(nèi)容：肖像、照片、插圖、繪畫等。

主題：描述你正在考慮的主題：一個(gè)美麗的女人、一個(gè)超級英雄、一個(gè)亞洲老人、一個(gè)黑人士兵、小孩、美麗的風(fēng)景。

動詞：描述拍攝對象正在做什么：女人正在對著鏡頭擺姿勢嗎？超級英雄是飛還是跑？亞洲人是微笑還是跳躍？

背景：描述你的想法中的場景：場景發(fā)生在哪里？在公園、在教室、在擁擠的城市？盡可能具有描述性

修改器：添加有關(guān)圖像的附加信息：如果是圖片，則使用哪個(gè)鏡頭。如果是一幅畫，是哪位藝術(shù)家畫的？使用哪種類型的照明，哪個(gè)地點(diǎn)會采用這種照明？你正在考慮哪種服裝或時(shí)尚風(fēng)格，圖像嚇人嗎？這些概念用逗號分隔。但請記住，越接近開始，它們在最終作品中就越突出。如果你不知道從哪里開始，如果你不想只是復(fù)制/粘貼其他人的提示，這個(gè)網(wǎng)站和這個(gè)Github 存儲庫有很多好主意供你嘗試

因此，積極提示的一個(gè)例子可以是：在一家昂貴的酒店里對著鏡頭擺姿勢的可愛貴賓犬的肖像，(((黑尾巴)))、秋天、散景、杰作、強(qiáng)光、膠片顆粒、佳能 5d 標(biāo)記4、F/1.8、Agfacolor、虛幻引擎。

否定提示不需要適當(dāng)?shù)慕Y(jié)構(gòu)，只需添加你不喜歡的所有內(nèi)容，就好像它們是修飾符一樣。如果你生成圖片并看到一些你不喜歡的內(nèi)容，只需將其添加到否定提示中，重新運(yùn)行生成并評估結(jié)果即可。這就是人工智能圖像生成的原理，這并不是什么奇跡。負(fù)面提示的一個(gè)例子可以是：模糊、畫得不好、貓、人類、人、素描、恐怖、丑陋、病態(tài)、變形、標(biāo)志、文本、不良解剖學(xué)、不良比例

關(guān)鍵詞整合和及時(shí)安排

關(guān)鍵字混合或提示調(diào)度采用語法[關(guān)鍵字1：關(guān)鍵字2：因子]。該因子是一個(gè)介于 0 和 1 之間的數(shù)字，決定在哪一步從關(guān)鍵字 1 切換到關(guān)鍵字 2。

懶惰的出路：復(fù)制提示

如果你不確定從哪里開始，請考慮利用各個(gè)網(wǎng)站的想法并進(jìn)行調(diào)整以滿足你的需求。提示的優(yōu)秀來源包括：

奇維泰

詞典

穩(wěn)定的擴(kuò)散網(wǎng)

提示英雄

或者，保存你欣賞的人工智能生成的圖像，將其拖放到“PNG 信息”選項(xiàng)卡上，穩(wěn)定擴(kuò)散會提供重新創(chuàng)建它的提示和相關(guān)信息。如果圖像不是 AI 生成的，請考慮使用 CLIP Interrogator 插件來更好地理解其描述。有關(guān)此附加組件的更多詳細(xì)信息將在指南后面提供。

避免陷阱

穩(wěn)定擴(kuò)散的效果取決于它給出的提示。注重細(xì)節(jié)和準(zhǔn)確性，提供清晰具體的提示并重視概念而不是解釋至關(guān)重要。不要精心設(shè)計(jì)一個(gè)句子來描述寬敞、自然光線充足的場景，而只需說“寬敞、自然光線”。

請注意某些屬性可能帶來的意外關(guān)聯(lián)，例如指定眼睛顏色時(shí)的特定種族。對這些潛在陷阱保持警惕可以幫助你制定更有效的提示。

請記住，你的指示越具體，你的結(jié)果就越容易控制。但是，如果你假裝創(chuàng)建長提示，請務(wù)必小心，因?yàn)槭褂妹艿年P(guān)鍵字（例如長發(fā)，然后對頭發(fā)進(jìn)行排序，或者否定提示中的模糊和肯定提示中的模糊）可能會導(dǎo)致意外結(jié)果：

安裝新模型

安裝模型是一個(gè)簡單的過程。首先確定適合你需求的模型。Civita 是一個(gè)很好的起點(diǎn)，它以最大的穩(wěn)定擴(kuò)散工具存儲庫而聞名。與其他替代方案不同，Civita 鼓勵(lì)社區(qū)分享他們的經(jīng)驗(yàn)，為模型的功能提供視覺參考。

訪問 Civita，單擊過濾器圖標(biāo)，然后在“模型類型”部分中選擇“檢查點(diǎn)”。

Civitai 使用過濾器讓用戶個(gè)性化搜索/Jose Lanz/Decrypt Media

然后，瀏覽網(wǎng)站上所有可用的模型。請記住，穩(wěn)定擴(kuò)散未經(jīng)審查，你可能會遇到 NSFW 內(nèi)容。選擇你喜歡的型號并單擊下載。確保模型具有 .safetensor 擴(kuò)展名以確保安全（舊模型使用 .ckpt 擴(kuò)展名，但不太安全）。

從 Civitai 下載特定自定義 SD v1.5 模型的頁面示例。

下載后，將其放入本地 Automatic 1111 的模型文件夾中。為此，請導(dǎo)航到安裝 A111 Stable Diffusion 的文件夾，然后按照以下路線操作：“stable-diffusion-webuimodelsStable-diffusion”

有數(shù)百種型號可供選擇，但作為參考，我們的一些首選是：

如果你想玩逼真的圖像，請使用 Juggernaut、Photon、Realistic Vision 和 aZovya Photoreal。

Dreamshaper、RevAnimated 以及 DucHaiten 的所有模型（如果你喜歡 3d 藝術(shù)）。

DuelComicMix、DucHaitenAnime、iCoMix、DucHaitenAnime 如果你喜歡漫畫和漫畫等 2D 藝術(shù)。

編輯圖像：圖像到圖像和修復(fù)（待辦事項(xiàng)）

穩(wěn)定擴(kuò)散還允許你使用 AI 編輯你不喜歡的圖像。你可能想要更改構(gòu)圖的藝術(shù)風(fēng)格，在天空中添加鳥類，刪除人工制品，或修改手指過多的手。為此，有兩種技術(shù)：圖像到圖像和修復(fù)。

由 Stable Diffusion（右）基于用作參考的照片（左）使用 Img2img/Jose Lanz 創(chuàng)建的圖像

圖像到圖像本質(zhì)上是讓穩(wěn)定擴(kuò)散使用另一張圖片作為參考來創(chuàng)建新圖像，無論它是真實(shí)圖像還是你創(chuàng)建的圖像。為此，只需單擊圖像到圖像 (Img2Img) 選項(xiàng)卡，將參考圖像放入相應(yīng)的框中，創(chuàng)建你希望計(jì)算機(jī)遵循的提示，然后單擊生成。需要注意的是，你應(yīng)用的降噪強(qiáng)度越大，新圖像與原始圖像的相似程度就越低，因?yàn)榉€(wěn)定擴(kuò)散將具有更多的創(chuàng)作自由度。

知道了這一點(diǎn)，你可以做一些很酷的技巧，比如掃描你祖父母的舊照片作為參考，通過低降噪強(qiáng)度的穩(wěn)定擴(kuò)散和一個(gè)非?；\統(tǒng)的提示（如“RAW，4k 圖像，高度詳細(xì)”）運(yùn)行它們，看看如何人工智能重建你的照片。

修復(fù)允許你在原始圖像中繪制或編輯內(nèi)容。為此，從同一個(gè) Img2Img 選項(xiàng)卡中，選擇修復(fù)選項(xiàng)并將參考繪畫放置在那里。

然后，你只需繪制要編輯的區(qū)域（例如，角色的頭發(fā)）并添加要?jiǎng)?chuàng)建的提示（例如，直長的金發(fā)），就完成了！

使用修復(fù)在金發(fā)女超人的參考圖像上編輯藍(lán)色頭發(fā)。由 AI/Jose Lanz 生成

我們建議生成多批圖像，以便你可以選擇最喜歡的圖像并修改提示。然而，最后，如果你非常細(xì)心，手頭有一個(gè)像 Photoshop 這樣的工具總是有好處的，這樣可以得到完美的結(jié)果。

增強(qiáng)穩(wěn)定擴(kuò)散功能的 5 大擴(kuò)展

現(xiàn)在你已經(jīng)熟悉了穩(wěn)定擴(kuò)散，你可能渴望進(jìn)一步發(fā)揮你的創(chuàng)造力。也許你想要固定特定的手部位置、強(qiáng)制模型生成五指手、指定某種類型的衣服、增強(qiáng)細(xì)節(jié)、使用特定的臉部，或者將小圖像轉(zhuǎn)換為大型 8K 文件，同時(shí)盡可能減少細(xì)節(jié)損失。

擴(kuò)展可以幫助你實(shí)現(xiàn)這些目標(biāo)。雖然有許多可用選項(xiàng)，但我們重點(diǎn)介紹了五個(gè)必備擴(kuò)展：

LoRA：細(xì)節(jié)決定成敗

不使用 LoRA 生成的圖像與使用 LoRA 生成的相同圖像以添加更多細(xì)節(jié)。

LoRA 是旨在增強(qiáng)模型特異性的文件，無需下載全新模型。這使你可以完善細(xì)節(jié)，采用特定的面孔、服裝或風(fēng)格。

要安裝 LoRA，請按照下列步驟操作：

單擊“擴(kuò)展”選項(xiàng)卡并選擇“從 URL 安裝”。

在框中輸入 URL：https: //github.com/kohya-ss/sd-webui-additional-networks.git ，然后單擊“安裝”。

完成后，單擊“已安裝”，然后單擊“應(yīng)用并重新啟動 UI”。

安裝 LoRA 的步驟與安裝模型相同。在 Civitai 上，將過濾器設(shè)置為“LoRA”，并使用以下路徑將文件放入 LoRA 文件夾中：stable-diffusion-webuimodelsLora

請記住，某些 LoRA 需要在提示中輸入特定關(guān)鍵字才能激活，因此請務(wù)必在使用前閱讀其說明。

要使用 LoRA，請導(dǎo)航到 text2img 選項(xiàng)卡，單擊類似小畫的圖標(biāo)（顯示/隱藏額外網(wǎng)絡(luò)），LoRA 將出現(xiàn)在提示下方。

ControlNet：釋放視覺魔法的力量

不使用 LoRA 生成的圖像與使用 LoRA 生成的相同圖像以添加更多細(xì)節(jié)。

如果你對穩(wěn)定擴(kuò)散的功能尚未做出決定，請讓 ControlNet 擴(kuò)展成為最終的答案。ControlNet 擁有巨大的多功能性和強(qiáng)大功能，使你能夠從參考圖像中提取構(gòu)圖，證明自己是圖像生成領(lǐng)域的游戲規(guī)則改變者。

ControlNet 確實(shí)是萬事通。無論你是需要復(fù)制姿勢、模擬配色方案、重新設(shè)計(jì)你的生活空間、制作五指手、在不使 GPU 負(fù)擔(dān)過重的情況下執(zhí)行幾乎無限的升級，還是將簡單的涂鴉轉(zhuǎn)變?yōu)榱钊梭@嘆的 3D 渲染或逼真的視覺效果，ControlNet 都可以為你提供幫助。方式。

安裝 ControlNet 涉及以下簡單步驟：

訪問擴(kuò)展頁面并選擇“從 URL 安裝”選項(xiàng)卡。

將以下 URL 粘貼到“擴(kuò)展存儲庫的 URL”字段中：https: //github.com/Mikubill/sd-webui-controlnet

單擊“安裝”。

關(guān)閉穩(wěn)定擴(kuò)散界面。

要啟用 ControlNet，你需要從此存儲庫下載模型：https:///lllyasviel/ControlNet-v1-1/tree/main

然后，將所有下載的文件復(fù)制到此文件夾中：stable-diffusion-webuiextensionssd-webui-controlnetmodels

重新啟動穩(wěn)定擴(kuò)散后，你會注意到 text2img 選項(xiàng)卡中出現(xiàn)了一個(gè)新的“ControlNet”部分。

向你提供兩個(gè)主要選項(xiàng)：用于拖放參考圖像的框、控件類型選擇和預(yù)處理器。

“參考圖像框”是你上傳想要參考的姿勢、臉部、色彩構(gòu)成、結(jié)構(gòu)等的圖像的地方。

“控制類型選擇”是 ControlNet 魔法發(fā)生的地方。此功能允許你確定要復(fù)制或控制的內(nèi)容。

你還有其他更高級的選項(xiàng)可讓你微調(diào)結(jié)果：預(yù)處理器（用于激活控制網(wǎng)的技術(shù)）、權(quán)重（你的參考有多重要）和開始/結(jié)束點(diǎn)（控制網(wǎng)何時(shí)開始/結(jié)束其影響）

以下是每種控件類型的功能的快速概述：

OpenPose：精確定位身體的關(guān)鍵部位并復(fù)制姿勢。你可以使用預(yù)處理器選擇整個(gè)身體、面部或手部的姿勢。

Canny：將你的參考圖像轉(zhuǎn)換為帶有細(xì)線的黑白涂鴉。這允許你的創(chuàng)作遵循這些線條作為邊緣，從而與你的參考準(zhǔn)確相似。

深度：生成“深度圖”以創(chuàng)建圖像的 3D 印象，區(qū)分近處和遠(yuǎn)處的對象 - 非常適合模仿 3D 電影鏡頭和場景。

法線：法線貼圖推斷表面的方向，非常適合為盔甲、織物和外部結(jié)構(gòu)等對象提供紋理。

MLSD：識別直線，非常適合再現(xiàn)建筑設(shè)計(jì)。

藝術(shù)線條：將圖像轉(zhuǎn)換為繪圖 - 對于動漫和卡通等 2D 視覺效果非常有用。

Softedge：與 Canny 模型類似，但邊緣更柔和，為模型提供更多自由度，但精度稍低。

涂鴉：將圖像轉(zhuǎn)換為涂鴉，產(chǎn)生比 Canny 模型更通用的結(jié)果。此外，你還可以在繪畫上創(chuàng)建涂鴉，并將其用作參考，無需預(yù)處理器即可將圖像變成現(xiàn)實(shí)的創(chuàng)作。

分割：創(chuàng)建圖像的顏色圖，推斷其中的對象。每種顏色代表一種特定的物體。你可以使用它來重新裝飾你的圖像，或者重新想象具有相同概念的場景（例如，將 1800 年代的照片變成賽博朋克替代現(xiàn)實(shí)中相同風(fēng)景的逼真描繪，或者只是用不同的床、墻壁重新裝飾你的房間不同顏色等）

平鋪：向圖片添加細(xì)節(jié)并促進(jìn)放大，而不會使 GPU 負(fù)擔(dān)過重。

修復(fù)：修改圖像或擴(kuò)展其細(xì)節(jié)?，F(xiàn)在，借助最近的更新和“僅修復(fù) + 駱駝”模型，你可以極其注重細(xì)節(jié)地繪制圖像

隨機(jī)播放：再現(xiàn)參考圖像的顏色結(jié)構(gòu)。

參考：生成在風(fēng)格、構(gòu)圖和偶爾的面孔方面與你的參考相似的圖像。

T2IA：讓你控制圖像的顏色和藝術(shù)構(gòu)圖。

掌握這些選項(xiàng)可能需要時(shí)間，但它們提供的靈活性和定制性值得付出努力。在線查看各種教程和指導(dǎo)視頻，以充分利用 ControlNet。

Roop：Deepfakes觸手可及

Roop 提供了一種輕松的方法來生成逼真的深度贗品。Roop 無需處理復(fù)雜的模型或 LoRA，而是可以處理繁重的工作，使你只需單擊幾下即可創(chuàng)建高質(zhì)量的深度贗品。

要下載并激活，請按照官方 Roop Github 存儲庫上的說明進(jìn)行操作

要使用它，請創(chuàng)建提示，導(dǎo)航到 Roop 菜單，上傳參考面，啟用它，然后生成圖像。為了獲得最佳效果，請使用你想要復(fù)制的臉部的高分辨率正面照片。請記住，同一個(gè)人的不同圖像可能會產(chǎn)生不同的結(jié)果 - 有些比其他圖像更逼真。

Photopea：Photoshop 穩(wěn)定擴(kuò)散的力量

Photopea 擴(kuò)展在 A1111 內(nèi)部的外觀

有時(shí)，需要手動調(diào)整才能獲得完美的結(jié)果，這就是 Photopea 的用武之地。此擴(kuò)展將類似 Photoshop 的功能直接引入穩(wěn)定擴(kuò)散界面，使你無需切換平臺即可微調(diào)生成的圖像。

你可以從此存儲庫安裝 Photopea：https://github.com/yankoliveira/sd-webui-photopea-embed

CLIP 詢問器：從任何圖像創(chuàng)建提示

如果你不知道從哪里開始使用提示，那么這是一個(gè)很棒的工具。拍攝一張圖像，將其放入框中，運(yùn)行詢問器，它會告訴你哪些單詞可以與你提供的圖像相關(guān)聯(lián)。

CLIP Interrogator 是一個(gè)方便的工具，用于從特定圖像中導(dǎo)出關(guān)鍵字。通過結(jié)合 OpenAI 的 CLIP 和 Salesforce 的 BLIP，該擴(kuò)展可以生成與給定參考圖像匹配的文本提示。

你可以從此存儲庫安裝：https://github.com/pharmapsychotic/clip-interrogator-ext.git

結(jié)論

通過穩(wěn)定擴(kuò)散，你將成為視覺管弦樂隊(duì)的大師。無論是“艾瑪·沃特森作為女巫的超現(xiàn)實(shí)肖像”還是“幻想環(huán)境中海盜的復(fù)雜數(shù)字繪畫”，唯一的限制就是你的想象力。

現(xiàn)在，用你新發(fā)現(xiàn)的知識武裝起來，繼續(xù)將你的夢想描繪成現(xiàn)實(shí)，一次一個(gè)文本提示。

由 Decrypt 使用 AI/Jose Lanz 創(chuàng)建的圖像

贊賞

共11人贊賞

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：云端筑夢師AI > 《IT教程、網(wǎng)絡(luò)、軟件》

舉報(bào)/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

云端筑夢師AI

關(guān)注對話

TA的最新館藏

10款神級安卓App，95%的人都不知道！
6款電腦必備工具軟件精選推薦！
6個(gè)免費(fèi)神仙工具，全部免費(fèi)使用
6款日常精選手機(jī)APP推薦！
2024年7個(gè)提高賺錢效率的人工智能工具
強(qiáng)烈推薦8個(gè)手機(jī)寶藏App，建議收藏！

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

【原】Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具