Stable Diffusion 是一種文本到圖像生成人工智能工具,這意味著它將文字轉(zhuǎn)換為圖像。這個(gè)過程類似于將詳細(xì)的簡介郵寄給一位畫家,然后等待精心創(chuàng)作的藝術(shù)品的返回。 將穩(wěn)定擴(kuò)散視為你個(gè)人的基于人工智能的創(chuàng)意盟友。這種深度學(xué)習(xí)模型主要是為了根據(jù)文本提示生成圖像而設(shè)計(jì)的,它超越了單一功能。它還可用于修復(fù)(更改圖像的部分)、覆蓋(將圖像擴(kuò)展到其現(xiàn)有邊界之外)以及根據(jù)文本提示翻譯圖像。這種多功能性相當(dāng)于擁有一位多才多藝的藝術(shù)家供你使用。 穩(wěn)定擴(kuò)散的力學(xué) 穩(wěn)定擴(kuò)散基于深度學(xué)習(xí)模型運(yùn)行,該模型根據(jù)文本描述制作圖像。其支柱是擴(kuò)散過程,其中圖像通過一系列步驟從隨機(jī)噪聲轉(zhuǎn)變?yōu)檫B貫圖像。該模型經(jīng)過訓(xùn)練可以引導(dǎo)每個(gè)階段,從而根據(jù)提供的文本提示指導(dǎo)從開始到完成的整個(gè)過程。 穩(wěn)定擴(kuò)散背后的中心思想是將噪聲(隨機(jī)性)轉(zhuǎn)換為圖像。該模型以一堆隨機(jī)噪聲(想象一下來自無信號電視的白噪聲的彩色版本)來啟動該過程,然后在文本提示的影響下逐漸細(xì)化為可辨別的圖像。這種細(xì)化系統(tǒng)地進(jìn)行,穩(wěn)定地減少噪聲并增強(qiáng)細(xì)節(jié),直到出現(xiàn)高質(zhì)量的圖像。 隨著擴(kuò)散過程的開始,初步階段在很大程度上決定了圖像的整體構(gòu)圖,隨后的關(guān)鍵字更改僅影響較小的部分。這強(qiáng)調(diào)需要仔細(xì)注意關(guān)鍵字權(quán)重和時(shí)間安排,以實(shí)現(xiàn)你想要的結(jié)果。 穩(wěn)定擴(kuò)散的優(yōu)點(diǎn)和缺點(diǎn) 穩(wěn)定擴(kuò)散的優(yōu)點(diǎn)之一是,它擅長創(chuàng)建詳細(xì)的高質(zhì)量圖像,并根據(jù)特定提示進(jìn)行定制設(shè)計(jì)。它可以輕松地瀏覽各種藝術(shù)風(fēng)格,無縫融合不同藝術(shù)家的技術(shù),并在不同的關(guān)鍵詞之間平滑過渡。 與 MidJourney等同類產(chǎn)品不同,Stable Diffusion 是免費(fèi)的,這對你的預(yù)算來說是一個(gè)福音。它也是開源的,這意味著你可以根據(jù)需要對其進(jìn)行修改。無論你渴望創(chuàng)造未來派風(fēng)景還是動漫風(fēng)格的圖像,穩(wěn)定擴(kuò)散都有一個(gè)適合你的模型。稍后我們將深入研究如何下載并根據(jù)你的喜好定制這些模型。 你可以離線運(yùn)行它,無需持續(xù)的互聯(lián)網(wǎng)連接或服務(wù)器訪問,這使其成為注重隱私的用戶的寶貴工具。 然而,也有一些缺點(diǎn),與 MidJourney 不同,Stable Diffusion 具有陡峭的學(xué)習(xí)曲線。要生成真正出色的圖像,你必須使用自定義模型、插件和一些提示工程。這有點(diǎn)像 Windows 與 Linux 的情況。 此外,該模型有時(shí)會表現(xiàn)出不可預(yù)見的關(guān)聯(lián),從而導(dǎo)致意外的結(jié)果。提示中的輕微失誤可能會導(dǎo)致輸出出現(xiàn)重大偏差。例如,在提示中指定眼睛顏色可能會無意中影響生成的角色的種族(例如,藍(lán)眼睛通常與白種人相關(guān))。因此,為了獲得最佳結(jié)果,必須深入了解其工作原理。 此外,提示中需要大量細(xì)節(jié)才能提供令人印象深刻的結(jié)果。與 MidJourney 不同,MidJourney在“一個(gè)美麗的女人在公園散步”等提示下表現(xiàn)良好,而穩(wěn)定擴(kuò)散需要對你希望(或不希望)在圖像中看到的所有內(nèi)容進(jìn)行全面描述。為冗長、詳細(xì)的提示做好準(zhǔn)備。 操作穩(wěn)定擴(kuò)散 運(yùn)行穩(wěn)定擴(kuò)散的方法有多種,可以通過基于云的平臺,也可以直接在本地計(jì)算機(jī)上。 以下是一些可讓你在云中測試它的在線平臺: Leonardo AI:允許你嘗試不同的模型,其中一些模型模仿 MidJourney 的美學(xué)。 Sea Art:使用插件測試大量穩(wěn)定擴(kuò)散模型的好地方是其他高級工具。 Mage Space:提供穩(wěn)定擴(kuò)散版本 v1.5 和 2.1。盡管它有大量其他模型,但它需要會員資格。 Lexica:一個(gè)用戶友好的平臺,可指導(dǎo)你發(fā)現(xiàn)圖像的最佳提示。 Google Colabs:另一個(gè)易于訪問的選項(xiàng)。 但是,如果你選擇本地安裝,請確保你的計(jì)算機(jī)具有必要的功能。 系統(tǒng)要求 要在本地運(yùn)行 Stable Diffusion,你的 PC 應(yīng)運(yùn)行 Windows 10 或更高版本,并且至少配備具有至少 4 GB VRAM 的獨(dú)立 Nvidia 顯卡 (GPU)、16GB RAM 和至少 10GB 可用空間。 為了獲得最佳體驗(yàn),建議使用具有 12GB vRAM、32GB RAM 和高速 SSD 的 RTX GPU。磁盤空間將取決于你的具體需求:你計(jì)劃使用的模型和附加組件越多,你需要的空間就越多。一般來說,模型需要 2GB 到 5GB 的空間。 使用自動 1111 導(dǎo)航穩(wěn)定擴(kuò)散 當(dāng)你開始穩(wěn)定擴(kuò)散之旅時(shí),選擇正確的圖形用戶界面 (GUI) 變得至關(guān)重要。在繪制方面,Invoke AI處于領(lǐng)先地位,而SD.Next 則注重效率。ComfyUI是一個(gè)基于節(jié)點(diǎn)的超輕量級選項(xiàng),由于與新的 SDXL 兼容,最近獲得了很大的關(guān)注。然而,Automatic 1111以其流行性和用戶友好性成為最受歡迎的。讓我們深入探討如何開始使用 Automatic 1111。 運(yùn)行穩(wěn)定擴(kuò)散的兩個(gè)不同的 GUI(A1111 和 ComfyUI) 設(shè)置自動 1111 由于此存儲庫上提供了一鍵式安裝程序,Automatic 1111 的安裝過程并不復(fù)雜。進(jìn)入 Github 頁面的“assets”部分,下載 .exe 文件并運(yùn)行它。這可能需要一些時(shí)間,所以請堅(jiān)持下去 - 請記住,耐心是關(guān)鍵。 成功安裝后,“A1111 WebUI”快捷方式將在新打開的文件夾中出現(xiàn)??紤]將其固定到任務(wù)欄或創(chuàng)建桌面快捷方式以便于訪問。單擊此快捷方式將啟動穩(wěn)定擴(kuò)散,為你的創(chuàng)意命令做好準(zhǔn)備。 最好勾選以下復(fù)選框:自動更新 WebUI(使程序保持最新)、自動更新擴(kuò)展(保持插件和第三方工具更新),并且,如果你的電腦功能不是那么強(qiáng)大,還應(yīng)激活低 VRam (medvram) 和啟用 Xformers 的選項(xiàng)。 啟動 A1111 之前出現(xiàn)的屏幕 了解用戶界面 安裝了 A1111 的穩(wěn)定擴(kuò)散后,打開它時(shí)你將看到以下內(nèi)容 自動 1111 GUI 但不要被嚇倒。以下是運(yùn)行穩(wěn)定擴(kuò)散時(shí)界面的簡要瀏覽: 檢查點(diǎn)或模型:本質(zhì)上是 AI 圖像操作背后的核心,這些預(yù)先訓(xùn)練的穩(wěn)定擴(kuò)散權(quán)重可以與接受不同流派的不同藝術(shù)家進(jìn)行比較。一個(gè)人可能擅長動畫,而另一個(gè)人則擅長現(xiàn)實(shí)主義。你在這里的選擇決定了你圖像的藝術(shù)風(fēng)格。 積極提示:這是你在形象中表達(dá)你想要的東西的地方。 否定提示:在此指定你不希望在你的作品中看到的內(nèi)容。 創(chuàng)建樣式:如果你希望將正面和負(fù)面提示的特定組合保存為“樣式”以供將來使用,請單擊此處進(jìn)行操作。 應(yīng)用樣式:將以前保存的樣式應(yīng)用到當(dāng)前提示。 生成:設(shè)置完所有參數(shù)后,單擊此處使你的圖像栩栩如生。 采樣步驟:此參數(shù)定義將隨機(jī)噪聲轉(zhuǎn)變?yōu)樽罱K圖像所采取的步驟。20 到 75 之間的范圍通常會產(chǎn)生良好的結(jié)果,25-50 是實(shí)用的中間值。 采樣方法:如果模型代表該程序的核心,那么采樣器就是一切背后的大腦。這是用于獲取提示、編碼器和每個(gè)參數(shù)并根據(jù)你的命令將噪聲轉(zhuǎn)換為連貫圖像的技術(shù)。有很多采樣器,但我們推薦“DDIM”用于快速渲染,只需幾個(gè)步驟,“Euler a”用于皮膚光滑的人的繪圖或照片,“DPM”用于詳細(xì)圖像(DPM++ 2M Karras 可能是一個(gè)不錯(cuò)的安全選擇) 。以下是使用穩(wěn)定擴(kuò)散的不同采樣方法獲得的結(jié)果的匯編。 批次計(jì)數(shù):批次計(jì)數(shù)將一個(gè)接一個(gè)地運(yùn)行多批生成。這將允許你使用相同的提示創(chuàng)建不同的圖像。這需要更長的時(shí)間,但使用更少的 vRAM,因?yàn)槊總€(gè)圖像都是在前一個(gè)圖像完成后生成的 批次大小:這是每個(gè)批次中有多少并行圖像。這將為你提供更多圖像,速度更快,但也需要更多 vRAM 來處理,因?yàn)樗鼤谕淮猩扇魏螆D像。 CFG比例:它決定了模型的創(chuàng)作自由度,在遵循你的提示和自己的想象力之間取得平衡。較低的 CFG 將使模型忽略你的提示并更具創(chuàng)造性,較高的 CFG 會使其完全沒有自由地堅(jiān)持下去。5 到 12 之間的值通常是安全的,7.5 提供可靠的中間值。 寬度和高度:在此處指定圖像尺寸。起始分辨率可以是 512X512、512X768、768x512 或 768x768。對于 SDXL(Stability AI 的最新型號),基本分辨率為 1024x1024 種子:將其視為圖像的唯一 ID,為初始隨機(jī)噪聲設(shè)置參考。如果你打算復(fù)制特定結(jié)果,這一點(diǎn)至關(guān)重要。此外,每個(gè)圖像都有一個(gè)獨(dú)特的種子,這就是為什么不可能真正 100% 復(fù)制特定的現(xiàn)實(shí)生活圖像 - 因?yàn)樗鼈儧]有種子。 骰子圖標(biāo):將種子設(shè)置為 -1,使其隨機(jī)化。這保證了每個(gè)圖像生成的唯一性。 回收圖標(biāo):保留上次圖像生成的種子。 腳本:它是執(zhí)行影響你的工作流程的高級指令的平臺。作為初學(xué)者,你可能希望暫時(shí)保持不變。 保存:將生成的圖像保存在你選擇的文件夾中。請注意,穩(wěn)定擴(kuò)散還會自動將圖像保存在其專用的“輸出”文件夾中。 發(fā)送到 img2img:將你的輸出發(fā)送到 img2img 選項(xiàng)卡,使其成為類似它的新一代的參考。 發(fā)送到修復(fù):將圖像定向到修復(fù)選項(xiàng)卡,使你能夠修改特定圖像區(qū)域,例如眼睛、手或偽像。 發(fā)送到額外內(nèi)容:此操作會將你的圖像重新定位到“額外內(nèi)容”選項(xiàng)卡,你可以在其中調(diào)整圖像大小,而不會丟失大量細(xì)節(jié)。 就是這樣——一切都準(zhǔn)備好了!現(xiàn)在,讓你的創(chuàng)造力盡情發(fā)揮,見證穩(wěn)定擴(kuò)散的神奇魅力。 提示工程 101:如何為 SD v1.5 制作良好的提示 穩(wěn)定擴(kuò)散的成功很大程度上取決于你的提示——將其視為引導(dǎo)人工智能的指南針。細(xì)節(jié)越豐富,生成的圖像就越準(zhǔn)確。 快速制作有時(shí)可能看起來令人畏懼,因?yàn)榉€(wěn)定擴(kuò)散不遵循線性模式。這是一個(gè)充滿嘗試和錯(cuò)誤的過程。從提示開始,生成圖像,選擇你喜歡的輸出,修改你珍惜或希望消除的元素,然后重新開始。沖洗并重復(fù)這個(gè)過程,直到你的杰作通過修復(fù)調(diào)整和不懈的改進(jìn)而出現(xiàn)。 正面提示、負(fù)面提示和微調(diào)關(guān)鍵詞權(quán)重 Stable Diffusion 的設(shè)計(jì)可以通過語法(關(guān)鍵字:因子)調(diào)整關(guān)鍵字權(quán)重。低于 1 的因素會淡化其重要性,而高于 1 的因素會放大其重要性。要操縱權(quán)重,請選擇特定關(guān)鍵字并按 Ctrl+Up 增加或按 Ctrl+Down 減少。此外,你可以使用括號——使用的越多,關(guān)鍵字的權(quán)重就越大。 修飾符為你的圖像添加最后的華麗,指定情緒、風(fēng)格或細(xì)節(jié)(如“黑暗、復(fù)雜、高度詳細(xì)、清晰的焦點(diǎn)”)等元素。 積極的提示概述了你想要的元素??焖贅?gòu)建的可靠策略是按順序指定圖像類型、主題、媒介、風(fēng)格、背景或風(fēng)景、藝術(shù)家、使用的工具和分辨率。civita.com 的演示可以是“真實(shí)感渲染、(數(shù)字繪畫)、(最佳質(zhì)量)、寧靜的日本花園、盛開的櫻花、(((錦鯉池)))、人行橋、寶塔、浮世繪藝術(shù)風(fēng)格,北齋靈感,異常藝術(shù)流行,8k超寫實(shí),柔和的配色方案,柔和的燈光,黃金時(shí)刻,寧靜的氛圍,風(fēng)景導(dǎo)向” 相反,負(fù)面提示詳細(xì)說明了你希望從圖像中排除的所有內(nèi)容。示例包括:暗淡的顏色、丑陋、糟糕的手、太多的手指、NSFW、融合的四肢、最差的質(zhì)量、低質(zhì)量、模糊、水印、文本、低分辨率、長脖子、超出框架、多余的手指、變異的手、單色、丑陋的、重復(fù)的、病態(tài)的、不良的解剖結(jié)構(gòu)、不良的比例、毀容、低分辨率、變形的手、變形的腳、變形的臉、變形的身體部位、((相同的發(fā)型))等。不要害怕用不同的詞。 考慮提示的一個(gè)好方法是“What+SVCM(主語、動詞、上下文、修飾語) ”結(jié)構(gòu): 內(nèi)容:確定你想要的內(nèi)容:肖像、照片、插圖、繪畫等。 主題:描述你正在考慮的主題:一個(gè)美麗的女人、一個(gè)超級英雄、一個(gè)亞洲老人、一個(gè)黑人士兵、小孩、美麗的風(fēng)景。 動詞:描述拍攝對象正在做什么:女人正在對著鏡頭擺姿勢嗎?超級英雄是飛還是跑?亞洲人是微笑還是跳躍? 背景:描述你的想法中的場景:場景發(fā)生在哪里?在公園、在教室、在擁擠的城市?盡可能具有描述性 修改器:添加有關(guān)圖像的附加信息:如果是圖片,則使用哪個(gè)鏡頭。如果是一幅畫,是哪位藝術(shù)家畫的?使用哪種類型的照明,哪個(gè)地點(diǎn)會采用這種照明?你正在考慮哪種服裝或時(shí)尚風(fēng)格,圖像嚇人嗎?這些概念用逗號分隔。但請記住,越接近開始,它們在最終作品中就越突出。如果你不知道從哪里開始,如果你不想只是復(fù)制/粘貼其他人的提示,這個(gè)網(wǎng)站和這個(gè)Github 存儲庫有很多好主意供你嘗試 因此,積極提示的一個(gè)例子可以是:在一家昂貴的酒店里對著鏡頭擺姿勢的可愛貴賓犬的肖像,(((黑尾巴)))、秋天、散景、杰作、強(qiáng)光、膠片顆粒、佳能 5d 標(biāo)記4、F/1.8、Agfacolor、虛幻引擎。 否定提示不需要適當(dāng)?shù)慕Y(jié)構(gòu),只需添加你不喜歡的所有內(nèi)容,就好像它們是修飾符一樣。如果你生成圖片并看到一些你不喜歡的內(nèi)容,只需將其添加到否定提示中,重新運(yùn)行生成并評估結(jié)果即可。這就是人工智能圖像生成的原理,這并不是什么奇跡。負(fù)面提示的一個(gè)例子可以是:模糊、畫得不好、貓、人類、人、素描、恐怖、丑陋、病態(tài)、變形、標(biāo)志、文本、不良解剖學(xué)、不良比例 關(guān)鍵詞整合和及時(shí)安排 關(guān)鍵字混合或提示調(diào)度采用語法[關(guān)鍵字1:關(guān)鍵字2:因子]。該因子是一個(gè)介于 0 和 1 之間的數(shù)字,決定在哪一步從關(guān)鍵字 1 切換到關(guān)鍵字 2。 懶惰的出路:復(fù)制提示 如果你不確定從哪里開始,請考慮利用各個(gè)網(wǎng)站的想法并進(jìn)行調(diào)整以滿足你的需求。提示的優(yōu)秀來源包括: 奇維泰 詞典 穩(wěn)定的擴(kuò)散網(wǎng) 提示英雄 或者,保存你欣賞的人工智能生成的圖像,將其拖放到“PNG 信息”選項(xiàng)卡上,穩(wěn)定擴(kuò)散會提供重新創(chuàng)建它的提示和相關(guān)信息。如果圖像不是 AI 生成的,請考慮使用 CLIP Interrogator 插件來更好地理解其描述。有關(guān)此附加組件的更多詳細(xì)信息將在指南后面提供。 避免陷阱 穩(wěn)定擴(kuò)散的效果取決于它給出的提示。注重細(xì)節(jié)和準(zhǔn)確性,提供清晰具體的提示并重視概念而不是解釋至關(guān)重要。不要精心設(shè)計(jì)一個(gè)句子來描述寬敞、自然光線充足的場景,而只需說“寬敞、自然光線”。 請注意某些屬性可能帶來的意外關(guān)聯(lián),例如指定眼睛顏色時(shí)的特定種族。對這些潛在陷阱保持警惕可以幫助你制定更有效的提示。 請記住,你的指示越具體,你的結(jié)果就越容易控制。但是,如果你假裝創(chuàng)建長提示,請務(wù)必小心,因?yàn)槭褂妹艿年P(guān)鍵字(例如長發(fā),然后對頭發(fā)進(jìn)行排序,或者否定提示中的模糊和肯定提示中的模糊)可能會導(dǎo)致意外結(jié)果: 安裝新模型 安裝模型是一個(gè)簡單的過程。首先確定適合你需求的模型。Civita 是一個(gè)很好的起點(diǎn),它以最大的穩(wěn)定擴(kuò)散工具存儲庫而聞名。與其他替代方案不同,Civita 鼓勵(lì)社區(qū)分享他們的經(jīng)驗(yàn),為模型的功能提供視覺參考。 訪問 Civita,單擊過濾器圖標(biāo),然后在“模型類型”部分中選擇“檢查點(diǎn)”。 Civitai 使用過濾器讓用戶個(gè)性化搜索/Jose Lanz/Decrypt Media 然后,瀏覽網(wǎng)站上所有可用的模型。請記住,穩(wěn)定擴(kuò)散未經(jīng)審查,你可能會遇到 NSFW 內(nèi)容。選擇你喜歡的型號并單擊下載。確保模型具有 .safetensor 擴(kuò)展名以確保安全(舊模型使用 .ckpt 擴(kuò)展名,但不太安全)。 從 Civitai 下載特定自定義 SD v1.5 模型的頁面示例。 下載后,將其放入本地 Automatic 1111 的模型文件夾中。為此,請導(dǎo)航到安裝 A111 Stable Diffusion 的文件夾,然后按照以下路線操作:“stable-diffusion-webuimodelsStable-diffusion” 有數(shù)百種型號可供選擇,但作為參考,我們的一些首選是: 如果你想玩逼真的圖像,請使用 Juggernaut、Photon、Realistic Vision 和 aZovya Photoreal。 Dreamshaper、RevAnimated 以及 DucHaiten 的所有模型(如果你喜歡 3d 藝術(shù))。 DuelComicMix、DucHaitenAnime、iCoMix、DucHaitenAnime 如果你喜歡漫畫和漫畫等 2D 藝術(shù)。 編輯圖像:圖像到圖像和修復(fù)(待辦事項(xiàng)) 穩(wěn)定擴(kuò)散還允許你使用 AI 編輯你不喜歡的圖像。你可能想要更改構(gòu)圖的藝術(shù)風(fēng)格,在天空中添加鳥類,刪除人工制品,或修改手指過多的手。為此,有兩種技術(shù):圖像到圖像和修復(fù)。 由 Stable Diffusion(右)基于用作參考的照片(左)使用 Img2img/Jose Lanz 創(chuàng)建的圖像 圖像到圖像本質(zhì)上是讓穩(wěn)定擴(kuò)散使用另一張圖片作為參考來創(chuàng)建新圖像,無論它是真實(shí)圖像還是你創(chuàng)建的圖像。為此,只需單擊圖像到圖像 (Img2Img) 選項(xiàng)卡,將參考圖像放入相應(yīng)的框中,創(chuàng)建你希望計(jì)算機(jī)遵循的提示,然后單擊生成。需要注意的是,你應(yīng)用的降噪強(qiáng)度越大,新圖像與原始圖像的相似程度就越低,因?yàn)榉€(wěn)定擴(kuò)散將具有更多的創(chuàng)作自由度。 知道了這一點(diǎn),你可以做一些很酷的技巧,比如掃描你祖父母的舊照片作為參考,通過低降噪強(qiáng)度的穩(wěn)定擴(kuò)散和一個(gè)非?;\統(tǒng)的提示(如“RAW,4k 圖像,高度詳細(xì)”)運(yùn)行它們,看看如何人工智能重建你的照片。 修復(fù)允許你在原始圖像中繪制或編輯內(nèi)容。為此,從同一個(gè) Img2Img 選項(xiàng)卡中,選擇修復(fù)選項(xiàng)并將參考繪畫放置在那里。 然后,你只需繪制要編輯的區(qū)域(例如,角色的頭發(fā))并添加要?jiǎng)?chuàng)建的提示(例如,直長的金發(fā)),就完成了! 使用修復(fù)在金發(fā)女超人的參考圖像上編輯藍(lán)色頭發(fā)。由 AI/Jose Lanz 生成 我們建議生成多批圖像,以便你可以選擇最喜歡的圖像并修改提示。然而,最后,如果你非常細(xì)心,手頭有一個(gè)像 Photoshop 這樣的工具總是有好處的,這樣可以得到完美的結(jié)果。 增強(qiáng)穩(wěn)定擴(kuò)散功能的 5 大擴(kuò)展 現(xiàn)在你已經(jīng)熟悉了穩(wěn)定擴(kuò)散,你可能渴望進(jìn)一步發(fā)揮你的創(chuàng)造力。也許你想要固定特定的手部位置、強(qiáng)制模型生成五指手、指定某種類型的衣服、增強(qiáng)細(xì)節(jié)、使用特定的臉部,或者將小圖像轉(zhuǎn)換為大型 8K 文件,同時(shí)盡可能減少細(xì)節(jié)損失。 擴(kuò)展可以幫助你實(shí)現(xiàn)這些目標(biāo)。雖然有許多可用選項(xiàng),但我們重點(diǎn)介紹了五個(gè)必備擴(kuò)展: LoRA:細(xì)節(jié)決定成敗 不使用 LoRA 生成的圖像與使用 LoRA 生成的相同圖像以添加更多細(xì)節(jié)。 LoRA 是旨在增強(qiáng)模型特異性的文件,無需下載全新模型。這使你可以完善細(xì)節(jié),采用特定的面孔、服裝或風(fēng)格。 要安裝 LoRA,請按照下列步驟操作: 單擊“擴(kuò)展”選項(xiàng)卡并選擇“從 URL 安裝”。 在框中輸入 URL:https: //github.com/kohya-ss/sd-webui-additional-networks.git ,然后單擊“安裝”。 完成后,單擊“已安裝”,然后單擊“應(yīng)用并重新啟動 UI”。 安裝 LoRA 的步驟與安裝模型相同。在 Civitai 上,將過濾器設(shè)置為“LoRA”,并使用以下路徑將文件放入 LoRA 文件夾中:stable-diffusion-webuimodelsLora 請記住,某些 LoRA 需要在提示中輸入特定關(guān)鍵字才能激活,因此請務(wù)必在使用前閱讀其說明。 要使用 LoRA,請導(dǎo)航到 text2img 選項(xiàng)卡,單擊類似小畫的圖標(biāo)(顯示/隱藏額外網(wǎng)絡(luò)),LoRA 將出現(xiàn)在提示下方。 ControlNet:釋放視覺魔法的力量 不使用 LoRA 生成的圖像與使用 LoRA 生成的相同圖像以添加更多細(xì)節(jié)。 如果你對穩(wěn)定擴(kuò)散的功能尚未做出決定,請讓 ControlNet 擴(kuò)展成為最終的答案。ControlNet 擁有巨大的多功能性和強(qiáng)大功能,使你能夠從參考圖像中提取構(gòu)圖,證明自己是圖像生成領(lǐng)域的游戲規(guī)則改變者。 ControlNet 確實(shí)是萬事通。無論你是需要復(fù)制姿勢、模擬配色方案、重新設(shè)計(jì)你的生活空間、制作五指手、在不使 GPU 負(fù)擔(dān)過重的情況下執(zhí)行幾乎無限的升級,還是將簡單的涂鴉轉(zhuǎn)變?yōu)榱钊梭@嘆的 3D 渲染或逼真的視覺效果,ControlNet 都可以為你提供幫助。方式。 安裝 ControlNet 涉及以下簡單步驟: 訪問擴(kuò)展頁面并選擇“從 URL 安裝”選項(xiàng)卡。 將以下 URL 粘貼到“擴(kuò)展存儲庫的 URL”字段中:https: //github.com/Mikubill/sd-webui-controlnet 單擊“安裝”。 關(guān)閉穩(wěn)定擴(kuò)散界面。 要啟用 ControlNet,你需要從此存儲庫下載模型:https:///lllyasviel/ControlNet-v1-1/tree/main 然后,將所有下載的文件復(fù)制到此文件夾中:stable-diffusion-webuiextensionssd-webui-controlnetmodels 重新啟動穩(wěn)定擴(kuò)散后,你會注意到 text2img 選項(xiàng)卡中出現(xiàn)了一個(gè)新的“ControlNet”部分。 向你提供兩個(gè)主要選項(xiàng):用于拖放參考圖像的框、控件類型選擇和預(yù)處理器。 “參考圖像框”是你上傳想要參考的姿勢、臉部、色彩構(gòu)成、結(jié)構(gòu)等的圖像的地方。 “控制類型選擇”是 ControlNet 魔法發(fā)生的地方。此功能允許你確定要復(fù)制或控制的內(nèi)容。 你還有其他更高級的選項(xiàng)可讓你微調(diào)結(jié)果:預(yù)處理器(用于激活控制網(wǎng)的技術(shù))、權(quán)重(你的參考有多重要)和開始/結(jié)束點(diǎn)(控制網(wǎng)何時(shí)開始/結(jié)束其影響) 以下是每種控件類型的功能的快速概述: OpenPose:精確定位身體的關(guān)鍵部位并復(fù)制姿勢。你可以使用預(yù)處理器選擇整個(gè)身體、面部或手部的姿勢。 Canny:將你的參考圖像轉(zhuǎn)換為帶有細(xì)線的黑白涂鴉。這允許你的創(chuàng)作遵循這些線條作為邊緣,從而與你的參考準(zhǔn)確相似。 深度:生成“深度圖”以創(chuàng)建圖像的 3D 印象,區(qū)分近處和遠(yuǎn)處的對象 - 非常適合模仿 3D 電影鏡頭和場景。 法線:法線貼圖推斷表面的方向,非常適合為盔甲、織物和外部結(jié)構(gòu)等對象提供紋理。 MLSD:識別直線,非常適合再現(xiàn)建筑設(shè)計(jì)。 藝術(shù)線條:將圖像轉(zhuǎn)換為繪圖 - 對于動漫和卡通等 2D 視覺效果非常有用。 Softedge:與 Canny 模型類似,但邊緣更柔和,為模型提供更多自由度,但精度稍低。 涂鴉:將圖像轉(zhuǎn)換為涂鴉,產(chǎn)生比 Canny 模型更通用的結(jié)果。此外,你還可以在繪畫上創(chuàng)建涂鴉,并將其用作參考,無需預(yù)處理器即可將圖像變成現(xiàn)實(shí)的創(chuàng)作。 分割:創(chuàng)建圖像的顏色圖,推斷其中的對象。每種顏色代表一種特定的物體。你可以使用它來重新裝飾你的圖像,或者重新想象具有相同概念的場景(例如,將 1800 年代的照片變成賽博朋克替代現(xiàn)實(shí)中相同風(fēng)景的逼真描繪,或者只是用不同的床、墻壁重新裝飾你的房間不同顏色等) 平鋪:向圖片添加細(xì)節(jié)并促進(jìn)放大,而不會使 GPU 負(fù)擔(dān)過重。 修復(fù):修改圖像或擴(kuò)展其細(xì)節(jié)?,F(xiàn)在,借助最近的更新和“僅修復(fù) + 駱駝”模型,你可以極其注重細(xì)節(jié)地繪制圖像 隨機(jī)播放:再現(xiàn)參考圖像的顏色結(jié)構(gòu)。 參考:生成在風(fēng)格、構(gòu)圖和偶爾的面孔方面與你的參考相似的圖像。 T2IA:讓你控制圖像的顏色和藝術(shù)構(gòu)圖。 掌握這些選項(xiàng)可能需要時(shí)間,但它們提供的靈活性和定制性值得付出努力。在線查看各種教程和指導(dǎo)視頻,以充分利用 ControlNet。 Roop:Deepfakes觸手可及 Roop 提供了一種輕松的方法來生成逼真的深度贗品。Roop 無需處理復(fù)雜的模型或 LoRA,而是可以處理繁重的工作,使你只需單擊幾下即可創(chuàng)建高質(zhì)量的深度贗品。 要下載并激活,請按照官方 Roop Github 存儲庫上的說明進(jìn)行操作 要使用它,請創(chuàng)建提示,導(dǎo)航到 Roop 菜單,上傳參考面,啟用它,然后生成圖像。為了獲得最佳效果,請使用你想要復(fù)制的臉部的高分辨率正面照片。請記住,同一個(gè)人的不同圖像可能會產(chǎn)生不同的結(jié)果 - 有些比其他圖像更逼真。 Photopea:Photoshop 穩(wěn)定擴(kuò)散的力量 Photopea 擴(kuò)展在 A1111 內(nèi)部的外觀 有時(shí),需要手動調(diào)整才能獲得完美的結(jié)果,這就是 Photopea 的用武之地。此擴(kuò)展將類似 Photoshop 的功能直接引入穩(wěn)定擴(kuò)散界面,使你無需切換平臺即可微調(diào)生成的圖像。 你可以從此存儲庫安裝 Photopea:https://github.com/yankoliveira/sd-webui-photopea-embed CLIP 詢問器:從任何圖像創(chuàng)建提示 如果你不知道從哪里開始使用提示,那么這是一個(gè)很棒的工具。拍攝一張圖像,將其放入框中,運(yùn)行詢問器,它會告訴你哪些單詞可以與你提供的圖像相關(guān)聯(lián)。 CLIP Interrogator 是一個(gè)方便的工具,用于從特定圖像中導(dǎo)出關(guān)鍵字。通過結(jié)合 OpenAI 的 CLIP 和 Salesforce 的 BLIP,該擴(kuò)展可以生成與給定參考圖像匹配的文本提示。 你可以從此存儲庫安裝:https://github.com/pharmapsychotic/clip-interrogator-ext.git 結(jié)論 通過穩(wěn)定擴(kuò)散,你將成為視覺管弦樂隊(duì)的大師。無論是“艾瑪·沃特森作為女巫的超現(xiàn)實(shí)肖像”還是“幻想環(huán)境中海盜的復(fù)雜數(shù)字繪畫”,唯一的限制就是你的想象力。 現(xiàn)在,用你新發(fā)現(xiàn)的知識武裝起來,繼續(xù)將你的夢想描繪成現(xiàn)實(shí),一次一個(gè)文本提示。 由 Decrypt 使用 AI/Jose Lanz 創(chuàng)建的圖像 |
|