4G顯存低配暢玩AIGC！ControlNet作者新作登頂GitHub熱榜，小白點(diǎn)3次就出圖

心本心123 2023-08-26 發(fā)布于廣東

展開全文

克雷西蕭簫發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

玩AI畫畫，現(xiàn)在終于不用擔(dān)心被老黃刀法“背刺”了！

只需要一塊4年前的GTX 1650（顯存4GB），AI出圖效果堪比當(dāng)前最好的開源模型SDXL。

△圖源：推特@ナビ

這是最近在GitHub上連續(xù)數(shù)日霸榜TOP 1的新項(xiàng)目Fooocus，三天標(biāo)星破4k，ControlNet作者出品。

在它橫空出世之前，大伙兒要想順利跑Stable Diffusion最新的XL模型，怎么也得上16G顯存的4060ti（12G顯存的原生3060跑起來非常勉強(qiáng)）。

與其他開源AI工具不同，F(xiàn)ooocus“聚焦于生成本身”，不僅硬件要求低，而且上手簡單，十分小白友好——

全過程無需調(diào)整任何參數(shù)，點(diǎn)點(diǎn)鼠標(biāo)，3步就能生成一張圖像。

△圖源推特@Photogenic Weekend

有網(wǎng)友直呼“這簡直就是Stable Diffusion和Midjourney的集大成”：

跟手動(dòng)調(diào)參說再見吧！離線、開源且免費(fèi)，只需提示詞和圖片，就能讓魔法涌現(xiàn)！

還有網(wǎng)友感嘆：即使是小白，也能很好地發(fā)揮出Stable Diffusion XL模型的效果呢。

那么，這個(gè)全新的圖像AI工具，實(shí)際生成效果如何？我們上手試了試。

Colab半分鐘出圖，效果比肩SD

從運(yùn)行界面來看，F(xiàn)ooocus一共有一百多種內(nèi)置風(fēng)格可供選擇。

△圖源推特@camenduru

至于效率，F(xiàn)ooocus出圖也是非?？臁Ｔ贑olab中，速度優(yōu)先模式下每畫一張圖大概只需半分鐘：

日志顯示的時(shí)間是繪制時(shí)間，不過之前還有個(gè)文本解析的過程，總共耗時(shí)大約是40秒：

△畫面經(jīng)過加速處理

那就先讓它畫個(gè)漫畫試試，來看看AI視角下的“馬扎大戰(zhàn)”會(huì)是什么樣子。（可不是這個(gè)馬扎哈）

由于用AI直接生成人像，手部的處理還是存在一些問題，所以我們干脆讓馬斯克和扎克伯格都戴上了手套：

效果好像還不錯(cuò)。不知道他們有沒有什么賭注，不過不妨讓輸?shù)娜藖砼b一下。（溫馨提示：打架沒有贏家）

最終兩人“握手言和”，這一珍貴畫面也被攝影師記錄了下來，整體畫面是不是有那味了？

“馬扎之戰(zhàn)”結(jié)束之后，老馬乖乖地回到公司，賣起了特斯拉。

忽略LOGO的話，海報(bào)的設(shè)計(jì)感也還蠻在線的。

其實(shí)Fooocus的每個(gè)內(nèi)置風(fēng)格都很有趣，所以不妨再來看看這些不同風(fēng)格的整活圖片：

在模仿著名作品方面，有賽博朋克版、塞爾達(dá)版、Minecraft版，甚至是寶可夢(mèng)版本的馬斯克可供觀賞。

至于其他的藝術(shù)形式，還有像素和Lowpoly風(fēng)格，以及黏土人和剪紙版本……

當(dāng)然例子是舉不完的，更多的風(fēng)格讀者朋友們可以自己去體驗(yàn)。

（不得不說，AI作圖里的文字終于不是鬼畫符了）

各位大畫家是不是已經(jīng)按耐不住想要試試了？我們馬上就來介紹Fooocus的玩法！

Fooocus的界面是醬嬸兒的，可以說是十分有九分簡潔：

如果只是嘗個(gè)鮮，沒有特殊要求的話，這一個(gè)提示框完全足夠了。

因?yàn)樽髡咭呀?jīng)把很多復(fù)雜技巧內(nèi)化到了程序當(dāng)中，調(diào)參這些操作不再需要手動(dòng)完成。

直接在下面的框中輸入Prompt，點(diǎn)擊生成按鈕就可以坐等出圖了。

（默認(rèn)一次出兩張圖，尺寸為1152×896，風(fēng)格為cinematic default，速度優(yōu)先）

如果需要高級(jí)設(shè)置，就把左下角的Advanced勾上，配置信息會(huì)出現(xiàn)在頁面右側(cè)，分為三個(gè)標(biāo)簽：

可以調(diào)整的內(nèi)容包括尺寸、數(shù)量、風(fēng)格、性能等等。

如果你是專業(yè)級(jí)玩家，還可以選擇模型版本，甚至調(diào)整LoRA參數(shù)。

此外，還有調(diào)整銳利度這種高端玩法。

對(duì)于相同的內(nèi)容，下面這張動(dòng)圖展示了銳利度從2到10再到20的變化。可以看出，隨著銳利度增大，畫面的細(xì)節(jié)也越來越豐富：

不過，對(duì)于Fooocus是否支持中文，我們也試了一下，很遺憾現(xiàn)在還不行。

比如我們輸入提示詞“蘋果”，結(jié)果畫出來的是個(gè)妹子。

這……難道是想說“You’re the apple of my eyes”？

現(xiàn)在你大概已經(jīng)知道Fooocus的玩法了，那么又該怎么配置呢？

如果你有帶英偉達(dá)顯卡的Windows設(shè)備，那么可以用開箱即用的版本。（大概這已經(jīng)是老黃第114514次贏麻了）

同時(shí)，硬件需要滿足最低配置要求——4GB顯存+8GB內(nèi)存。

先從這里直接下載：
https://github.com/lllyasviel/Fooocus/releases/download/release/Fooocus_win64_1-1-10.7z

解壓好之后，雙擊run.bat運(yùn)行，系統(tǒng)會(huì)自動(dòng)下載模型并部署，等配置完成就可以用了。

Linux版本的配置要求和Windows一樣，不過配置流程要復(fù)雜些。

（如果有Jupyter，也可以參考Colab中用到的note文件）

首先要安裝好環(huán)境依賴：

git clone https://github.com/lllyasviel/Fooocus.git
cd Fooocus
conda env create -f environment.yaml
conda activate fooocus
pip install -r requirements_versions.txt

然后下載模型文件，存儲(chǔ)到指定目錄：

△具體請(qǐng)參見GitHub頁面

當(dāng)然，也可以讓系統(tǒng)自動(dòng)下載模型：

python launch.py

如果你在用Mac，或者硬件配置不滿足要求，也可以用Colab直接運(yùn)行。

（傳送門：https://colab.research.google.com/github/lllyasviel/Fooocus/blob/main/colab.ipynb）

不過，還是要吐槽的是，Colab版本會(huì)時(shí)不時(shí)宕幾次機(jī)，不是自動(dòng)停止就是內(nèi)存溢出……

如果想在Mac或A卡電腦上更絲滑地運(yùn)行Fooocus，可以再等等作者的更新。

整體來看，F(xiàn)ooocus的出圖效果不錯(cuò)，如果提示詞選擇好的話，甚至可以當(dāng)Stable Diffusion來用，關(guān)鍵是硬件配置要求也不高。

這究竟是怎么實(shí)現(xiàn)的？

來自ControlNet作者最新項(xiàng)目

架構(gòu)設(shè)計(jì)上，F(xiàn)ooocus主要分為兩部分：交互界面和AI模型。

其中，交互界面參考了兩個(gè)項(xiàng)目，分別是stable-diffusion-webui和ComfyUI。

stable-diffusion-webui主要是交互界面的前端設(shè)計(jì)：

ComfyUI則兼具Stable Diffusion的GUI和后端設(shè)計(jì)：

至于AI模型，能看出是用了Stable Diffusion新的SDXL模型：

這是也目前Stable Diffusion最好用的版本之一，生成效果相比之前的1.5版本有不少改進(jìn)。

不過，雖然Fooocus的模型和UI設(shè)計(jì)都有參考現(xiàn)成Stable Diffusion開源項(xiàng)目，但作者在制作時(shí)，融入了不少自己的優(yōu)化設(shè)計(jì)，使得模型跑起來更加絲滑。

例如，作者仔細(xì)在Fooocus中采用了自己設(shè)計(jì)的k擴(kuò)散采樣（advanced k-diffusion sampling）方法，能提升采樣連續(xù)性，減少性能損失、提升采樣效率；

此外，作者還仔細(xì)調(diào)整了采樣器（Sampler）的參數(shù)，并在原版基礎(chǔ)上修改增加了一些包括電影風(fēng)格在內(nèi)的新設(shè)定。

之所以給Fooocus加上LoRA選項(xiàng)，是因?yàn)樽髡邷y(cè)試發(fā)現(xiàn)，加上LoRA（權(quán)重設(shè)置小于0.5）的SDXL模型，效果幾乎總是比不加LoRA的SDXL模型更好。

開發(fā)出Fooocus這個(gè)項(xiàng)目的作者名叫Lvmin Zhang，2021年本科畢業(yè)于東吳大學(xué)，目前在斯坦福大學(xué)讀博。

他做過的幾個(gè)項(xiàng)目，包括ControlNet和style2paints在內(nèi)，幾乎個(gè)個(gè)都爆火：

現(xiàn)在，最新的這個(gè)項(xiàng)目Fooocus，看起來同樣很受歡迎。

在社交媒體上，已經(jīng)有網(wǎng)友自發(fā)整出了Fooocus版不同風(fēng)格的提示詞合集Excel。

如果不知道生成什么樣的圖片，參考這個(gè)文檔內(nèi)的提示詞就行：

你想好要用Fooocus生成什么樣的圖像了嗎？

項(xiàng)目地址：
https://github.com/lllyasviel/Fooocus

參考鏈接：
[1]https://twitter.com/lvminzhang/status/1690118840326524928
[2]提示詞合集：https://docs.google.com/spreadsheets/d/1AF5bd-fALxlu0lguZQiQVn1yZwxUiBJGyh2eyJJWl74/edit
[3]https://twitter.com/narrativenavi/status/1691235126045552645
[4]https://twitter.com/kiyoshi_shin

— 完 —

「量子位智庫·仿生機(jī)器人沙龍」招募中

9月6日，「量子位智庫·仿生機(jī)器人沙龍」將在北京中關(guān)村舉辦，歡迎全行業(yè)仿生機(jī)器人玩家參與 ~

點(diǎn)擊圖片了解詳情，企業(yè)報(bào)名可聯(lián)系活動(dòng)負(fù)責(zé)人王琳玉（微信：iris_wang17，請(qǐng)備注企業(yè)+姓名）。沙龍觀眾通道后續(xù)開放，敬請(qǐng)期待 ~

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：心本心123 > 《2023》

舉報(bào)/認(rèn)領(lǐng)