小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

手把手教你用Stable Diffusion寫好提示詞

 風(fēng)聲之家 2023-06-16 發(fā)布于江蘇

訊程序員 騰訊技術(shù)工程 2023-05-29 18:00 發(fā)表于廣東

作者:symon

導(dǎo)語

Stable Diffusion 技術(shù)把 AI 圖像生成提高到了一個(gè)全新高度,文生圖 Text to image 生成質(zhì)量很大程度上取決于你的提示詞 Prompt 好不好。本文從“如何寫好提示詞”出發(fā),從提示詞構(gòu)成、調(diào)整規(guī)則和 chatGPT 輔助工具等角度,對(duì)文生圖的提示詞輸入進(jìn)行歸納總結(jié)。

一 背景介紹

Stable Diffusion 是一種文生圖 AI 模型,由互聯(lián)網(wǎng)上數(shù)百萬圖像和文本描述對(duì)訓(xùn)練而來,通過理解文本描述與圖像信息的內(nèi)在關(guān)聯(lián),不斷利用擴(kuò)散過程進(jìn)而得到滿意的生成圖片[1]。

比如,通過一串提示詞,midjourney 會(huì)輸出這樣的情侶合照:

A pair of young Chinese lovers, wearing jackets and jeans, sitting on the roof, the background is Beijing in the 1990s, and the opposite building can be seen —v 5 —s 250 —q 2.
一對(duì)年輕的中國情侶,穿著夾克和牛仔褲,坐在屋頂上,背景是20世紀(jì)90年代的北京,可以看到對(duì)面的建筑
圖1 用midjourney v5生成的情侶圖

沒錯(cuò),這兩位并不是真人,而是由 AI 一鍵生成的,毫無違和感!你可能會(huì)想這有什么了不起的,隨手一搜就有好幾 G 嘛。這項(xiàng)技術(shù)的有趣之處在于,還可以讓模型生成一些先前不存在具有組合元素的高質(zhì)量圖像。比如說,你可以生成不同畫家風(fēng)格的明星照片,下面以 19 世紀(jì)印象派畫家 Vincent van Gogh 和 19 世紀(jì)美國畫家畫家 John Sargent 風(fēng)格來畫下 Emma Watson 肖像畫(Emma Watson 是《哈利波特》中赫敏的飾演者)

圖2 不同畫家風(fēng)格下的Emma Watson肖像

prompt1: Vincent van Gogh’s painting of Emma Watson; prompt2: John Sargent’s painting of Emma Watson

從圖 2 可以看到,生成圖片對(duì)面部和陰影控制得比較好,整體藝術(shù)風(fēng)格還是比較協(xié)調(diào)的,能把畫師風(fēng)格和具體人物以一種比較和諧的方式融合到一起。

圖3 Stable Diffusion組成結(jié)構(gòu)

那計(jì)算機(jī)是如何理解輸入文字呢?圖 3 給出了 stable diffusion 整體結(jié)構(gòu)示意圖,利用文本編碼器 text encoder(藍(lán)色模塊),把文字轉(zhuǎn)換成計(jì)算機(jī)能理解的某種數(shù)學(xué)表示,它的輸入是文字串,輸出是一系列具有輸入文字信息的語義向量。有了這個(gè)語義向量,就可以作為后續(xù)圖片生成器 image generator(粉黃組合框)的一個(gè)控制輸入。stable diffusion 更多技術(shù)介紹和文本編碼器工作原理可以查看《【AI 繪畫】十分鐘讀懂 Stable Diffusion 運(yùn)行原理》。要想生成出滿意照片,輸入合適提示詞就變得非常重要,接下來就從“如何寫好提示詞”出發(fā),對(duì)文生圖的提示詞輸入方法進(jìn)行歸納總結(jié)。

二 如何寫好提示詞?

寫出一份比較好的提示詞是文生圖技術(shù)的關(guān)鍵。但是,寫出一份好的 prompt 并不容易,下面針對(duì)“如何寫好提示詞”這個(gè)問題,從提示詞構(gòu)成、調(diào)整規(guī)則和 chatGPT 輔助等角度,來介紹下如何優(yōu)化輸入提示詞。

1 正面提示詞

要寫好一份提示詞,遵循原則為盡可能詳細(xì)并且具體,從不同角度進(jìn)行詳細(xì)描述。下面從 9 個(gè)角度來介紹輸入關(guān)鍵詞。

常用的關(guān)鍵詞類別包括如下:

(1) 主體 subject

(2) 媒介 medium

(3) 風(fēng)格 style

(4) 畫家 artist

(5) website

(6) 分辨率 resolution

(7) 額外細(xì)節(jié) additional details

(8) 色調(diào) color

(9) 光影 lighting

當(dāng)然,輸入提示詞時(shí),不需要包括到每個(gè)類別,只需作為一個(gè)列表檢查下哪些可以用到。下面通過添加每個(gè)類別的關(guān)鍵字來生成一些圖像,來說明和介紹下每個(gè)類別。為單獨(dú)觀察提示詞效果,實(shí)驗(yàn)時(shí)不會(huì)使用負(fù)面提示詞(在下個(gè)模塊會(huì)更詳細(xì)介紹)。

(1) 主體

主體 subject,是指想在圖像中看到的主體,要盡可能詳細(xì)描述以避免出現(xiàn)描述不足的問題。假如要生成一個(gè)在施法的女巫,新手可能會(huì)這么寫:

A sorceress

這個(gè)描述詞也太簡單了吧,要提到女巫長什么樣,增加她形象相關(guān)的描述詞,比如說她穿了什么?在施什么魔法?是站著,跑著,或者飄浮在天上?主體背景在哪里?

Stable diffusion 并不能猜到這些內(nèi)容,我們要更詳細(xì)地表達(dá)各個(gè)元素信息。畫人物對(duì)象的一個(gè)常用技巧是使用名人的名字,名人由于在訓(xùn)練集中出現(xiàn)頻次較大而訓(xùn)練充分,是控制生成人物形象的一種好辦法。

作為演示,把女巫形象設(shè)置成 Emma Watson 的樣子,她因飾演《哈利波特》中的赫敏一角紅遍全球,也是 stable diffusion 里最常使用的一個(gè)關(guān)鍵詞。把她想象成一個(gè)會(huì)使用閃電的神秘女巫,并增加一些形象要求,提示詞如下:

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing

對(duì)應(yīng)的生成圖如下:

圖4 Emma Watson女巫圖

利用名人名字來控制人物形象,直接原因就是訓(xùn)練時(shí)用到了一定量樣本,包括不同角度和不同場(chǎng)景,使 Emma Watson 得到了充分訓(xùn)練。要是使用更早些或者小眾點(diǎn)的演員,效果就不一定這么好了。

(2) 畫風(fēng)

畫風(fēng) medium,是指生成圖片的畫風(fēng),包括插畫 illustration、油畫 oil painting 或攝影風(fēng) photography 等。這類描述詞影響力很大,單獨(dú)一個(gè)畫風(fēng)描述詞就能很大程度地改變風(fēng)格。比如添加下關(guān)鍵字“digital painting(數(shù)字繪畫)”,

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting

對(duì)應(yīng)的生成圖如下:

圖5 Emma Watson女巫圖+畫風(fēng)

可以看到,這些圖像的畫風(fēng)從普通照片變成了數(shù)字繪畫風(fēng)。這里也列出一些常用畫風(fēng),

關(guān)鍵詞說明
Portrait肖像畫風(fēng),用于生成臉部或者頭像
Digital painting數(shù)字藝術(shù)風(fēng)格
Concept art2D 插圖風(fēng)格
Ultra realistic illustration畫風(fēng)真實(shí)和逼真,用于生成人物
Underwater portrait模擬水下的人物特寫,頭發(fā)會(huì)飄起來
(3) 風(fēng)格

風(fēng)格 style,是指主體形象的藝術(shù)風(fēng)格,比如印象派、超現(xiàn)實(shí)主義、波普藝術(shù)等。

通過添加一些風(fēng)格描述詞"hyperrealistic, fantasy, surrealist, full body",

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body

對(duì)應(yīng)的生成圖如下:

圖6 Emma Watson女巫圖+風(fēng)格

這里感覺又多了一些變化,前面關(guān)鍵字已經(jīng)包含了部分風(fēng)格關(guān)鍵字導(dǎo)致變化不大,但是保留這些風(fēng)格提示詞也可以。這里也列出一些常用風(fēng)格。

關(guān)鍵詞說明
hyperrealistic超現(xiàn)實(shí)主義,會(huì)增加細(xì)節(jié)和分辨率
pop-art波普藝術(shù)風(fēng)格
Modernist現(xiàn)代派,色彩鮮艷和高對(duì)比度
art nouveau新藝術(shù)風(fēng)格,追求平面化
(4) 畫家

畫家 artist,類似于強(qiáng)修飾符,是指用特定畫家作為參考來生成他們風(fēng)格的圖像。當(dāng)然也可以使用多個(gè)畫家名字來生成混合風(fēng)格。

繼續(xù)在提示詞里再加上 19 世紀(jì)的超級(jí)英雄漫畫家 Stanley Artgerm Lau 和肖像畫家 Alphonse Mucha

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha

對(duì)應(yīng)的生成圖如下:

圖7 Emma Watson女巫圖+不同畫家

這里看到,把兩位畫家的風(fēng)格融合到一起,效果還不錯(cuò)。這里也列出一些常用畫家,

關(guān)鍵詞說明
John Collier19 世紀(jì)肖像畫家
Stanley Artgerm Lau偏寫實(shí)和現(xiàn)代風(fēng)格
John Singer Sargent擅長女性肖像,偏印象派
Alphonse Mucha擅長畫平面肖像
(5) 網(wǎng)站

有一些小眾圖片網(wǎng)站,比如說Artstation和 Deviant Art 這樣的網(wǎng)站收集了許多畫風(fēng)獨(dú)特的圖像。在提示詞中添加網(wǎng)站名稱,也可以把圖像引向這些風(fēng)格。

試下在提示詞里再加上“artstation ”,

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation

對(duì)應(yīng)的生成圖如下:

圖7 Emma Watson女巫圖+網(wǎng)站

圖片變化不是很大,但看起來有點(diǎn)像 Artstation 網(wǎng)絡(luò)下載下來的了。

(6) 分辨率

分辨率 Resolution,表示生成圖像的清晰度和細(xì)節(jié)程度。繼續(xù)添加這方面關(guān)鍵字“highly detailed, sharp focus”,

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus

對(duì)應(yīng)的生成圖如下:

圖8 Emma Watson女巫圖+分辨率

看起來變化不大,因?yàn)榍懊嫔蓤D片已經(jīng)非常清晰了,但補(bǔ)充一下也無妨。

(7) 額外細(xì)節(jié)

額外細(xì)節(jié) additional details,可以繼續(xù)用來修改圖片。繼續(xù)添加這方面關(guān)鍵字“sci-fi, stunningly beautiful, dystopian”,

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian

對(duì)應(yīng)的生成圖如下:

圖9 Emma Watson女巫圖+額外細(xì)節(jié)
(8) 色調(diào)

色調(diào) color,是指通過添加顏色關(guān)鍵字來控制圖像整體顏色,可以把顏色應(yīng)用到某個(gè)物品上或者是整體色調(diào)。

利用關(guān)鍵字"iridescent gold"讓整張圖片黃一點(diǎn),

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold

對(duì)應(yīng)的生成圖如下,看起來就很黃了!

圖10 Emma Watson女巫圖+色調(diào)
(9) 光照

光照 lighting,是指圖像里的光照描述,改變光照可以對(duì)圖像效果產(chǎn)生巨大影響。試試添加關(guān)鍵字“cinematic lighting, dark”,

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark

對(duì)應(yīng)的生成圖如下,影視光照就出來了!

圖11 Emma Watson女巫圖+光照

總結(jié)下,圖片生成時(shí)針對(duì)主體添加一些關(guān)鍵字,就能夠得到比較不錯(cuò)的圖片;通常不需要填寫很多提示詞來獲得高質(zhì)量圖片,比如畫家、網(wǎng)站和風(fēng)格在一定程度上是有些重合的。也可以借助一些 stable diffusion 提示詞網(wǎng)站來獲取更多靈感 Ai 畫廊 - AI 關(guān)鍵詞生成器

2 負(fù)面提示詞

負(fù)面提示詞和正面提示詞是同等重要的,使用負(fù)面提示詞也是生成迭代過程的一個(gè)重要環(huán)節(jié)。要解釋負(fù)面提示詞的工作原理,這里需要先理解不使用負(fù)面提示詞時(shí)采樣是如何工作的

不使用負(fù)面提示詞的采樣過程

在 stable diffusion 采樣階段,① 首先用文本提示詞作為指導(dǎo)條件,利用條件采樣對(duì)圖像進(jìn)行去噪;② 采樣器使用無條件采樣對(duì)同一圖像進(jìn)行去噪,這里不使用文本指導(dǎo),但它仍然會(huì)擴(kuò)散到某一個(gè)圖像,比如說下面的籃球或者紅酒杯(它可以是任何隨機(jī)主體);③ 擴(kuò)散過程中實(shí)際上是計(jì)算條件采樣和無條件采樣的差異,并按照采樣步數(shù)重復(fù)這個(gè)過程。

圖12 不使用負(fù)面提示詞的采樣過程

使用負(fù)面提示詞的采樣過程

負(fù)面提示詞是通過影響無條件采樣實(shí)現(xiàn)的。利用負(fù)面提示詞,在上面第 ② 步里就不是使用空提示來生成隨機(jī)對(duì)象了。從技術(shù)上說,正面提示詞會(huì)引導(dǎo)采樣過程生成與文本相關(guān)的圖像,負(fù)面提示詞則會(huì)在采樣過程來引導(dǎo)遠(yuǎn)離相關(guān)圖像。需要說明,擴(kuò)散過程是發(fā)生在隱空間 latent space 里,而不是圖像空間,這里僅作為技術(shù)示意。

圖13 使用負(fù)面提示詞的采樣過程

負(fù)面提示詞,即填入不想要的主體或者身體部位,以在采樣過程中避免出現(xiàn)。比如說,sd v1 版本不擅長生成手,就可以在負(fù)向提示詞里輸入“hand”或者“extra limbs”來隱藏或修正。下面會(huì)從 4 個(gè)角度來介紹可以使用負(fù)面提示詞的應(yīng)用場(chǎng)景,分別是:

(1) 移除物體 removing things

(2) 修改圖片 modifying images

(3) 關(guān)鍵詞切換 keyword switching

(4) 修改風(fēng)格 modifying styles

(1) 移除物體

負(fù)面提示詞的第一個(gè)直接用法是移除任何不想在圖片中看到的內(nèi)容。比如,在提示詞輸入“Portrait photo of a man”,得到下面兩張圖片,都看起來比較嚴(yán)肅。

圖14 提示詞輸入“Portrait photo of a man”的生成圖片

接下來試著去掉他們胡子,看起來更年輕一點(diǎn),因此在負(fù)向提示詞里輸入“mustache”,就可以生成一些沒有胡子的男人,如圖 15 所示。當(dāng)然,要想完全去除右邊男人的胡子,可通過增強(qiáng)負(fù)向提示詞“(mustache:1.3)”來告訴采樣過程去除胡子操作的重要度提高 30%。

圖15 在負(fù)向提示詞里添加“mustache”的生成圖片
(2) 修改圖片

負(fù)向提示詞也可以用于在得到較滿意圖像時(shí),利用負(fù)面提示詞進(jìn)行微調(diào)。這里不需要移除任何東西,而只需要對(duì)主體做一些細(xì)微修改。

比如,利用下面提示詞得到一張比較滿意的唯美照片后,發(fā)現(xiàn)可能由于刮風(fēng)導(dǎo)致頭發(fā)都飄起來了,就可以添加負(fù)面提示詞“windy”讓頭發(fā)正常下垂。

正面提示詞輸入如下,

emma watson as nature magic celestial, top down pose, long hair, soft pink and white transparent cloth, space, D&D, shiny background, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, artgerm, bouguereau
圖16 添加負(fù)面提示詞“windy”后的左右變化,右邊為修改后圖片

要是不想調(diào)整頭發(fā),而是想讓頭發(fā)遮住耳朵呢?通過添加帶有不同強(qiáng)度的負(fù)面提示詞“ear”來調(diào)整隱藏強(qiáng)度。下面是強(qiáng)度分別為 1.3、1.6 和 1.9 的效果,由于 ear 在強(qiáng)度為 1 時(shí)已被大比例遮住,繼續(xù)增大時(shí)變化不多。但負(fù)面強(qiáng)度設(shè)置為 1.9 時(shí),圖像組成也發(fā)生了變化,這說明負(fù)面提示詞對(duì)擴(kuò)散過程的影響是比較大的。

圖17 負(fù)面提示詞“ear”不同強(qiáng)度的生成圖片
(3) 關(guān)鍵詞切換

要是真的想使用強(qiáng)度為 1.9 的負(fù)向提示詞,有什么不改變圖片總體結(jié)構(gòu)的方法呢?用關(guān)鍵詞切換技術(shù),先使用一個(gè)無意義的單詞作為負(fù)面提示詞,再在后面的采樣步驟里切換到(ear:1.9)。

比如,使用“the”作為無意義的負(fù)面提示詞,可以把它放在負(fù)面提示詞里先驗(yàn)證下它的無用性。在驗(yàn)證添加“the”的生成圖像跟沒有添加時(shí)幾乎一樣后,就可以使用這個(gè)“the”單詞作為負(fù)面提示詞,

the: (ear:1.9): 0.5

由于采樣步數(shù)設(shè)置了 20,意味著在第 1~10 步時(shí)使用負(fù)面提示詞“the”,第 11~20 步使用負(fù)面提示詞“(ear:1.9)”。這是因?yàn)?,擴(kuò)散過程的初始階段是確定圖片主體結(jié)構(gòu),后面步驟只是在對(duì)細(xì)節(jié)進(jìn)行更精細(xì)調(diào)整,比如用頭發(fā)遮住耳朵。

圖17 負(fù)面提示詞“the: (ear:1.9): 0.5”的生成圖片

通過這種方式,就對(duì)負(fù)面提示詞使用更大強(qiáng)度 1.9,且不改變圖片組成,得到了接近原始圖像的微調(diào)圖像,并且把耳朵用頭發(fā)遮得更嚴(yán)實(shí)。

(4) 修改風(fēng)格

負(fù)面提示詞不僅能用來修改圖片內(nèi)容,也可以用來修改圖片風(fēng)格。為什么要用負(fù)面提示詞來修改圖片風(fēng)格?在正面提示里添加過多單詞也會(huì)混淆擴(kuò)散過程,把一部分信息放在負(fù)面提示詞里的效果會(huì)更明顯。

操作 1 Sharpening。為了讓圖片更清晰,除了在正面提示詞里使用關(guān)鍵字“sharp”或者“focused”,也可以在負(fù)面提示詞里使用“blur”,來讓圖片更為清晰。

圖18 添加負(fù)面提示詞“blurry”的生成圖片

操作 2 “Photorealistic”。使用負(fù)面提示詞“painting”或者“cartoon”,使生成圖片更傾向?qū)憣?shí)主義。當(dāng)然,要是想保持原有圖片結(jié)構(gòu),可繼續(xù)使用前面提到的關(guān)鍵詞切換,使用負(fù)面提示詞“the: (painting cartoon:1.9): 0.3”,可得到圖 19 中更接近原始圖像但增加了寫實(shí)主義風(fēng)格的生成圖像。

圖19 負(fù)面提示詞“the: (painting cartoon:1.9): 0.3”的生成圖片

下面給出了一份通用的負(fù)面提示詞,可以復(fù)用到你的場(chǎng)景,這些負(fù)面提示詞可以讓圖片主體更突出,具有層次感。

ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy

總結(jié)下,負(fù)面提示詞也扮演著十分重要的作用,用負(fù)面提示詞在采樣過程引導(dǎo)遠(yuǎn)離相關(guān)圖像。如上面介紹,可以用來微調(diào)生成圖片,如移除物體、修改圖片,或者修改風(fēng)格等一系列操作。

3 微調(diào)提示詞

利用正面和負(fù)面提示詞還不能生成很滿意的照片,還需要做進(jìn)一步細(xì)節(jié)調(diào)整?還有一些提示詞調(diào)整技巧,下面會(huì)從 3 個(gè)用法角度來介紹如何微調(diào)提示詞,

(1) 關(guān)鍵詞權(quán)重

(2) ()和[]語法

(3) 關(guān)鍵詞混合

(1) 關(guān)鍵詞權(quán)重

關(guān)鍵詞權(quán)重,是指通過語法“(keyword: factor)”來調(diào)整關(guān)鍵詞權(quán)重,其中 factor 為權(quán)重值,小于 1 表示減低重要度,大于 1 表示增大重要度。

下面這個(gè)例子調(diào)整了關(guān)鍵字“dog”的權(quán)重值。如下圖所示,增大“dog”權(quán)重一般會(huì)生成更多狗,減少權(quán)重則降低了生成狗的數(shù)量。這種技術(shù)也可以應(yīng)用到風(fēng)格 style 或者光照 lighting 調(diào)整。

dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.
圖20 不同權(quán)重提示詞“dog”的生成圖片
(2) ()和[]符號(hào)

調(diào)整關(guān)鍵詞強(qiáng)度的另一種等效方法是使用()和[]符號(hào)。(keyword)把關(guān)鍵詞強(qiáng)度增加到 1.1 倍,與“(keyword:1.1)”效果一致;[keyword]把關(guān)鍵詞強(qiáng)度降低到 0.9 倍,與“[keyword:0.9]”效果一致。

這里可以使用多個(gè),跟數(shù)學(xué)里的連乘操作是一樣的。

(keyword): 1.1
((keyword)): 1.21
(((keyword))): 1.33
(3) 關(guān)鍵詞混合

這里還可以通過混合兩個(gè)關(guān)鍵詞來實(shí)現(xiàn)更有趣效果,使用語法為“[keyword1 : keyword2: factor]”,其中 factor 值控制了把 keyword1 切換到 keyword2 的步驟值,是一個(gè)介于 0 到 1 之間的數(shù)字。

舉個(gè)例子,輸入提示詞“Oil painting portrait of [Joe Biden: Donald Trump: 0.5]”,采樣步數(shù)設(shè)置為 30。這里指的是,第 1~15 步,提示詞為“Oil painting portrait of Joe Biden”;第 16~30 步,提示詞為“Oil painting portrait of Donald Trump”。解釋一下,factor 值決定了關(guān)鍵詞的切換節(jié)點(diǎn),設(shè)置為 0.5 時(shí)指的是在 30*0.5 = 15 步時(shí)切換。

關(guān)鍵詞融合技術(shù)還能用于生成高度相似的圖片編輯。下面是使用相同提示詞生成了兩張圖片,隨機(jī)種子和迭代步數(shù)保持不變,只修改了[apple: fire: factor]里的 factor 權(quán)重。這背后的工作理論是,生成圖片的總體組成是由早期擴(kuò)散過程決定的,后面的一些關(guān)鍵詞調(diào)整不會(huì)對(duì)圖像整體產(chǎn)生很大影響,只會(huì)改變一小部分。

圖22 關(guān)鍵詞混合[apple: fire: factor]的生成圖片

4 用 chatGPT 生成

手動(dòng)改 prompt 很麻煩?能不能用 chatGPT 生成高質(zhì)量提示詞來實(shí)現(xiàn)穩(wěn)定擴(kuò)散?答案是可以的,但需要用一些技巧來引導(dǎo)。chatGPT 是 openAI 在 2022 年 11 月發(fā)布的聊天機(jī)器人,在 GPT3.5 大語言模型的基礎(chǔ)上進(jìn)行了微調(diào)。GPT3 系列使用了千億級(jí)別文本訓(xùn)練出來的,chatGPT 還進(jìn)一步引入了 RLHF 強(qiáng)化學(xué)習(xí)來學(xué)習(xí)人類偏好。因此,chatGPT 包含了大量人類知識(shí),可以生成文章、詩歌、小說甚至是各種計(jì)算機(jī)代碼。

那 chatGPT 了解 stable diffusion 技術(shù)嗎?答案是不了解,因?yàn)樗挠?xùn)練數(shù)據(jù)只截止于 2021 年 9 月。幸運(yùn)的是,它了解什么是文生圖 text-to-image 和 DALL-E 模型,可以利用這塊知識(shí)構(gòu)建提示詞工程。

圖23 chatGPT是否了解stable diffusion、text-to-image和DALL-E技術(shù)?

如何調(diào)用 chatGPT 呢?最直接的方式是上chat.openai.com使用,內(nèi)網(wǎng)也有一些中轉(zhuǎn)方式,比如用企微里的 chatGPT 機(jī)器人或者搭建一些內(nèi)部平臺(tái),這里不過多介紹。下面介紹使用 chatGPT 來生成一個(gè)人物特寫照片,這是比較難的一個(gè)任務(wù)。

讓 chatGPT 生成高質(zhì)量提示詞,也是需要一些技巧的,包括以下三點(diǎn):(1) 指定圖片畫風(fēng),比如 oil-painting 油畫風(fēng)等;(2) 確定圖片主體,如前面提到用一個(gè)明星名字是個(gè)不錯(cuò)選擇;(3) 給出具體例子的話往往學(xué)的更快。

綜合一下,輸入 ChatGPT 的提示詞如下:

Examples of high quality prompt for stunning close-up photorealistic illustration of Ana de Armas for text-to-image models (Stable Diffusion, midjourney or Dalle2) are
– portrait of beautiful happy young ana de armas, ethereal, realistic anime, trending on pixiv, detailed, clean lines, sharp lines, crisp lines, award winning illustration, masterpiece, 4k, eugene de blaas and ross tran, vibrant color scheme, intricately detailed
– alberto seveso and geo2099 style, A highly detailed and hyper realistic portrait of a gorgeous young ana de armas, lisa frank, trending on artstation, butterflies, floral, sharp focus, studio photo, intricate details, highly detailed, by Tvera and wlop and artgerm
Give me more examples.

chatGPT 的回復(fù)為:

A photorealistic, highly detailed illustration of Ana de Armas in a vintage Hollywood style, reminiscent of the golden age of cinema, with a focus on glamour and elegance.
A close-up illustration of Ana de Armas in a neo-noir style, reminiscent of the film noir genre, with a focus on shadows, contrasts, and a sense of danger.

把這些提示詞輸入到 stable diffusion v1.5 里,使用 DPM++ 2M Karras 采樣器,迭代步數(shù)為 25,圖片分辨率為 502×704。負(fù)面提示詞使用上面提到的通用版本。

chatGPT 提示詞 1:

A photorealistic, highly detailed illustration of Ana de Armas in a vintage Hollywood style, reminiscent of the golden age of cinema, with a focus on glamour and elegance.
圖24 chatGPT提示詞1的生成圖片

chatGPT 提示詞 2:

A close-up illustration of Ana de Armas in a neo-noir style, reminiscent of the film noir genre, with a focus on shadows, contrasts, and a sense of danger.
圖25 chatGPT提示詞2的生成圖片

這里只進(jìn)行了初步嘗試,生成效果看起來還不錯(cuò),可以后續(xù)進(jìn)一步深入挖掘。

此外,還可以使用 magicPrompt 模型?;?GPT-2 模型,它使用了大約 8 萬條 stable diffusion 優(yōu)質(zhì)提示詞訓(xùn)練而來,旨在為 stable diffusion 生成完善提示詞。只要輸入圖片主體,就能補(bǔ)全各種細(xì)節(jié),體驗(yàn)網(wǎng)址如下:

MagicPrompt Stable Diffusion - a Hugging Face Space by Gustavosta

圖26 magicPrompt功能示例

三 本文小結(jié)

AI 繪畫各種技術(shù)和應(yīng)用不斷涌現(xiàn),也很大程度上提高了不少行業(yè)產(chǎn)出效率。這篇文章主要介紹 stable diffusion 里的提示詞 prompt,從提示詞構(gòu)成、調(diào)整規(guī)則和 chatGPT 輔助等角度出發(fā),介紹如何更好地輸入提示詞,才能更好地控制 AI 繪畫生成。

參考鏈接

1、GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

2、 Denoising Diffusion Probabilistic Models

3、How to come up with good prompts for Stable Diffusion - Stable Diffusion Art

騰訊程序員

484


騰訊技術(shù)工程

騰訊技術(shù)官方號(hào)。騰訊技術(shù)創(chuàng)新、前沿領(lǐng)域發(fā)布解讀平臺(tái)。

451篇原創(chuàng)內(nèi)容

公眾號(hào)

閱讀

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多