Whisk 是 Google Labs 的一項新實驗,可讓你使用圖像進行快速而有趣的創(chuàng)作。 Whisk的主要功能是通過圖像提示生成新的創(chuàng)意圖像。這一過程依賴于Google的兩大AI模型:Gemini和Imagen 3。Gemini 是 Google DeepMind 推出的一個對標ChatGPT的人工智能模型,旨在處理多模態(tài)輸入。Gemini 最新的是 Gemini 2.0。Imagen 3 是谷歌最新的AI圖像。該模型能夠生成具有更高細節(jié)、豐富光照和更少干擾偽影的高質(zhì)量圖像。Gemini負責將用戶上傳的圖像轉(zhuǎn)化為詳細的描述,而Imagen 3則基于這些描述生成新的圖像。???圖像輸入:用戶可以上傳或選擇三種關(guān)鍵元素的圖像——主題(想要創(chuàng)建的內(nèi)容或?qū)ο螅?/span>圖像生成:Whisk會處理這些輸入,利用Gemini為參考圖像生成詳細的標題,并通過Imagen 3模型生成新的創(chuàng)意圖像。????谷歌并沒有使用類似于IPAdapter或者像Lora這種技術(shù),而是使用多模態(tài)模型直接對圖像進行文字描述的生成。所以,谷歌也提到了:“此過程會捕捉主題的本質(zhì),而不是一模一樣的復(fù)制品。這樣,您可以輕松地以新穎的方式重新組合主題、場景和風格?!?/span>沒錯,捕捉主題的本質(zhì),也就是用文字來高度概括你上傳的主題圖片。 谷歌也考慮到了某些情況下,捕捉到的主題本質(zhì)不是你要的。“主題可能具有不同的身高、體重、發(fā)型或膚色。這些特征對你的項目來說可能至關(guān)重要,而 Whisk 可能會達不到要求,因此我們允許用戶隨時查看和編輯底層提示。”—— 也就是給了個合理的理由,展示 Gemini生成的文字描述(prompt)給你看,你可以直接修改。 這不就是我們一直這么玩的方式么? 圖像反推、 然后自己修改prompt,再用prompt生成圖像。。。但讓谷歌一介紹,就變得高級起來。谷歌:“我們構(gòu)建它是為了快速進行視覺探索,而不是進行像素完美的編輯。它旨在以新穎和富有創(chuàng)意的方式探索創(chuàng)意,讓您可以嘗試數(shù)十種選項并下載您喜歡的選項。”所以,是完全可以自己DIY組裝成類似于Whisk的產(chǎn)品的。 使用任意多模態(tài)模型,把輸入的圖片進行描述生成,然后使用任意文生圖模型生成即可。使用AI編程,正好今天Github上有免費的copilot可以用了: 不過沒關(guān)系,整個項目很快就搭建了一個初稿出來了,我們稍微花點時間修一修,也就能用了~~~
——
|