【原】用AI編程實現(xiàn) Whisk#使用圖像和人工智能將想法可視化并重新混合

Mixlab交叉學科 2024-12-21 發(fā)布于上海

展開全文

Whisk 是 Google Labs 的一項新實驗，可讓你使用圖像進行快速而有趣的創(chuàng)作。

Whisk的主要功能是通過圖像提示生成新的創(chuàng)意圖像。這一過程依賴于Google的兩大AI模型：Gemini和Imagen 3。

Gemini 是 Google DeepMind 推出的一個對標ChatGPT的人工智能模型，旨在處理多模態(tài)輸入。Gemini 最新的是 Gemini 2.0。

Imagen 3 是谷歌最新的AI圖像。該模型能夠生成具有更高細節(jié)、豐富光照和更少干擾偽影的高質(zhì)量圖像。

Gemini負責將用戶上傳的圖像轉(zhuǎn)化為詳細的描述，而Imagen 3則基于這些描述生成新的圖像。???

圖像輸入：用戶可以上傳或選擇三種關(guān)鍵元素的圖像——

主題（想要創(chuàng)建的內(nèi)容或?qū)ο螅?/span>

場景（環(huán)境或背景）

風格（視覺風格）

圖像生成：Whisk會處理這些輸入，利用Gemini為參考圖像生成詳細的標題，并通過Imagen 3模型生成新的創(chuàng)意圖像。????

谷歌并沒有使用類似于IPAdapter或者像Lora這種技術(shù)，而是使用多模態(tài)模型直接對圖像進行文字描述的生成。

所以，谷歌也提到了：“此過程會捕捉主題的本質(zhì)，而不是一模一樣的復(fù)制品。這樣，您可以輕松地以新穎的方式重新組合主題、場景和風格?！?/span>

沒錯，捕捉主題的本質(zhì)，也就是用文字來高度概括你上傳的主題圖片。

谷歌也考慮到了某些情況下，捕捉到的主題本質(zhì)不是你要的。

“主題可能具有不同的身高、體重、發(fā)型或膚色。這些特征對你的項目來說可能至關(guān)重要，而 Whisk 可能會達不到要求，因此我們允許用戶隨時查看和編輯底層提示。”

—— 也就是給了個合理的理由，展示 Gemini生成的文字描述（prompt）給你看，你可以直接修改。

這不就是我們一直這么玩的方式么？圖像反推、然后自己修改prompt，再用prompt生成圖像。。。但讓谷歌一介紹，就變得高級起來。

谷歌：“我們構(gòu)建它是為了快速進行視覺探索，而不是進行像素完美的編輯。它旨在以新穎和富有創(chuàng)意的方式探索創(chuàng)意，讓您可以嘗試數(shù)十種選項并下載您喜歡的選項。”

?? 用AI編程實現(xiàn)

——

所以，是完全可以自己DIY組裝成類似于Whisk的產(chǎn)品的。

使用任意多模態(tài)模型，把輸入的圖片進行描述生成，然后使用任意文生圖模型生成即可。

生成的代碼是用python做了個后端:

然后還發(fā)現(xiàn)AI也偷懶了：

不過沒關(guān)系，整個項目很快就搭建了一個初稿出來了，我們稍微花點時間修一修，也就能用了~~~

——

贊賞

共11人贊賞

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： Mixlab交叉學科 > 《待分類》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看