小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

用AI編程實現(xiàn) Whisk#使用圖像和人工智能將想法可視化并重新混合

 Mixlab交叉學科 2024-12-21 發(fā)布于上海


Whisk 是 Google Labs 的一項新實驗,可讓你使用圖像進行快速而有趣的創(chuàng)作。


Whisk的主要功能是通過圖像提示生成新的創(chuàng)意圖像。這一過程依賴于Google的兩大AI模型:GeminiImagen 3

Gemini 是 Google DeepMind 推出的一個對標ChatGPT的人工智能模型,旨在處理多模態(tài)輸入。Gemini 最新的是 Gemini 2.0。

Imagen 3 是谷歌最新的AI圖像。該模型能夠生成具有更高細節(jié)、豐富光照和更少干擾偽影的高質(zhì)量圖像。

Gemini負責將用戶上傳的圖像轉(zhuǎn)化為詳細的描述,而Imagen 3則基于這些描述生成新的圖像。???

圖像輸入:用戶可以上傳或選擇三種關(guān)鍵元素的圖像——

主題(想要創(chuàng)建的內(nèi)容或?qū)ο螅?/span>
場景(環(huán)境或背景)
風格(視覺風格)


圖像生成:Whisk會處理這些輸入,利用Gemini為參考圖像生成詳細的標題,并通過Imagen 3模型生成新的創(chuàng)意圖像。????

谷歌并沒有使用類似于IPAdapter或者像Lora這種技術(shù),而是使用多模態(tài)模型直接對圖像進行文字描述的生成。

所以,谷歌也提到了:“此過程會捕捉主題的本質(zhì),而不是一模一樣的復(fù)制品。這樣,您可以輕松地以新穎的方式重新組合主題、場景和風格?!?/span>

沒錯,捕捉主題的本質(zhì),也就是用文字來高度概括你上傳的主題圖片。

谷歌也考慮到了某些情況下,捕捉到的主題本質(zhì)不是你要的。

“主題可能具有不同的身高、體重、發(fā)型或膚色。這些特征對你的項目來說可能至關(guān)重要,而 Whisk 可能會達不到要求,因此我們允許用戶隨時查看和編輯底層提示。

—— 也就是給了個合理的理由,展示 Gemini生成的文字描述(prompt)給你看,你可以直接修改。

這不就是我們一直這么玩的方式么? 圖像反推、 然后自己修改prompt,再用prompt生成圖像。。。但讓谷歌一介紹,就變得高級起來。

谷歌:“我們構(gòu)建它是為了快速進行視覺探索,而不是進行像素完美的編輯。它旨在以新穎和富有創(chuàng)意的方式探索創(chuàng)意,讓您可以嘗試數(shù)十種選項并下載您喜歡的選項。”


?? 用AI編程實現(xiàn)

——

所以,是完全可以自己DIY組裝成類似于Whisk的產(chǎn)品的

使用任意多模態(tài)模型,把輸入的圖片進行描述生成,然后使用任意文生圖模型生成即可。

使用AI編程,正好今天Github上有免費的copilot可以用了:


生成的代碼是用python做了個后端:

然后還發(fā)現(xiàn)AI也偷懶了:

不過沒關(guān)系,整個項目很快就搭建了一個初稿出來了,我們稍微花點時間修一修,也就能用了~~~

——

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多