快消息!谷歌用新AI超越自己:讓Imagen能夠指定生成對象 風格隨意轉換
給Imagen加上“指哪打哪”的能力,會變得有多強?只需上傳3-5張 指定物體的照片,再用文字描述想要生成的背景、動作或表情,就能讓指定物體“閃現”到你想要的場景中,動作表情也都栩栩如生。不止是動物,其他物體像墨鏡、書包、花瓶,也都能做出幾乎以假亂真的成品:
訪問:
阿里云服務器精選特惠:1核1G云服務器低至0.9元/月
【資料圖】
屬于是發朋友圈也不會被別人看出破綻的那種。(手動狗頭)
這個神奇的文字-圖像生成模型名叫DreamBooth,是Google的最新研究成果,基于Imagen的基礎上進行了調整,一經發布就在Twitter上引發熱議。
有網友調侃:這簡直是最先進的梗圖生成器。
目前相關研究論文已上傳至arXiv。
幾張照片就能“環游世界”
在介紹原理前,讓我們先來看看DreamBooth的各種能力,包括換景、指定動作表情服飾、更迭風格等。
如果你是個“鏟屎官”,有了這個模型的“ 換景能力”,就能足不出戶送自家狗子走出家門,凡爾賽宮里、富士山腳下……通通不在話下。
△光照也比較自然
不僅如此,寵物的 動作和表情也都能隨意指定,屬實是把“一句話P圖”的細節拿捏到位了。
除了上面的“基操”以外,DreamBooth甚至還能更換各種照片風格,也就是所謂的“加濾鏡”。
例如,各種“世界名畫”畫風、各種視角的狗子,簡直不要太藝術:
至于給它們 加上裝飾?各種cosplay的小道具,也是小菜一碟。
除此之外,無論是更換顏色:
還是更魔幻一點,更換物種,這只AI也都能做到。
那么,如此有趣的效果背后的原理是什么呢?
給輸入加個“特殊標識符”
研究人員做了個對比,相較于其他大規模文本-圖像模型如DALL-E2、Imagen等,只有采用DreamBooth的方法,才能做到對輸入圖像的忠實還原。
如下圖所示,輸入3張右邊表盤上畫著黃色“3”的小鬧表,其中DreamBooth生成的圖像完美保留了鐘表的所有細節,但DALL-E2和Imagen幾次生成的鐘都與原來的鐘“有那么點差異”。
△李逵和“李鬼”
而這也正是DreamBooth最大的特點—— 個性化表達。
用戶可以給定3-5張自己隨意拍攝的某一物體的圖片,就能得到不同背景下的該物體的新穎再現,同時又保留了其關鍵特征。
當然,作者也表示,這種方法并不局限于某個模型,如果DALL·E2經過一些調整,同樣能實現這樣的功能。
具體到方法上,DreamBooth采用了給物體加上“ 特殊標識符”的方法。
也就是說,原本圖像生成模型收到的指令只是一類物體,例如[cat]、[dog]等,但現在DreamBooth會在這類物體前加上一個特殊標識符,變成[V][物體類別]。
以下圖為例,將用戶上傳的三張狗子照片和相應的類名(如“狗”)作為輸入信息,得到一個經過微調的文本-圖像擴散模型。
該擴散模型用“a [V] dog”來特指用戶上傳圖片中的狗子,再把其帶入文字描述中,生成特定的圖像,其中[V]就是那個特殊標識符。
至于為什么不直接用[V]來指代整個[特定物體]?
作者表示,受限于輸入照片的數量,模型無法很好地學習到照片中物體的整體特征,反而可能出現過擬合。
因此這里采用了微調的思路,整體上仍然基于AI已經學到的[物體類別]特征,再用[V]學到的特殊特征來修飾它。
以生成一只白色的狗為例,這里模型會通過[V]來學習狗的顏色(白色)、體型等個性化細節,加上模型在[狗]這個大的類別中學到的狗的共性,就能生成更多合理又不失個性的白狗的照片。
為了訓練這個微調的文本-圖像擴散模型,研究人員首先根據給定的文本描述生成低分辨率圖像,這時生成的圖像中狗子的形象是隨機的。
然后再應用超分辨率的擴散模型進行替換,把隨機圖像換成用戶上傳的特定狗子。
研究團隊
DreamBooth的研究團隊來自Google,第一作者是Nataniel Ruiz。
Nataniel Ruiz是波士頓大學圖像和視頻計算組的四年級博士生,目前在Google實習。主要研究方向是生成模型、圖像翻譯、對抗性攻擊、面部分析和模擬。
推薦
-
SpaceX用戶發出通知 將根據當地市場狀況下調費用最多可打五折
埃隆?馬斯克(Elon Musk)旗下太空公司 SpaceX 已經向世界各地的太空互聯網服務星鏈用戶發出通知,宣...
來源:網易科技 -
放棄老式登錄方式 Facebook母公司正式推出Meta賬戶
社交網絡巨頭 Meta正式推出了所謂的 Meta 賬戶和 Meta Horizon 個人資料。它們將被用來取代曾經用...
來源:網易科技 -
今年全球半導體資本支出將達1855億美元 再次實現兩位數增長
據知名半導體分析機構 IC Insights 發布的最新數據,顯示 2020-2022 這三年,將是自 1993-1995 ...
來源:愛集微 -
-
-
-
-
-
-
直播更多》
-
賦能農業現代化 5G為鄉村振興筑基注智
數字鄉村既是鄉村振興的戰略方向,也是...
-
賦能農業現代化 5G為鄉村振興筑基注智
數字鄉村既是鄉村振興的戰略方向,也是...
-
安徽大力推進千兆光纖網絡發展 500M及以上寬帶用戶達到363萬戶
今年以來,為支撐數字安徽建設,助力加...
-
搶先布局先進計算產業發展新賽道 晉陽湖數字經濟發展峰會先進計算發展論壇近日成功舉辦
日前,晉陽湖·數字經濟發展峰會先進計...
-
四川省用電需求最高負荷已躍升至6500萬千瓦 同比增長25%
近期,因極端高溫天氣等原因,四川工業...
-
印尼希望特斯拉在當地生產電動汽車 并愿意花時間說服馬斯克
印尼希望特斯拉公司能在該國生產電動汽...
資訊更多》
焦點
- T-Mobile因泄密損失5億美元 其中3.5億美元將用于用戶賠償
- 數字政府市場規模保持高速增長 我國數字政府建設跑出“加速度”
- 中國信息通信研究院發布《中國存力白皮書》 梳理全球存儲產業發展現狀
- 取消讀秒設計 “新版”紅綠燈被罵上熱搜
- 電動汽車被排除出《通脹削減法案》 韓國政府通過多個渠道向美方表示擔憂
- 發揮央企“穩定器”作用 安徽電信翼支付平臺助力提振消費
- 新版《河北省中小企業促進條例》審議通過 將于2022年10月1日起實施
- 多地電力供需緊張發布限電通知 四川已對工業用戶開啟限電模式
- 預警處置各類異常號碼 數智警察為反詐工作再添生力軍
- 華上光電第2季財務報告凈值為負數 即將面臨中國臺灣證券交易所營業細則規定下市