【MM2024】阿里云 PAI 團(tuán)隊(duì)圖像編輯算法論文入選 MM2024

2024-10-15 5874

核心提示：近期,阿里云人工智能平臺 PAI 團(tuán)隊(duì)發(fā)表的圖像編輯算法論文在 MM2024 上正式亮相發(fā)表。ACM MM(ACM國際多媒體會議)是國際多媒體領(lǐng)

近期,阿里云人工智能平臺 PAI 團(tuán)隊(duì)發(fā)表的圖像編輯算法論文在 MM2024 上正式亮相發(fā)表。ACM MM(ACM國際多媒體會議)是國際多媒體領(lǐng)域的頂級會議,旨在為研究人員、工程師和行業(yè)專家提供一個交流平臺,以展示在多媒體領(lǐng)域的最新研究成果、技術(shù)進(jìn)展和應(yīng)用案例。其主題涵蓋了圖像處理、視頻分析、音頻處理、社交媒體和多媒體系統(tǒng)等廣泛領(lǐng)域。此次入選標(biāo)志著阿里云人工智能平臺 PAI 在圖像編輯算法方面的研究獲得了學(xué)術(shù)界的充分認(rèn)可。

文本到圖像合成 (TIS) 已成為計(jì)算機(jī)視覺與自然語言處理 (NLP) 交叉領(lǐng)域的重要前沿,其能夠根據(jù)文本描述生成視覺上引人注目的圖像。基于文本引導(dǎo)的圖像編輯任務(wù)使用戶能夠通過簡單的文字描述來指導(dǎo)圖像的修改,無需使用復(fù)雜的圖像編輯軟件或具備專業(yè)知識即可實(shí)現(xiàn)編輯效果。其中 Traing-free 的文本引導(dǎo)圖像編輯 (TIE) 已成為一個重要的研究方向,利用預(yù)訓(xùn)練的 TIS 模型,直接通過文本提示來編輯圖像,用戶可以直接輸入文本,對圖像進(jìn)行多種編輯操作,包括顏色變化、物體的添加或去除、風(fēng)格轉(zhuǎn)換等。這種交互式編輯方式顯著降低了圖像編輯的門檻,使得創(chuàng)意表達(dá)變得更加便捷和個性化。

盡管當(dāng)前的 TIE 算法取得了顯著進(jìn)展,但它們?nèi)源嬖谝恍┚窒扌浴Ｈ鐖D1所示,現(xiàn)有 TIE 方法在編輯多個對象時面臨挑戰(zhàn)。多對象編輯的復(fù)雜性會導(dǎo)致編輯對象丟失(例如,丟失一個蘋果)、屬性缺失(例如,斑點(diǎn))和背景保留不完整等問題。

圖1. 圖像編輯的效果對比以及我們提出方法的結(jié)果

在本文中,我們提出了 VICTORIA 編輯算法,它利用語言知識來解決在對象場景編輯中因缺失目標(biāo)(如對象、屬性和背景)而導(dǎo)致的問題。VICTORIA 通過分析輸入編輯文本中單詞之間的依存關(guān)系,并將這種關(guān)系反映在注意層的中間表示中,從而修正并生成目標(biāo)圖像。圖2展示了 VICTORIA 的整體框架。首先,我們通過控制自注意機(jī)制來確保原始圖像和編輯后圖像之間的空間一致性。其次,VICTORIA 分析輸入編輯文本中單詞之間的依存關(guān)系,并在生成目標(biāo)編輯圖像的過程中主動干預(yù)交叉注意力圖,從而提升目標(biāo)編輯區(qū)域的生成結(jié)果。最后,VICTORIA 通過交叉注意圖進(jìn)行圖像部分掩碼,有效保留原始圖像中無需被編輯的區(qū)域。

圖 2:VICTORIA 在對圖像進(jìn)行編輯的過程示意圖

VICTORIA 偽代碼如下:

圖 3:VICTORIA 在合成圖像編輯和真實(shí)圖像編輯場景下的偽代碼

圖4展示了 VICTORIA 的編輯結(jié)果,它成功地修改了原始圖像中多個物體的各種屬性、風(fēng)格、場景和類別。

圖 4:VICTORIA編輯結(jié)果示例

圖5對比展示了 VICTORIA 與其他一些 SOTA 圖像編輯技術(shù)的效果。無論是對真實(shí)照片還是合成圖像,VICTORIA 均展現(xiàn)出了高效的編輯能力。在所有的案例中,VICTORIA 都能夠?qū)崿F(xiàn)與描述提示高度一致的精細(xì)編輯,同時最大限度地保留了原圖的結(jié)構(gòu)細(xì)節(jié)。

圖 5:VICTORIA與其他編輯方法的對比

為了更好地服務(wù)開源社區(qū),這一算法的源代碼已經(jīng)貢獻(xiàn)在自然語言處理算法框架 EasyNLP 中,歡迎各界從業(yè)人員和研究者使用。

阿里云人工智能平臺 PAI 長期招聘正式員工/實(shí)習(xí)生。團(tuán)隊(duì)專注于深度學(xué)習(xí)算法研究與應(yīng)用，重點(diǎn)聚焦大語言模型和多模態(tài) AIGC 大模型的應(yīng)用算法研究和應(yīng)用。簡歷投遞和咨詢：chengyu.wcy@alibaba-inc.com。

論文信息

論文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing

論文作者:劉冰雁、汪誠愚、黃俊、賈奎

論文pdf鏈接:https://openreview.net/pdf?id=efTur2naAS

分享到:

收藏 0

更多>同類資訊

免責(zé)申明

推薦資訊

點(diǎn)擊排行

最新資訊更多>

最新供應(yīng)更多>

中國智能化網(wǎng)（zgznh^®）--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有：深圳市智控網(wǎng)絡(luò)有限公司 學(xué)術(shù)指導(dǎo)：深圳市智能化學(xué)會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號

• 先進(jìn)存力釋放數(shù)據(jù)要素發(fā)展力全面助力產(chǎn)業(yè)伙伴	• 卡薩帝冰箱·C標(biāo)系列：做生活與時尚的C位
• 擔(dān)心孩子視力？海爾天沐護(hù)眼學(xué)習(xí)燈上市，光線安	• 國際權(quán)威認(rèn)可！海爾智家數(shù)字化用戶體驗(yàn)管理模式
• 鄭州磁懸浮空調(diào)用戶：16年后，依然是海爾的當(dāng)打	• 為何卡薩帝冰箱賣得好？7天營養(yǎng)留存率＞99%領(lǐng)先
• 多家企業(yè)將匯聚深圳，共商電機(jī)新趨勢！	• 鴻蒙生態(tài)終端精彩亮相中移動伙伴大會，移鴻AOS
• 2024 OPPO開發(fā)者大會召開，以技術(shù)為基石共建AI	• 原創(chuàng)高端C標(biāo)設(shè)計(jì)！卡薩帝冰箱·C標(biāo)系列：是家電

国产美女被遭强高潮开双腿_国产亚洲日产在线_国产黄片_青椒国产98在线 _日韩精品亚洲AⅤ在线影院_人妻aⅴ中文字幕无码

【MM2024】阿里云 PAI 團(tuán)隊(duì)圖像編輯算法論文入選 MM2024