工業(yè)控制

行業(yè)應(yīng)用

【AAAI 2024】再創(chuàng)佳績！阿里云人工智能平臺PAI多篇論文入選

2024-03-12 5893

核心提示：近期，阿里云人工智能平臺PAI發(fā)表的多篇論文在AAAI-2024上正式亮相發(fā)表。AAAI（AAAI Conference on Artificial Intelligence）是

近期，阿里云人工智能平臺PAI發(fā)表的多篇論文在AAAI-2024上正式亮相發(fā)表。AAAI（AAAI Conference on Artificial Intelligence）是由國際人工智能促進(jìn)協(xié)會主辦的年會，是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國際頂級學(xué)術(shù)會議之一，也是中國計算機(jī)學(xué)會（CCF）推薦的A類國際學(xué)術(shù)會議。會議一直是人工智能界的研究風(fēng)向標(biāo)，在學(xué)術(shù)界久負(fù)盛名。

論文成果是阿里云與浙江大學(xué)、華南理工大學(xué)聯(lián)合培養(yǎng)項目等共同研發(fā)，深耕以通用人工智能（AGI）為目標(biāo)的一系列基礎(chǔ)科學(xué)與工程問題，包括多模態(tài)理解模型、小樣本類增量學(xué)習(xí)、深度表格學(xué)習(xí)和文檔版面分析任務(wù)等等。此次入選意味著阿里云人工智能平臺PAI自研的深度學(xué)習(xí)算法達(dá)到了全球業(yè)界先進(jìn)水平，獲得了國際學(xué)者的認(rèn)可，展現(xiàn)了阿里云人工智能技術(shù)創(chuàng)新在國際上的競爭力。

解鎖深度表格學(xué)習(xí)（Deep Tabular Learning）的關(guān)鍵：算術(shù)特征交互

本文聚焦于研究深度模型在表格數(shù)據(jù)上的有效歸納偏置（inductive bias）。結(jié)構(gòu)化表格數(shù)據(jù)廣泛存在于各行業(yè)數(shù)據(jù)庫和金融、營銷、推薦系統(tǒng)等場景。這類數(shù)據(jù)包含數(shù)值和類別特征，常有缺失值、噪聲及類別不均衡等問題，且缺乏時序性、局部性等對模型有益的先驗信息，帶來顯著分析挑戰(zhàn)。樹集成方法（如XGBoost、LightGBM、CatBoost）憑借對數(shù)據(jù)質(zhì)量問題的魯棒性，在工業(yè)界的實際建模中占主導(dǎo)地位，但其性能很大程度上仍依賴于精心設(shè)計的特征工程處理。

學(xué)者們積極嘗試將深度學(xué)習(xí)應(yīng)用于端到端的表格數(shù)據(jù)分析，旨在減少對特征工程的依賴?，F(xiàn)有相關(guān)工作包括：（1）結(jié)合傳統(tǒng)建模方法并疊加深度學(xué)習(xí)模塊（如多層感知機(jī)MLP）的方法，如Wide&Deep、DeepFMs；（2）采用深度學(xué)習(xí)對形狀函數(shù)進(jìn)行建模的廣義加性模型變體，如NAM、NBM、SIAN；（3）受樹結(jié)構(gòu)啟發(fā)的深度模型，如NODE、Net-DNF；（4）基于Transformer架構(gòu)的模型，如AutoInt、DCAP、FT-Transformer。盡管上述努力不斷推進(jìn)，深度學(xué)習(xí)在表格數(shù)據(jù)上相較于樹模型并未展現(xiàn)出持續(xù)且顯著的優(yōu)勢，其有效性問題懸而未決。

我們提出，算術(shù)特征交互對于深度表格學(xué)習(xí)至關(guān)重要的理論。當(dāng)前深度表格學(xué)習(xí)方法效果欠佳的核心癥結(jié)在于未能發(fā)掘出有效的內(nèi)在模型偏置。我們創(chuàng)新性地將算術(shù)特征交互理念融入Transformer架構(gòu)內(nèi)，通過引入并行注意力機(jī)制和提示標(biāo)記的設(shè)計創(chuàng)建AMFormer架構(gòu)。合成數(shù)據(jù)的結(jié)果展示了該模型在在精細(xì)表格數(shù)據(jù)建模、訓(xùn)練數(shù)據(jù)效率以及泛化方面的卓越能力。此外，進(jìn)一步在真實世界數(shù)據(jù)集上開展的大規(guī)模實驗，也驗證了AMFormer的一致有效性和優(yōu)越性。因此，我們相信，AMFormer為深度表格學(xué)習(xí)設(shè)定了強(qiáng)有力的歸納偏置，有望推動該領(lǐng)域的深入發(fā)展。

MuLTI：高效視頻與語言理解

多模態(tài)理解模型在多標(biāo)簽分類、視頻問答和文本視頻檢索等領(lǐng)域應(yīng)用廣泛，但多模態(tài)理解面臨兩大挑戰(zhàn)：無法有效地利用多模態(tài)特征與GPU內(nèi)存消耗大。模型通常由文本編碼器、視頻編碼器及特征融合模塊構(gòu)成，其中后兩者計算成本較高。以往方法如VIOLET和Clover直接連接兩編碼器輸出并通過Transformer融合，導(dǎo)致顯存消耗隨輸入增長急劇上升。為降低計算負(fù)擔(dān)，ALPRO、FrozenBiLM、CLIPBert等研究嘗試通過壓縮視頻特征，但這可能丟失關(guān)鍵信息。

我們提出了MuLTI模型，旨在實現(xiàn)高效準(zhǔn)確的視頻與語言理解，用于解決特征融合的難題。MuLTI采用自適應(yīng)池殘差映射和自注意機(jī)制設(shè)計了文本指導(dǎo)的多路采樣器（Text-Guided MultiWay-Sampler），對文本的長序列進(jìn)行采樣并融合多模態(tài)特征，有效降低了計算成本且避免了壓縮視頻導(dǎo)致的性能下降。此外，為了進(jìn)一步降低預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的差距，我們創(chuàng)新性地構(gòu)建文本視頻問答對引入了多選建模（Multiple Choice Modeling，MCM）預(yù)訓(xùn)練任務(wù)，以提升模型在視頻問答中對齊視頻與文本特征的能力。

最終，憑借高效的特征融合模塊和新的預(yù)訓(xùn)練任務(wù)，MuLTI在多個數(shù)據(jù)集上取得了最先進(jìn)的性能表現(xiàn)。

M2SD：多重混合自蒸餾用于小樣本類增量學(xué)習(xí)

小樣本類增量學(xué)習(xí)（Few-shot Class Incremental Learning, FSCIL）是機(jī)器學(xué)習(xí)領(lǐng)域中一項極具挑戰(zhàn)的任務(wù)，目標(biāo)在于僅利用有限數(shù)據(jù)學(xué)習(xí)新類別，同時保留對已學(xué)類別的記憶，無需重新訓(xùn)練模型。針對此難題，本文提出了一種創(chuàng)新策略，稱為多重混合自蒸餾（Multiple Mixing Self-Distillation, M2SD）。該策略設(shè)計了雙分支結(jié)構(gòu)以有效擴(kuò)展特征空間接納新類別，并引入特征增強(qiáng)機(jī)制通過自蒸餾過程優(yōu)化基礎(chǔ)網(wǎng)絡(luò)，從而在學(xué)習(xí)新類別時顯著提升分類性能，最終僅保留主干網(wǎng)絡(luò)進(jìn)行高效識別。

FSCIL任務(wù)的關(guān)鍵挑戰(zhàn)在于如何平衡小樣本學(xué)習(xí)的過擬合和類增量學(xué)習(xí)的災(zāi)難性遺忘。為解決這一問題，我們提出一種創(chuàng)新的方法——多重混合自蒸餾（M2SD），旨在構(gòu)建一個能適應(yīng)新類別的高可擴(kuò)展性特征空間。通過多尺度特征提取與融合技術(shù)，M2SD全面捕獲數(shù)據(jù)實例的多維度信息，增強(qiáng)了模型的包容性。此外，我們創(chuàng)新性地采用雙分支“虛擬類”機(jī)制，進(jìn)一步提高特征模塊的擴(kuò)展能力，使得模型能夠預(yù)適應(yīng)未來新增類別并為其預(yù)留特征空間，從而強(qiáng)化模型對新類別的適應(yīng)性和類增量學(xué)習(xí)的穩(wěn)健性與靈活性。

方法框架分為兩個主要部分：base session和Incremental sessions。base session分為兩個階段。一個是通用模型預(yù)訓(xùn)練階段（General model pre-trainining），另一個是M2SD階段，由兩個自蒸餾模塊組成。Incremental sessions只有一個階段，即分類器更新（Classifter updating）。

M2Doc：文檔版面分析的可插拔多模態(tài)融合方法

文檔版面分析是文檔智能研究的核心課題，但現(xiàn)有眾多方法主要依賴通用目標(biāo)檢測技術(shù)，其在處理過程中僅側(cè)重于視覺特征表達(dá)，而對文本特征的內(nèi)在價值關(guān)注不足。近年來，盡管多模態(tài)的預(yù)訓(xùn)練文檔智能模型在多種下游任務(wù)中展現(xiàn)出卓越性能，但在處理文檔版面分析這一特定的下游任務(wù)時，只局限于將多模態(tài)預(yù)訓(xùn)練好的主干網(wǎng)絡(luò)遷移至純視覺目標(biāo)檢測器進(jìn)行微調(diào)，從本質(zhì)上來說依然是個單模態(tài)的解決范式。

為此，本文創(chuàng)新性地提出了一種可插拔的多模態(tài)融合方案——M2Doc，旨在賦能純視覺目標(biāo)檢測器以捕獲并融合多模態(tài)信息的能力。M2Doc框架內(nèi)嵌了兩個關(guān)鍵融合模塊：Early-Fusion與Late-Fusion。前者采用類似門控機(jī)制的設(shè)計，巧妙融合主干網(wǎng)絡(luò)提取出的視覺和文本兩種模態(tài)特征；后者則運用直接加和運算策略，有效融合了框級的文本及視覺特征。

得益于M2Doc簡潔高效且具有普適性的模型結(jié)構(gòu)設(shè)計，它能夠便捷地適應(yīng)多種目標(biāo)檢測器架構(gòu)。實驗結(jié)果證實，在DocLayNet與M6Doc等版面分析基準(zhǔn)數(shù)據(jù)集上，融入M2Doc的目標(biāo)檢測器實現(xiàn)了顯著性能提升。并且，當(dāng)DINO目標(biāo)檢測器與M2Doc相結(jié)合時，在多個數(shù)據(jù)集上均達(dá)到了當(dāng)前最優(yōu)（SOTA）水平。

阿里云人工智能平臺 PAI 多篇論文入選 AAAI 2024

● 論文標(biāo)題：

Arithmetic Feature Interaction is Necessary for Deep Tabular Learning

● 論文作者：

程奕、胡仁君、應(yīng)豪超、施興、吳健、林偉

● 論文PDF鏈接：

https://arxiv.org/abs/2402.02334

● 代碼鏈接：

https://github.com/aigc-apps/AMFormer

● 論文標(biāo)題：

MuLTI: Efficient Video-and-Language Understanding

● 論文作者：

劉波、陳云闊、程孟力、徐家琪、施興

● 論文PDF鏈接：

https://arxiv.org/abs/2303.05707

● 論文標(biāo)題：

M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning

● 論文作者：

林今豪、吳梓恒、林煒豐、黃俊、羅榮華

● 論文標(biāo)題：

M2Doc: A Multi-modal Fusion Approach for document Layout Analysis

● 論文作者：

張寧、鄭曉怡、陳佳禹、江宗源、黃俊、薛洋、金連文

分享到:

收藏 0

更多>同類資訊

免責(zé)申明

推薦資訊

點擊排行

最新資訊更多>

最新供應(yīng)更多>

中國智能化網(wǎng)（zgznh^®）--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有：深圳市智控網(wǎng)絡(luò)有限公司 學(xué)術(shù)指導(dǎo)：深圳市智能化學(xué)會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號

• 安森美成功入選中國汽車新供應(yīng)鏈百強(qiáng)榜單	• 柳州市智能終端及機(jī)器人產(chǎn)業(yè)發(fā)展合作大會召開
• 阿里云向量檢索服務(wù) Milvus 版正式商業(yè)化	• 加速文旅、娛樂行業(yè)數(shù)字化發(fā)展，PICO 正式推出X
• 先進(jìn)存力釋放數(shù)據(jù)要素發(fā)展力全面助力產(chǎn)業(yè)伙伴	• 卡薩帝冰箱·C標(biāo)系列：做生活與時尚的C位
• 擔(dān)心孩子視力？海爾天沐護(hù)眼學(xué)習(xí)燈上市，光線安	• 國際權(quán)威認(rèn)可！海爾智家數(shù)字化用戶體驗管理模式
• 鄭州磁懸浮空調(diào)用戶：16年后，依然是海爾的當(dāng)打	• 為何卡薩帝冰箱賣得好？7天營養(yǎng)留存率＞99%領(lǐng)先

国产美女被遭强高潮开双腿_国产亚洲日产在线_国产黄片_青椒国产98在线 _日韩精品亚洲AⅤ在线影院_人妻aⅴ中文字幕无码

【AAAI 2024】再創(chuàng)佳績！阿里云人工智能平臺PAI多篇論文入選

【AAAI 2024】再創(chuàng)佳績！阿里云人工智能平臺PAI多篇論文入選