論文成果是阿里云與浙江大學(xué)、華南理工大學(xué)聯(lián)合培養(yǎng)項目等共同研發(fā),深耕以通用人工智能(AGI)為目標(biāo)的一系列基礎(chǔ)科學(xué)與工程問題,包括多模態(tài)理解模型、小樣本類增量學(xué)習(xí)、深度表格學(xué)習(xí)和文檔版面分析任務(wù)等等。此次入選意味著阿里云人工智能平臺PAI自研的深度學(xué)習(xí)算法達(dá)到了全球業(yè)界先進(jìn)水平,獲得了國際學(xué)者的認(rèn)可,展現(xiàn)了阿里云人工智能技術(shù)創(chuàng)新在國際上的競爭力。
解鎖深度表格學(xué)習(xí)(Deep Tabular Learning)的關(guān)鍵:算術(shù)特征交互
本文聚焦于研究深度模型在表格數(shù)據(jù)上的有效歸納偏置(inductive bias)。結(jié)構(gòu)化表格數(shù)據(jù)廣泛存在于各行業(yè)數(shù)據(jù)庫和金融、營銷、推薦系統(tǒng)等場景。這類數(shù)據(jù)包含數(shù)值和類別特征,常有缺失值、噪聲及類別不均衡等問題,且缺乏時序性、局部性等對模型有益的先驗信息,帶來顯著分析挑戰(zhàn)。樹集成方法(如XGBoost、LightGBM、CatBoost)憑借對數(shù)據(jù)質(zhì)量問題的魯棒性,在工業(yè)界的實際建模中占主導(dǎo)地位,但其性能很大程度上仍依賴于精心設(shè)計的特征工程處理。
學(xué)者們積極嘗試將深度學(xué)習(xí)應(yīng)用于端到端的表格數(shù)據(jù)分析,旨在減少對特征工程的依賴?,F(xiàn)有相關(guān)工作包括:(1)結(jié)合傳統(tǒng)建模方法并疊加深度學(xué)習(xí)模塊(如多層感知機(jī)MLP)的方法,如Wide&Deep、DeepFMs;(2)采用深度學(xué)習(xí)對形狀函數(shù)進(jìn)行建模的廣義加性模型變體,如NAM、NBM、SIAN;(3)受樹結(jié)構(gòu)啟發(fā)的深度模型,如NODE、Net-DNF;(4)基于Transformer架構(gòu)的模型,如AutoInt、DCAP、FT-Transformer。盡管上述努力不斷推進(jìn),深度學(xué)習(xí)在表格數(shù)據(jù)上相較于樹模型并未展現(xiàn)出持續(xù)且顯著的優(yōu)勢,其有效性問題懸而未決。
我們提出,算術(shù)特征交互對于深度表格學(xué)習(xí)至關(guān)重要的理論。當(dāng)前深度表格學(xué)習(xí)方法效果欠佳的核心癥結(jié)在于未能發(fā)掘出有效的內(nèi)在模型偏置。我們創(chuàng)新性地將算術(shù)特征交互理念融入Transformer架構(gòu)內(nèi),通過引入并行注意力機(jī)制和提示標(biāo)記的設(shè)計創(chuàng)建AMFormer架構(gòu)。合成數(shù)據(jù)的結(jié)果展示了該模型在在精細(xì)表格數(shù)據(jù)建模、訓(xùn)練數(shù)據(jù)效率以及泛化方面的卓越能力。此外,進(jìn)一步在真實世界數(shù)據(jù)集上開展的大規(guī)模實驗,也驗證了AMFormer的一致有效性和優(yōu)越性。因此,我們相信,AMFormer為深度表格學(xué)習(xí)設(shè)定了強(qiáng)有力的歸納偏置,有望推動該領(lǐng)域的深入發(fā)展。
MuLTI:高效視頻與語言理解
多模態(tài)理解模型在多標(biāo)簽分類、視頻問答和文本視頻檢索等領(lǐng)域應(yīng)用廣泛,但多模態(tài)理解面臨兩大挑戰(zhàn):無法有效地利用多模態(tài)特征與GPU內(nèi)存消耗大。模型通常由文本編碼器、視頻編碼器及特征融合模塊構(gòu)成,其中后兩者計算成本較高。以往方法如VIOLET和Clover直接連接兩編碼器輸出并通過Transformer融合,導(dǎo)致顯存消耗隨輸入增長急劇上升。為降低計算負(fù)擔(dān),ALPRO、FrozenBiLM、CLIPBert等研究嘗試通過壓縮視頻特征,但這可能丟失關(guān)鍵信息。
我們提出了MuLTI模型,旨在實現(xiàn)高效準(zhǔn)確的視頻與語言理解,用于解決特征融合的難題。MuLTI采用自適應(yīng)池殘差映射和自注意機(jī)制設(shè)計了文本指導(dǎo)的多路采樣器(Text-Guided MultiWay-Sampler),對文本的長序列進(jìn)行采樣并融合多模態(tài)特征,有效降低了計算成本且避免了壓縮視頻導(dǎo)致的性能下降。此外,為了進(jìn)一步降低預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的差距,我們創(chuàng)新性地構(gòu)建文本視頻問答對引入了多選建模(Multiple Choice Modeling,MCM)預(yù)訓(xùn)練任務(wù),以提升模型在視頻問答中對齊視頻與文本特征的能力。
最終,憑借高效的特征融合模塊和新的預(yù)訓(xùn)練任務(wù),MuLTI在多個數(shù)據(jù)集上取得了最先進(jìn)的性能表現(xiàn)。
M2SD:多重混合自蒸餾用于小樣本類增量學(xué)習(xí)
小樣本類增量學(xué)習(xí)(Few-shot Class Incremental Learning, FSCIL)是機(jī)器學(xué)習(xí)領(lǐng)域中一項極具挑戰(zhàn)的任務(wù),目標(biāo)在于僅利用有限數(shù)據(jù)學(xué)習(xí)新類別,同時保留對已學(xué)類別的記憶,無需重新訓(xùn)練模型。針對此難題,本文提出了一種創(chuàng)新策略,稱為多重混合自蒸餾(Multiple Mixing Self-Distillation, M2SD)。該策略設(shè)計了雙分支結(jié)構(gòu)以有效擴(kuò)展特征空間接納新類別,并引入特征增強(qiáng)機(jī)制通過自蒸餾過程優(yōu)化基礎(chǔ)網(wǎng)絡(luò),從而在學(xué)習(xí)新類別時顯著提升分類性能,最終僅保留主干網(wǎng)絡(luò)進(jìn)行高效識別。
FSCIL任務(wù)的關(guān)鍵挑戰(zhàn)在于如何平衡小樣本學(xué)習(xí)的過擬合和類增量學(xué)習(xí)的災(zāi)難性遺忘。為解決這一問題,我們提出一種創(chuàng)新的方法——多重混合自蒸餾(M2SD),旨在構(gòu)建一個能適應(yīng)新類別的高可擴(kuò)展性特征空間。通過多尺度特征提取與融合技術(shù),M2SD全面捕獲數(shù)據(jù)實例的多維度信息,增強(qiáng)了模型的包容性。此外,我們創(chuàng)新性地采用雙分支“虛擬類”機(jī)制,進(jìn)一步提高特征模塊的擴(kuò)展能力,使得模型能夠預(yù)適應(yīng)未來新增類別并為其預(yù)留特征空間,從而強(qiáng)化模型對新類別的適應(yīng)性和類增量學(xué)習(xí)的穩(wěn)健性與靈活性。
方法框架分為兩個主要部分:base session和Incremental sessions。base session分為兩個階段。一個是通用模型預(yù)訓(xùn)練階段(General model pre-trainining),另一個是M2SD階段,由兩個自蒸餾模塊組成。Incremental sessions只有一個階段,即分類器更新(Classifter updating)。
M2Doc:文檔版面分析的可插拔多模態(tài)融合方法
文檔版面分析是文檔智能研究的核心課題,但現(xiàn)有眾多方法主要依賴通用目標(biāo)檢測技術(shù),其在處理過程中僅側(cè)重于視覺特征表達(dá),而對文本特征的內(nèi)在價值關(guān)注不足。近年來,盡管多模態(tài)的預(yù)訓(xùn)練文檔智能模型在多種下游任務(wù)中展現(xiàn)出卓越性能,但在處理文檔版面分析這一特定的下游任務(wù)時,只局限于將多模態(tài)預(yù)訓(xùn)練好的主干網(wǎng)絡(luò)遷移至純視覺目標(biāo)檢測器進(jìn)行微調(diào),從本質(zhì)上來說依然是個單模態(tài)的解決范式。
為此,本文創(chuàng)新性地提出了一種可插拔的多模態(tài)融合方案——M2Doc,旨在賦能純視覺目標(biāo)檢測器以捕獲并融合多模態(tài)信息的能力。M2Doc框架內(nèi)嵌了兩個關(guān)鍵融合模塊:Early-Fusion與Late-Fusion。前者采用類似門控機(jī)制的設(shè)計,巧妙融合主干網(wǎng)絡(luò)提取出的視覺和文本兩種模態(tài)特征;后者則運用直接加和運算策略,有效融合了框級的文本及視覺特征。
得益于M2Doc簡潔高效且具有普適性的模型結(jié)構(gòu)設(shè)計,它能夠便捷地適應(yīng)多種目標(biāo)檢測器架構(gòu)。實驗結(jié)果證實,在DocLayNet與M6Doc等版面分析基準(zhǔn)數(shù)據(jù)集上,融入M2Doc的目標(biāo)檢測器實現(xiàn)了顯著性能提升。并且,當(dāng)DINO目標(biāo)檢測器與M2Doc相結(jié)合時,在多個數(shù)據(jù)集上均達(dá)到了當(dāng)前最優(yōu)(SOTA)水平。
阿里云人工智能平臺 PAI 多篇論文入選 AAAI 2024
● 論文標(biāo)題:
Arithmetic Feature Interaction is Necessary for Deep Tabular Learning
● 論文作者:
程奕、胡仁君、應(yīng)豪超、施興、吳健、林偉
● 論文PDF鏈接:
https://arxiv.org/abs/2402.02334
● 代碼鏈接:
https://github.com/aigc-apps/AMFormer
● 論文標(biāo)題:
MuLTI: Efficient Video-and-Language Understanding
● 論文作者:
劉波、陳云闊、程孟力、徐家琪、施興
● 論文PDF鏈接:
https://arxiv.org/abs/2303.05707
● 論文標(biāo)題:
M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning
● 論文作者:
林今豪、吳梓恒、林煒豐、黃俊、羅榮華
● 論文標(biāo)題:
M2Doc: A Multi-modal Fusion Approach for document Layout Analysis
● 論文作者:
張寧、鄭曉怡、陳佳禹、江宗源、黃俊、薛洋、金連文