工業(yè)控制

行業(yè)應(yīng)用

大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊4篇論文入選ICLR，ICDE，WWW

2024-05-08 5334

核心提示：近日，由阿里云計算平臺大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊主導(dǎo)的四篇時間序列相關(guān)論文分別被國際頂會ICLR2024、ICDE2024和WWW2024接收。

近日，由阿里云計算平臺大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊主導(dǎo)的四篇時間序列相關(guān)論文分別被國際頂會ICLR2024、ICDE2024和WWW2024接收。

論文成果是阿里云與華東師范大學(xué)、浙江大學(xué)、南京大學(xué)等高校共同研發(fā)，涉及時間序列與智能運維結(jié)合的多個應(yīng)用場景。包括基于Pathways架構(gòu)的自適應(yīng)多尺度時間序列預(yù)測模型Pathformer；基于擾動技術(shù)的時間序列解釋框架ContraLSP；多正常模式感知的頻域異常檢測算法MACE；輕量數(shù)據(jù)依賴的異常檢測重訓(xùn)練方法LARA。此次，時間序列相關(guān)模型等多篇論文的入選，表明阿里云在大數(shù)據(jù)基礎(chǔ)技術(shù)領(lǐng)域的研究得到了國際學(xué)術(shù)界的認(rèn)可，不僅展示了阿里云的技術(shù)競爭力，也創(chuàng)造了更多國際合作交流的可能性。

• ICLR（International Conference on Learning Representations）會議是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的頂級國際會議，與NeurIPS、ICML并稱為機(jī)器學(xué)習(xí)三大頂級會議，在谷歌的全領(lǐng)域?qū)W術(shù)指標(biāo)排行榜中位列前十，以展示人工智能、統(tǒng)計學(xué)和數(shù)據(jù)科學(xué)領(lǐng)域的深度學(xué)習(xí)各個方面的前沿研究以及機(jī)器視覺、計算生物學(xué)、語音識別、文本理解、游戲和機(jī)器人等重要應(yīng)用領(lǐng)域而聞名全球。

• ICDE（IEEE International Conference on Data Engineering） 是數(shù)據(jù)庫研究領(lǐng)域歷史悠久的國際會議，與SIGMOD、VLDB并稱為數(shù)據(jù)庫三大頂級會議，會議聚焦于設(shè)計，構(gòu)建，管理和評估高級數(shù)據(jù)密集型系統(tǒng)和應(yīng)用等前沿研究問題。

• WWW（The Web Conference）是為交叉，新興，綜合領(lǐng)域的頂級會議，CCF-A類，會議關(guān)注萬維網(wǎng)的未來發(fā)展，匯聚全世界相關(guān)的科研工作者、從業(yè)者和領(lǐng)域?qū)＜?，共同討論互?lián)網(wǎng)的發(fā)展、相關(guān)技術(shù)的標(biāo)準(zhǔn)化以及這些技術(shù)對社會和文化的影響。

Pathformer：基于Pathways架構(gòu)的自適應(yīng)多尺度時間序列預(yù)測模型

現(xiàn)實場景中的時間序列在不同的時間尺度展現(xiàn)出不同的變化，如云計算場景中的CPU，GPU，內(nèi)存等資源需求呈現(xiàn)出日、月、季節(jié)等獨特尺度的時間模式。這為時間序列預(yù)測帶來一定的困難。一個好的時間序列預(yù)測模型需要考慮完備的時序多尺度建模能力以及進(jìn)一步自適應(yīng)選擇多尺度的能力。

基于Transformer模型的多尺度建模，主要有兩個挑戰(zhàn)。一：不完備的多尺度建模。只是針對時間分辨率不能有效地捕捉不同范圍的時間依賴關(guān)系，相反，考慮時間距離雖然能提取不同范圍的時間依賴，但全局和局部間隔受到數(shù)據(jù)劃分的影響，單一的時間分辨率并不完備。二：固定地多尺度建模過程。對所有時序采用固定的多尺度建模阻礙了每個時序的重要特征捕捉，然而為每個數(shù)據(jù)集或每個時序手動調(diào)整最佳尺度非常耗時且難以處理。

針對這些問題，我們提出了一個基于Pathways架構(gòu)的自適應(yīng)多尺度Transformer模型 Pathformer，它整合了時間分辨率和時間距離提出了一個多尺度Transfomer模塊，使用雙重注意力機(jī)制建模局部和全局的時間依賴關(guān)系，使模型具備完備的多尺度建模能力。其次，我們提出自適應(yīng)pathways，激活Transformer的多尺度間建模能力。它基于輸入時序逐層地路由和聚合多尺度特征形成了自適應(yīng)pathways的多尺度建模，可以提升模型的預(yù)測效果和泛化性。

81c7549ec20a207c68bf84a94543dd99_fjyw77odlkyus_fed53d9c0a234ddeaad04b49c6874b66.png

ContraLSP：基于對比稀疏擾動技術(shù)的時間序列解釋框架

在智能運維等領(lǐng)域，為機(jī)器學(xué)習(xí)模型所做的預(yù)測提供可靠的解釋具有極高的重要性?，F(xiàn)有的解釋方法涉及使用顯著性方法，這些方法的解釋區(qū)分取決于它們與任意模型的交互方式。一些工作建立了顯著圖，例如，結(jié)合梯度或構(gòu)造注意力機(jī)制，以更好地處理時間序列特征，而它們難以發(fā)現(xiàn)時間序列模式。其他替代方法，包括Shapley值或LIME，通過加權(quán)線性回歸在局部近似模型預(yù)測，為我們提供解釋。這些方法主要提供實例級別的顯著圖，但特征間的互相關(guān)常常導(dǎo)致顯著的泛化誤差。在時間序列中最常見的基于擾動的方法通常通過基線、生成模型或使數(shù)據(jù)無信息的特征來修改數(shù)據(jù)，但這些擾動的非顯著區(qū)域并不總是無意義的并且存在不在數(shù)據(jù)分布內(nèi)的樣本，導(dǎo)致解釋模型存在偏差。

基于此，本文提出了ContraLSP框架，該框架如圖所示。這是一個局部稀疏解釋模型，它通過引入反事實樣本來構(gòu)建無信息擾動同時保持樣本分布。此外，我們?nèi)谌肓颂囟ㄓ跇颖镜南∈栝T控機(jī)制來生成更傾向于二值化且平滑的掩碼，這有助于簡潔地整合時間趨勢并精選顯著特征。在保證標(biāo)簽的一致性條件下，其整體優(yōu)化目標(biāo)為：

5377089aeb270e2aca8a47539e4a9b8b_fjyw77odlkyus_e20ee62356cd4f9bb701a03ef3b27302.png

c6cde9d9a3c28cfaba9ae92192cdcb1c_fjyw77odlkyus_e47d9a5f87f54ca789cb23aae7606225.png

論文在白盒時序預(yù)測，黑盒時序分類等仿真數(shù)據(jù)，和真實時序數(shù)據(jù)集分類任務(wù)中進(jìn)行了實驗，ContraLSP在解釋性能上超越了SOTA模型，顯著提升了時間序列數(shù)據(jù)解釋的質(zhì)量。

MACE：多正常模式感知的頻域異常檢測算法

異常檢測是智能運維領(lǐng)域的重要研究方向。近來，基于重構(gòu)類方法的異常檢測模型獨占鰲頭，在無監(jiān)督異常檢測中達(dá)到了很高的準(zhǔn)確度，涌現(xiàn)了大量優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型，例如：基于RNN類的神經(jīng)網(wǎng)絡(luò)OmniAnomaly, MSCRED; 基于transformer類的神經(jīng)網(wǎng)絡(luò)AnomalyTransformer, DCdetector等，但這類方法一個模型只能較好地捕捉一種或少數(shù)幾種正常模式。因此，涌現(xiàn)出了一批以元學(xué)習(xí)為輔助，快速適應(yīng)不同正常模式的異常檢測模型，例如PUAD, TranAD等。但這些方法依然要求對不同的正常模式定制不同的模型，當(dāng)存在十萬級不同正常模式的服務(wù)時，很難維護(hù)這么多神經(jīng)網(wǎng)絡(luò)模型。

與其他神經(jīng)網(wǎng)絡(luò)直接從數(shù)據(jù)樣本中判斷當(dāng)前樣本是否為異常不同，MACE從數(shù)據(jù)樣本與該數(shù)據(jù)樣本對應(yīng)的正常模式的關(guān)系中提取異常。在MACE中，我們首先提出使用頻域表征機(jī)制提取出正常模式的頻域子空間，并使用頻域表征技術(shù)把當(dāng)前數(shù)據(jù)樣本映射到該頻域子空間中。若該數(shù)據(jù)樣本離這個正常模式的頻域子空間越遠(yuǎn)則在映射后，映射點與原始樣本距離越遠(yuǎn)，重構(gòu)誤差越大。若該數(shù)據(jù)樣本離這個頻域子空間的頻域子空間越近，則在映射后，映射點與原始樣本距離越近，重構(gòu)誤差越小。因此，我們可以根據(jù)當(dāng)前數(shù)據(jù)樣本與其對應(yīng)的正常模式頻域子空間的關(guān)系，令對于當(dāng)前正常模式而言的正常數(shù)據(jù)重構(gòu)誤差遠(yuǎn)小于異常數(shù)據(jù)的重構(gòu)誤差，以此檢測異常。更進(jìn)一步，我們提出上下文感知的傅里葉變換和反變換機(jī)制，有效利用頻域的稀疏性提升計算效率，在頻域上不存在時序依賴，可以對該模型進(jìn)行細(xì)粒度的高并發(fā)實現(xiàn)，進(jìn)一步減少異常檢測的時間開銷。另外，我們提出Peak Convolution與Valley Convolution機(jī)制對短期異常進(jìn)行增強(qiáng)使其更容易被檢測到。

7edf565546798e09907597603fda005b_fjyw77odlkyus_53a120e6e5234c4da0c510790bbb9d76.png

LARA：輕量數(shù)據(jù)依賴的異常檢測重訓(xùn)練方法

在云服務(wù)的監(jiān)控場景中，經(jīng)常出現(xiàn)正常模式隨時間不斷變化，且在變化初期觀測數(shù)據(jù)數(shù)量不足以支撐模型訓(xùn)練的問題。目前，可以解決正常模式更替變化的方法主要有遷移學(xué)習(xí)、元學(xué)習(xí)、基于信號處理的方法。但同時他們也存在一些弊端，并不完全適配當(dāng)前問題。例如遷移學(xué)習(xí)未考慮本問題中多個歷史正常模式之間存在的時序關(guān)系。元學(xué)習(xí)同樣未考慮歷史正常模式之間的時序關(guān)系，同時，需要存儲大量的歷史數(shù)據(jù)。基于信號處理的方法，這類方法推理階段時間開銷太大，無法在流量峰值處進(jìn)行實時異常檢測。

因此，我們提出方法LARA解決上述問題。為了解決重訓(xùn)練新觀測數(shù)據(jù)不足的問題，我們提出反芻模塊，該模塊使用老模型恢復(fù)歷史分布中與新觀測數(shù)據(jù)相似的數(shù)據(jù)，并使用歷史數(shù)據(jù)與新觀測數(shù)據(jù)一起估計每一個新觀測數(shù)據(jù)的隱藏狀態(tài)z。為了解決重訓(xùn)練計算開銷大的問題，我們使用映射函數(shù)M_z和M_x分別把老模型輸出的隱藏狀態(tài)和重構(gòu)數(shù)據(jù)映射為當(dāng)前分布的隱藏狀態(tài)估計值與新觀測數(shù)據(jù)，并數(shù)學(xué)證明了映射函數(shù)令映射誤差最小的最優(yōu)形式為線性，極大降低了重訓(xùn)練開銷。更進(jìn)一步，我們根據(jù)M_z 與M_x的形式，提出一種相應(yīng)的損失函數(shù)設(shè)計范式，可以保證重訓(xùn)練問題是一個凸問題，具有唯一全局最優(yōu)解，從而保證較快的收斂速率，降低重訓(xùn)練計算開銷，避免陷入過擬合。

b73ecdaf94248f0c0625d8337d18627c_fjyw77odlkyus_f535290da02e489fa9be6b620c3e6bfd.png

論文鏈接

1、論文標(biāo)題：Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting

• 論文作者：陳鵬，張穎瑩，程云爻，樹揚，王益杭，文青松，楊彬，郭晨娟

• 論文鏈接：https://openreview.net/pdf?id=lJkOCMP2aW

• 代碼鏈接：https://github.com/alibaba/sreworks-ext/tree/main/aiops/Pathformer_ICLR2024

2、論文標(biāo)題：Explaining Time Series via Contrastive and Locally Sparse Perturbations

• 論文作者：劉子川，張穎瑩，王天純，王澤凡，駱東升，杜夢楠，吳敏，王毅，陳春林，范倫挺，文青松

• 論文鏈接：https://openreview.net/pdf?id=qDdSRaOiyb

• 代碼鏈接：https://github.com/alibaba/sreworks-ext/tree/main/aiops/ContraLSP

3、論文標(biāo)題：Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection

• 論文作者：陳飛佚，張穎瑩，秦臻，范倫挺，姜仁河，梁宇軒，文青松，鄧水光

• 論文鏈接：https://arxiv.org/abs/2311.16191

4、論文標(biāo)題： LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection

• 論文作者：陳飛佚，秦臻，周孟初，張穎瑩

• 論文鏈接：https://arxiv.org/abs/2310.05668

分享到:

收藏 0

更多>同類資訊

免責(zé)申明

推薦資訊

點擊排行

最新資訊更多>

最新供應(yīng)更多>

中國智能化網(wǎng)（zgznh^®）--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有：深圳市智控網(wǎng)絡(luò)有限公司 學(xué)術(shù)指導(dǎo)：深圳市智能化學(xué)會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號

• 安森美成功入選中國汽車新供應(yīng)鏈百強(qiáng)榜單	• 柳州市智能終端及機(jī)器人產(chǎn)業(yè)發(fā)展合作大會召開
• 阿里云向量檢索服務(wù) Milvus 版正式商業(yè)化	• 加速文旅、娛樂行業(yè)數(shù)字化發(fā)展，PICO 正式推出X
• 先進(jìn)存力釋放數(shù)據(jù)要素發(fā)展力全面助力產(chǎn)業(yè)伙伴	• 卡薩帝冰箱·C標(biāo)系列：做生活與時尚的C位
• 擔(dān)心孩子視力？海爾天沐護(hù)眼學(xué)習(xí)燈上市，光線安	• 國際權(quán)威認(rèn)可！海爾智家數(shù)字化用戶體驗管理模式
• 鄭州磁懸浮空調(diào)用戶：16年后，依然是海爾的當(dāng)打	• 為何卡薩帝冰箱賣得好？7天營養(yǎng)留存率＞99%領(lǐng)先

国产美女被遭强高潮开双腿_国产亚洲日产在线_国产黄片_青椒国产98在线 _日韩精品亚洲AⅤ在线影院_人妻aⅴ中文字幕无码

大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊4篇論文入選ICLR，ICDE，WWW

大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊4篇論文入選ICLR，ICDE，WWW