近日,阿里云人工智能平臺(tái) PAI 順利通過(guò)中國(guó)信通院組織的 ITU-T AICP-GA(Technical Specification for Artificial Intelligence Cloud Platform:General Architecture)國(guó)際標(biāo)準(zhǔn)和《智算工程平臺(tái)能力要求》國(guó)內(nèi)標(biāo)準(zhǔn)一致性測(cè)評(píng),成為國(guó)內(nèi)首家通過(guò)該標(biāo)準(zhǔn)的企業(yè)。阿里云人工智能平臺(tái) PAI 參與完成了智算安全、AI 能力中心、數(shù)據(jù)工程、模型開(kāi)發(fā)訓(xùn)練、模型推理部署等全部八個(gè)能力域,共計(jì)220余個(gè)用例的測(cè)試,并100%通過(guò)測(cè)試要求,獲得了 ITU 國(guó)際標(biāo)準(zhǔn)和國(guó)內(nèi)可信云標(biāo)準(zhǔn)評(píng)估通過(guò)雙證書(shū)。
ITU-T F.AICP 系列標(biāo)準(zhǔn)作為國(guó)內(nèi)唯一在 ITU-T SG16 立項(xiàng)的人工智能云平臺(tái)技術(shù)規(guī)范,能夠客觀衡量企業(yè)人工智能云平臺(tái)產(chǎn)品的能力,指導(dǎo)企業(yè)構(gòu)建人工智能云平臺(tái)服務(wù)規(guī)范,為用戶(hù)選擇人工智能云產(chǎn)品提供參考。同時(shí),《智算工程平臺(tái)能力要求》作為人工智能云平臺(tái)領(lǐng)域上與國(guó)際標(biāo)準(zhǔn)相同步、并相互兼容與認(rèn)可的標(biāo)準(zhǔn)規(guī)范,是企業(yè)人工智能云平臺(tái)產(chǎn)品在國(guó)內(nèi)應(yīng)用的重要指導(dǎo)。
阿里云人工智能平臺(tái) PAI 產(chǎn)品介紹
阿里云人工智能平臺(tái) PAI(Platform for AI)是面向企業(yè)客戶(hù)及開(kāi)發(fā)者的一站式 AI 平臺(tái),提供模型開(kāi)發(fā)平臺(tái)、模型訓(xùn)練服務(wù)、以及模型推理服務(wù),包括 PAI-iTag 智能標(biāo)注、PAI-FeatureStore 特征存儲(chǔ)、PAI-DSW 交互式建模、PAI-Designer 可視化建模、PAI-DLC 分布式訓(xùn)練、以及 PAI-EAS 在線(xiàn)部署、PAI-Blade 推理加速等功能模塊,涵蓋 AI 開(kāi)發(fā)的完整流程。PAI 還提供場(chǎng)景化最佳實(shí)踐 QuickStart 和行業(yè)領(lǐng)域 AIGC 工具 ArtLab。
1. 模型開(kāi)發(fā)平臺(tái):PAI-DSW 交互式建模、PAI-Deigner 可視化建模
PAI-DSW(Data Science Workshop)是為算法開(kāi)發(fā)者量身打造的交互式云端開(kāi)發(fā) IDE,支持 Copilot 輔助編程,提供豐富的異構(gòu)計(jì)算資源,預(yù)置多種開(kāi)源框架的鏡像,支持實(shí)例的生命周期管理。提供海量前沿案例,以 Notebook 的形式提供熱門(mén)場(chǎng)景的最佳實(shí)踐,如 Stable Diffusion、Llama2、通義千問(wèn)系列大模型等。
PAI-Designer 是 PAI 產(chǎn)品基于云原生架構(gòu)和工作流引擎開(kāi)發(fā)的可視化建模工具,提供端到端的機(jī)器學(xué)習(xí)全鏈路開(kāi)發(fā)環(huán)境,內(nèi)置豐富且成熟的機(jī)器學(xué)習(xí)算法,覆蓋商品推薦、金融風(fēng)控及廣告預(yù)測(cè)等場(chǎng)景,滿(mǎn)足不同方向的業(yè)務(wù)需求。
2. 模型訓(xùn)練服務(wù):PAI-DLC 大規(guī)模分布式任務(wù)
分布式訓(xùn)練 PAI-DLC(Deep Learning Containers)是基于云原生的 AI 訓(xùn)練平臺(tái),為開(kāi)發(fā)者和企業(yè)提供靈活、穩(wěn)定、易用和高性能的機(jī)器學(xué)習(xí)訓(xùn)練環(huán)境。
• 極致的易用性:
PAI 提供 Serverless 分布式任務(wù),無(wú)需搭建各種集群,可以直接提交 Megatron, Deepspeed, Pytorch, Tensorflow, Slurm, Ray, MPI 等十多種訓(xùn)練框架的任務(wù)。支持競(jìng)價(jià)任務(wù)模式(Spot),具備分布式任務(wù)異構(gòu)算力、多級(jí) Quota 管理、任務(wù)形態(tài)混合運(yùn)行、任務(wù)無(wú)感切換等能力。
• 極致的穩(wěn)定:
自研的容錯(cuò)引擎 AIMaster、高性能 Checkpoint 框架 EasyCKPT、健康檢測(cè) SanityCheck 以及節(jié)點(diǎn)自愈功能,有效解決多種穩(wěn)定性問(wèn)題。具備快速探查、準(zhǔn)確感應(yīng)與快速反饋的能力,有效降低算力損失,提升訓(xùn)練穩(wěn)定性。
• 極致的性能:
自研 AI 訓(xùn)練加速框架,實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)并行、流水并行、算子拆分以及嵌套的并行加速策略。通過(guò)并行策略自動(dòng)探索和多維度顯存優(yōu)化,結(jié)合高速網(wǎng)絡(luò)的拓?fù)涓兄{(diào)度,以及通信線(xiàn)程池、梯度分組融合、混合精度通信、梯度壓縮等分布式通信庫(kù)的優(yōu)化,提升分布式訓(xùn)練效率。
3. 模型推理服務(wù):PAI-EAS 模型部署與在線(xiàn)服務(wù)、PAI-Blade 推理加速
模型在線(xiàn)服務(wù) PAI-EAS(Elastic Algorithm Service)是 PAI 產(chǎn)品為實(shí)現(xiàn)一站式模型開(kāi)發(fā)部署應(yīng)用,針對(duì)在線(xiàn)推理場(chǎng)景提供的模型在線(xiàn)服務(wù),在全球范圍內(nèi)16個(gè) Region 提供服務(wù),集群規(guī)模超過(guò)10萬(wàn)卡量級(jí)。
• 一站式快速部署:
支持實(shí)時(shí)在線(xiàn)服務(wù)、近實(shí)時(shí)異步推理、離線(xiàn)批量推理等多種任務(wù)類(lèi)型,支持一鍵壓測(cè)、灰度發(fā)布、監(jiān)控報(bào)警等模型部署能力,支持場(chǎng)景化和模版化部署(例如 LLM,ComfyUI 視頻生成,RAG 對(duì)話(huà)系統(tǒng)等)。
• 全方位的性?xún)r(jià)比:
通過(guò)彈性擴(kuò)縮容、定時(shí)擴(kuò)縮容、彈性資源池等實(shí)現(xiàn)高效的集群資源調(diào)度,達(dá)到整體降本增效。通過(guò)搶占型實(shí)例資源、GPU 資源共享、Serverless 模型服務(wù)等方式大幅降低部署成本最高達(dá)90%。
• 深度的優(yōu)化加速:
通過(guò)推理優(yōu)化引擎 PAI-BladeLLM,綜合 BlaDNN 高性能算子、量化、 PD 分離的分布式推理、prompt cache 緩存優(yōu)化等技術(shù),降低首包時(shí)延 (TTFT) 60%+、降低 token 輸出時(shí)延 (TPOT) 70%+、提升推理吞吐80%+。
4. 場(chǎng)景化最佳實(shí)踐:PAI-QuickStart、PAI-ArtLab
PAI-QuickStart 整合了 Model Gallery 模型廣場(chǎng)、Notebook Gallery 案例資源等,集成豐富的預(yù)訓(xùn)練模型(LLM、CV、NLP、語(yǔ)音),提供一站式零代碼、低門(mén)檻的模型一鍵微調(diào)、部署、評(píng)測(cè)能力,快速幫助用戶(hù)上手 AI 開(kāi)發(fā)。
PAI-ArtLab 提供了行業(yè)化的 AIGC 解決方案,為沒(méi)有 AI 技術(shù)背景的行業(yè)開(kāi)發(fā)者提供了開(kāi)箱即用的低代碼化的 AI 開(kāi)發(fā)工具鏈,降低了 AI 開(kāi)發(fā)的門(mén)檻。
5. AI 與大數(shù)據(jù)一體化:智能標(biāo)注 PAI-iTag、多種場(chǎng)景數(shù)據(jù)處理、AI 血緣全鏈路追溯等
PAI-iTAG 是智能化數(shù)據(jù)標(biāo)注平臺(tái),支持圖像、文本、視頻、音頻等多種數(shù)據(jù)類(lèi)型的標(biāo)注以及多模態(tài)的混合標(biāo)注,提供了豐富的標(biāo)注內(nèi)容組件,支持 AI 賦能的自動(dòng)標(biāo)注以及豐富的預(yù)置模版。PAI 構(gòu)建了 AI 資產(chǎn)全鏈路數(shù)據(jù)服務(wù)體系,具備全生命周期數(shù)據(jù)管理、多模態(tài)數(shù)據(jù)清洗、多模態(tài)數(shù)據(jù)分析、智能化數(shù)據(jù)標(biāo)注和增強(qiáng)等能力,并提供全局的模型和數(shù)據(jù)血緣追溯能力。
6. 企業(yè)級(jí)能力:工作空間與權(quán)限管理、資源與資產(chǎn)管理、安全與可信 AI 等
PAI 平臺(tái)提供全方位的企業(yè)級(jí)能力,能高效解決企業(yè)內(nèi)部 AI 計(jì)算資源、開(kāi)發(fā)人員、權(quán)限、AI 資產(chǎn)之間的關(guān)系,創(chuàng)建生產(chǎn)級(jí)的高質(zhì)量模型及應(yīng)用。PAI 平臺(tái)支持可信 AI 模塊,具備毒性數(shù)據(jù)清洗、算法公平性/錯(cuò)誤性識(shí)別、機(jī)密計(jì)算容器、不當(dāng)推理內(nèi)容攔截等功能,保障模型和數(shù)據(jù)安全。