AI技術(shù)正在賦能千行百業(yè)實現(xiàn)新質(zhì)發(fā)展,AI巡檢、智能客服、智能運維都在各行業(yè)發(fā)揮著高效服務(wù)力。而與用戶聯(lián)結(jié)最緊密的手機產(chǎn)品,也正在因AI、大模型引發(fā)終端交互革命,跨越功能機、智能機進入AI手機時代。
在這場關(guān)乎行業(yè)、用戶的變革中,OPPO作為AI手機的貢獻與普及者之一,于10月17日的OPPO開發(fā)者大會(簡稱ODC)AI智能體生態(tài)分論壇上,以「探索AI技術(shù)實踐 共建新生態(tài)」為主題,邀約了眾多產(chǎn)業(yè)專家、技術(shù)專家、行業(yè)開發(fā)者等一起就智能體生態(tài)的建設(shè)、成功實踐展開了積極分享與討論。
以AI為主引擎,手機進入以場景為驅(qū)動的變革時代
手機作為覆蓋用戶最廣泛、與用戶交互最為緊密、使用時長占比較長的產(chǎn)品,早已從最初的通信工具轉(zhuǎn)變?yōu)槁?lián)結(jié)更多場景的用戶身邊的貼身助手。與此同時,在AI、大模型穩(wěn)步發(fā)展的當(dāng)下,除了各行業(yè)在業(yè)務(wù)端融合AI能力實現(xiàn)提質(zhì)增效外,立足生活所需輻射多場景的手機,無疑也成了AI與用戶溝通的最短路徑。
從生活場景可知,現(xiàn)今,個人時間正在伴隨繁雜的瑣事、工作細節(jié)處理等等逐漸碎片化,生活越來越匆忙,個人時間被侵占已成為用戶共識。通過AI技術(shù)解放精力與創(chuàng)造力,是AI與手機結(jié)合后,最迎合用戶所需的能力。具備算力高效利用能力、真實世界感知能力、自學(xué)習(xí)能力、創(chuàng)作能力的AI手機,正契合了當(dāng)下用戶從碎片、繁雜中解放,回歸自我價值的剛需。
支持生成式AI的智能終端硬件平臺,具備多模態(tài)融合的全新交互和內(nèi)嵌的專屬智能體的隨心、專屬智慧OS,用戶定義的開放服務(wù)生態(tài),都是AI手機重塑產(chǎn)品效能的主要特征。對用戶而言,AI手機要扮演的是自在交互、智能隨心、專屬陪伴、安全可信的個人化助理的角色。在這一具體要求下,只有AI手機具備不斷理解用戶習(xí)慣、不斷自學(xué)習(xí)、構(gòu)建直覺化交互的能力,才能為用戶真正提供更聰明、個性化、貼心的服務(wù)。
結(jié)合AI手機的價值點和用戶所需,各終端智能廠商協(xié)同一致,共建行業(yè)標(biāo)準,構(gòu)建零門檻開發(fā)平臺,將用戶需求與技術(shù)相互轉(zhuǎn)化,為繁榮服務(wù)生態(tài)牽引好AI主引擎。
持續(xù)探索技術(shù)天花板,為AI時代手機智能化提質(zhì)增效
經(jīng)歷多年發(fā)展和技術(shù)迭代,OPPO率先入局AI手機,梳理出了一套從硬件到交互再到業(yè)務(wù)的系統(tǒng)性實踐能力。在今年的分論壇中,基于OPPO大語言模型、視覺大模型端側(cè)部署能力,OPPO主要發(fā)力端側(cè)輕量化部署,將端側(cè)大模型朝著更快,功耗更低,占用資源更少,適用場景更多的方向演進。
在大語言模型迭代方面,OPPO提出了高效推理、內(nèi)存管理、異構(gòu)計算、加速等多種新方案。OPPO產(chǎn)品總監(jiān)那柏林現(xiàn)場分享了通過多IP聯(lián)合推理范式,OPPO大語言模型推理過程所需參數(shù)可按照活躍度分為活躍參數(shù)和不活躍參數(shù)兩部分分批處理。高效的推理范式則專注模型初始化,為模型encoding進行加速處理,保證用戶獲得數(shù)據(jù)準確的同時,提高“首字上屏”時間。
OPPO 產(chǎn)品總監(jiān) 那柏林
在語言大模型內(nèi)存管理上,OPPO也通過功耗降低,保障用戶使用不卡頓。在模型響應(yīng)速度上,OPPO則針對于不同場景基于并行譯碼技術(shù)提出了多種并行加速方案。而基于異構(gòu)計算方案,大模型推理速度進一步提升,計算資源更節(jié)約。在大模型多適性上,OPPO則通過share方式,節(jié)省不必要的計算量和內(nèi)容占用。
在視覺大模型層面,OPPO通過自定義算子可有效提升算子推理時間,達到出圖速度提升和計算功耗降低。在端側(cè)部署過程中,OPPO通過block quantization的方式讓量化的顆粒度更細,讓推理精度更靠近云端也更快,最大程度的保證效果且不失速度。而基于LoRA的使用和不同的組合,也能讓視覺大模型節(jié)省80%以上內(nèi)存占用,擁有更快的反應(yīng)速度,促使用戶使用體驗更迅捷。
會上,OPPO AI 基座模型負責(zé)人蘇鈿煌還詳細解讀了安第斯大模型Agent技術(shù)在planning、端云模型部署以及function call的能力。
OPPO AI 基座模型負責(zé)人 蘇鈿煌
具體而言,安第斯大模型Agent技術(shù)可通過規(guī)則路由+大小模型逐級處理,并且結(jié)合大模型的反思來修正小模型的不確定拆解;在端云協(xié)同上,該技術(shù)可通過端側(cè)1+N Lora的架構(gòu)來支持簡單的任務(wù)拆解,而云端多種參數(shù)規(guī)模模型則用以支持復(fù)雜的任務(wù)編排;同時,該技術(shù)支持一方、三方應(yīng)用,支持API等多種工具,通過多層級來拓展工具和 API 的層級關(guān)系,提升了模型對工具的理解,而基于手機系統(tǒng)上一方和三方的工具API完善多樣性后,也能提升工具的泛化性和模型對工具的理解力?;诎驳谒勾竽P虯gent技術(shù),大語言模型可更高效理解用戶意圖,更快檢索并反饋用戶需求,在語義理解,上下文連貫,專業(yè)性回復(fù)上更具效率。
在OPPO手機上的AI應(yīng)用中,視覺文字信息提取技術(shù)作為一項基礎(chǔ)能力被廣泛應(yīng)用于手機相冊、小布識屏、小布掃一掃、自由翻譯、便簽等入口,賦能相關(guān)圖片轉(zhuǎn)文檔、拍照翻譯、圖片文字提取等業(yè)務(wù)場景。
為解決視覺文字提取數(shù)據(jù)標(biāo)注成本高、領(lǐng)域模型多、鏈路復(fù)雜、推理時間長、易出現(xiàn)丟字、幻覺、Box定位差等問題,OPPO從算法鏈路層、模型優(yōu)化層、數(shù)據(jù)引擎層、文本RAG對應(yīng)優(yōu)化和改進策略,為用戶帶來了識別精準、高效提取的視覺文字信息提取新體驗。OPPO AI 視覺模型優(yōu)化負責(zé)人馮天鵬在分享中表示“隨著VLM不斷演進,視覺文字信息提取技術(shù)后續(xù)可在高精度手寫體識別、手寫體公式提取、復(fù)雜圖表解析、以及圖文自動關(guān)聯(lián)等業(yè)務(wù)中發(fā)揮重要作用。”
OPPO AI視覺模型優(yōu)化負責(zé)人 馮天鵬
回歸產(chǎn)品、回歸用戶,讓技術(shù)迭代有跡可循
豐富全面的技術(shù)終究要回到產(chǎn)品上,產(chǎn)品落地后是否能滿足用戶體驗提升是衡量技術(shù)是否成熟的關(guān)鍵標(biāo)準。作為OPPO覆蓋手機、手表、平板等多種品類和系列設(shè)備的全局智能助理,小布助手在AI技術(shù)實踐層面取得亮眼成績——自2019年發(fā)布至今,小布助手已擁有3.5億用戶覆蓋,月活用戶達1.5億。
在大模型時代下,小布已憑借OPPO的技術(shù)支撐獲得了更強大的語言理解和圖像生成能力。這其中既包含了OPPO大語言模型的能力,也結(jié)合了OPPO視覺大模型的優(yōu)勢。
在系統(tǒng)操控層面,小布可對復(fù)雜Query理解,并完成高效指令生成和編排。在通用問答上,流暢上下文對話知識增強的大模型技術(shù)使流暢的上下文對話和知識問答效果得到大幅度提升。在相對封閉的品牌問答領(lǐng)域,小布依托大模型強大的理解和遵循能力,獲得了更專注的能力。同時,大模型序列生成天然擅長做內(nèi)容創(chuàng)作,新小布也因此具備了文本、圖像等多模態(tài)的生成能力。為保障創(chuàng)作內(nèi)容無害,OPPO也秉承對社會和用戶負責(zé)的態(tài)度,在內(nèi)容安全方面做了大量對齊和過濾。
為進一步提升小布的服務(wù)能力,OPPO在規(guī)劃、工具、知識、記憶、多智能體交互基礎(chǔ)上,針對大量級API工具指令生產(chǎn)任務(wù)、實時性和時效性的幻覺問題、多模態(tài)下的復(fù)雜鏈路調(diào)優(yōu)三大挑戰(zhàn),搭建了最適應(yīng)小布架構(gòu)演進的對話系統(tǒng)架構(gòu)。
在高效支持千級別API的接入層面,小布可依靠單指令、多指令、嵌套指令支持用戶的復(fù)雜說法。
在解決實時性和時效性的幻覺問題方面,小布采取高時效高精度的RAG和混合大模型調(diào)度的方式,分別對應(yīng)垂域?qū)崿F(xiàn)知識覆蓋和通用場景解決長尾事實性和時效性。依托小布在流量調(diào)度上的精細化控制,在解決問題的同時也能兼顧成本ROI。
近期,小布發(fā)布的多模態(tài)能力下,技術(shù)團隊采用多信源融合理解和決策,建立全面的感知表征信息,對多模態(tài)多信源做深度理解,并進行混合建模交叉驗證的規(guī)劃,最終優(yōu)化多模態(tài)能力響應(yīng)速度更快。而通過理解和交互的并行化、圖像多級壓縮、多步指令緩存等手段,小布也實現(xiàn)了復(fù)雜鏈路全鏈路耗時優(yōu)化,為用戶帶來了更為順暢高效的交互體驗。
無論是詢問、執(zhí)行還是長尾溝通甚至是為用戶畫圖、修片,一系列高效、精準的服務(wù)和體驗,已讓小布真正成為了用戶身邊隨叫隨到的AI助手。OPPO小布助手服務(wù)平臺負責(zé)人莫驍分享到,“未來,基于記憶和個性化,復(fù)雜任務(wù)規(guī)劃,端云協(xié)同優(yōu)勢,小布也將錨定為用戶個人設(shè)備帶來更懂我、更智能、更快捷的體驗技術(shù)方向持續(xù)迭代。”
OPPO 小布助手服務(wù)平臺負責(zé)人 莫驍
持續(xù)深挖AI價值,以智能體生態(tài)帶動行業(yè)繁榮
誠然,AI正在基于大模型等技術(shù)能力不斷更迭,但AI的價值并未被完全挖掘,同時更存在著數(shù)據(jù)偏差、幻覺、多模態(tài)的局限性等問題,也缺少使其高效運轉(zhuǎn)、高效交互、完成復(fù)雜任務(wù)的運行框架?;诖?OPPO提出了基于LLM,能夠自主感知環(huán)境、做出決策并執(zhí)行行動的系統(tǒng)智能體框架。
智能體將圍繞交互性、反應(yīng)性、自主性、適應(yīng)性,實現(xiàn)接收外界信息并給出及時合理的反應(yīng),且具備代理和有約束性的自主決策能力,可根據(jù)過程和結(jié)果不斷優(yōu)化策略提升效果的能力。手機,作為可承載各種物理感知能力和多模態(tài)能力并擁有一定算力的產(chǎn)品,也成為了智能體發(fā)展的沃土。
為推動智能體生態(tài)快速發(fā)展,OPPO在本次ODC上發(fā)布了OPPO智能體平臺,OPPO智能體平臺研發(fā)負責(zé)人張磊在分論壇上對該平臺做了詳細介紹。通過提供大模型應(yīng)用開發(fā)能力以及豐富的工具庫、插件庫,為開發(fā)者適配多種業(yè)務(wù)場景,而可視化拖拽開發(fā),也降低了應(yīng)用開發(fā)門檻,讓更多用戶和開發(fā)者都能參與到智能體匯聚眾智的過程中來。
OPPO 智能體平臺研發(fā)負責(zé)人 張磊
針對智能體在手機上的分發(fā)能力,OPPO給出了應(yīng)用場景的能力增強和問題解決方案,可在例如桌面、負一屏等OS系統(tǒng)級入口進行智能體推薦。通過小布亦可進行智能體專區(qū)、上下文精準推薦、啟動時推薦等高效分發(fā);在軟件商店、瀏覽器等互聯(lián)網(wǎng)全場景入口也能高效觸達用戶。最終實現(xiàn)優(yōu)質(zhì)的智能體和有需求的用戶彼此發(fā)現(xiàn),讓服務(wù)和需求雙向?qū)印?/p>
目前,OPPO智能體平臺已完成整體建設(shè),智能體已涵蓋生活、娛樂、醫(yī)療、健康以及生產(chǎn)制造多個領(lǐng)域,通過開放接口與各領(lǐng)域業(yè)務(wù)實現(xiàn)了深度融合。開發(fā)平臺基于OPPO云的彈性算力,實現(xiàn)了智能體模型開發(fā)調(diào)試、服務(wù)、數(shù)據(jù)的彈性支撐?;谫Y源層、開發(fā)層、應(yīng)用層以及智能體運營層,平臺對開發(fā)者開放了簡潔的智能體全鏈路托管。通過對開發(fā)者提供創(chuàng)建智能體所需的快速構(gòu)建、快速集成、插件工具和個性化定制能力,為開發(fā)者從開發(fā)到運營再到分發(fā)的全程護航。
【結(jié)語】
在圓桌論壇上,OPPO技術(shù)戰(zhàn)略規(guī)劃總監(jiān)陳曉春組織來自阿里云智能、百度、火山引擎以及網(wǎng)易有道的專家們,就AI手機發(fā)展以及智能體生態(tài)建設(shè)展開了積極討論。在深挖AI能力的過程中,無論是為用戶構(gòu)建更合理、可信、可靠的服務(wù),還是基于千行百業(yè)塑造更加專注的智能體生態(tài),其本身依舊是圍繞“人”的需求進行的。在以人為本的服務(wù)理念中,更懂用戶、更自然的交互,更順暢絲滑的體驗,是倒逼技術(shù)發(fā)展的剛需,而對于OPPO以及更多廠商而言,持續(xù)深挖AI能力,以AI為核心拓展更智能的生態(tài)體系,不僅是為AI與手機融合塑造了更具象化的目標(biāo),也是手機廠商依托自身用戶基數(shù)優(yōu)勢放大在AI時代長久競爭力的良策。