要聞

華為，正式發(fā)布！計(jì)劃于9月開源

2025-08-12 17:42:16

每經(jīng)編輯｜張錦河

8月12日，華為正式發(fā)布AI推理創(chuàng)新技術(shù)UCM（推理記憶數(shù)據(jù)管理器）。據(jù)了解，作為一款以KV Cache為中心的推理加速套件，UCM融合了多類型緩存加速算法工具，分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù)，可擴(kuò)大推理上下文窗口，實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn)，降低每Token推理成本。該技術(shù)已率先在中國(guó)銀聯(lián)“客戶之聲”“營(yíng)銷策劃”“辦公助手”三大業(yè)務(wù)場(chǎng)景中，開展智慧金融AI推理加速應(yīng)用試點(diǎn)，并已取得成果。

華為計(jì)劃于2025年9月正式開源UCM，屆時(shí)將在魔擎社區(qū)首發(fā)，后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū)，并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。

圖片來(lái)源：每日經(jīng)濟(jì)新聞資料圖

據(jù)悉，UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中實(shí)現(xiàn)按需流動(dòng)，同時(shí)融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同，使長(zhǎng)序列場(chǎng)景下TPS（每秒處理token數(shù)）提升2至22倍，從而降低每個(gè)Token的推理成本。

Token是AI模型中的基本數(shù)據(jù)單位。在訓(xùn)練過程中，AI大模型會(huì)學(xué)習(xí)標(biāo)記Token之間的關(guān)系，從而執(zhí)行推理并生成準(zhǔn)確、相關(guān)的輸出。

數(shù)據(jù)顯示，國(guó)外主流AI大模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間（時(shí)延5ms），而我國(guó)主流AI大模型的單用戶輸出速度普遍小于60 Tokens/s（時(shí)延50至100ms）。

每日經(jīng)濟(jì)新聞綜合自公開信息

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

塞力醫(yī)療：實(shí)際控制人溫偉解除質(zhì)押300萬(wàn)股

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

重慶燃?xì)猓?月12日召開董事會(huì)會(huì)議

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

狂飙电视剧40集在线观看免费下载,成人9x9x在线观看网站,91精品乱码久久久久蜜桃,泰坦尼克号未删减完整版在线观看国语,李安色戒完整版,亚洲伦乱,九色蝌蚪国产

華為，正式發(fā)布！計(jì)劃于9月開源

華為，正式發(fā)布！計(jì)劃于9月開源