華為發(fā)布AI推理創(chuàng)新技術UCM：實現高吞吐、低時延推理體驗，降低每Token推理成本-素昧平生網

當前位置：首頁 >娛樂 >華為發(fā)布AI推理創(chuàng)新技術UCM：實現高吞吐、低時延推理體驗，降低每Token推理成本正文

華為發(fā)布AI推理創(chuàng)新技術UCM：實現高吞吐、低時延推理體驗，降低每Token推理成本

時間：2025-10-12 20:30:17 來源：素昧平生網作者：熱點閱讀：514次

　　新浪科技訊 8月12日下午消息，發(fā)布在2025金融AI推理應用落地與發(fā)展論壇上，推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng)新技術UCM（推理記憶數據管理器），創(chuàng)新實現高吞吐、技術低時延的現高推理體驗。

　　在當今數字化時代，低時低AI發(fā)展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退，AI推理體驗卻已悄然成為AI應用的發(fā)布關鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書指出，AI正從訓練向推理的創(chuàng)新結構性轉變而快速增長。在這樣的技術大背景下，AI推理體驗的現高重要性愈發(fā)凸顯。

　　推理體驗直接關系到用戶與AI交互時的低時低感受，包括回答問題的延推驗降時延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示，國外主流模型的單用戶輸出速度已進入200 Tokens/s區(qū)間（時延5ms），而我國普遍小于60Tokens/s（時延50 - 100ms），如何解決推理效率與用戶體驗的難題迫在眉睫。

　　據介紹，華為此次發(fā)布的AI推理創(chuàng)新技術UCM（推理記憶數據管理器），作為一款以KV Cache為中心的推理加速套件，其融合了多類型緩存加速算法工具，分級管理推理過程中產生的KV Cache記憶數據，擴大推理上下文窗口，以實現高吞吐、低時延的推理體驗，降低每Token推理成本。