欢迎光临顶点光电子商城!专业的光电器件与集成电路采购平台!
您好,请登录 免费注册
首页 > 资讯中心 > 行业资讯 > 华为重磅推出UCM技术,或降低对HBM依赖
华为重磅推出UCM技术,或降低对HBM依赖

          顶点光电子商城2025年8月18日消息:近日,华为推出的UCM(推理记忆数据管理器)技术通过软件架构创新显著降低了对HBM(高带宽内存)的依赖,同时提升了AI推理效率并降低了成本。


          UCM构建了HBM→DRAM→SSD的三级存储体系:HBM存储实时高频访问的极热数据,满足低时延需求(如首Token响应)。DRAM存储短期较热数据,平衡性能与成本。SSD作为外置专业存储,承载低频数据,突破显存容量限制,支持超长序列推理(如100万+ Token的金融报告分析)。


9-250QQ61P4156.png

          根据数据热度在HBM、DRAM、SSD间自动流动,结合稀疏注意力算法优化计算,使长序列场景下TPS(每秒处理Token数)提升2-22倍。全局前缀缓存技术,在多轮对话、RAG知识检索等场景中直接调用已缓存的KV数据,避免重复计算,首Token时延最大降低90%(从50-100ms缩短至5ms以内)。超长序列卸载将超长序列的KV Cache分层卸载至外置存储,突破模型和资源限制,实现推理上下文窗口10倍级扩展。


          在硬件受限的背景下,UCM通过软件定义存储的方式,在昇腾910B等国产算力上实现等效甚至超越英伟达H100的推理体验,首Token时延5-10ms、TPS 200 tokens/s的指标已达到海外主流模型水平。


          UCM的开源与银联案例形成“技术-场景-数据”闭环,吸引超50家生态伙伴加入,推动国产推理生态从“碎片化”走向“系统化”,尤其在金融、医疗等敏感领域成为“去海外依赖”的首选方案。


           UCM标志AI推理从“拼硬件”转向“拼协同”,通过算法(稀疏注意力)、框架(动态KV卸载)、存储(直通加速)的深度耦合,实现“1+1+1>3”的效果,为国产大模型差异化竞争提供底层支撑。