搜索: "算力成本"

共找到 2 篇相关文章

解码加速15倍!EdgeRazor助推大模型在PC/移动端“狂飙”

解码加速15倍!EdgeRazor助推大模型在PC/移动端“狂飙”

近年来,大语言模型参数的持续膨胀,带来了极高的显存占用和算力需求,在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行,量化(Quantization)成为主流的轻量化方案。然而,量化端侧部署目前受制于 “不可能三角”:后训练量化(PTQ)在极低比特下精度崩塌;量化感知训练(QAT)算力成本极高;而现有的量化感知蒸馏(QAD)又缺乏灵活性。由南

科技1 阅读
小米AI团队罗福莉组创新成果,实现算力成本锐减七成以上

小米AI团队罗福莉组创新成果,实现算力成本锐减七成以上

昨日,智能纪元 AGI 报道称,前 DeepSeek 研究员、现任小米 MiMo 大模型项目负责人的罗福莉博士发布了一篇重要论文,该论文与北京大学合作开发了一种名为 ARL-Tangram 的统一资源管理系统。ARL-Tangram 采用了一种统一的动作级公式和灵活的调度算法,能够在满足不同硬件资源限制的同时,最大限度地减少动作完成时间,并实现定制化的异构资源管理。在实际的智能体强化学习任务中,A

科技5 阅读