搜索: "算力成本"

共找到 2 篇相关文章

解码加速15倍！EdgeRazor助推大模型在PC/移动端“狂飙”

近年来，大语言模型参数的持续膨胀，带来了极高的显存占用和算力需求，在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行，量化（Quantization）成为主流的轻量化方案。然而，量化端侧部署目前受制于 “不可能三角”：后训练量化（PTQ）在极低比特下精度崩塌；量化感知训练（QAT）算力成本极高；而现有的量化感知蒸馏（QAD）又缺乏灵活性。由南

科技2026/5/261 阅读

小米AI团队罗福莉组创新成果，实现算力成本锐减七成以上

昨日，智能纪元 AGI 报道称，前 DeepSeek 研究员、现任小米 MiMo 大模型项目负责人的罗福莉博士发布了一篇重要论文，该论文与北京大学合作开发了一种名为 ARL-Tangram 的统一资源管理系统。ARL-Tangram 采用了一种统一的动作级公式和灵活的调度算法，能够在满足不同硬件资源限制的同时，最大限度地减少动作完成时间，并实现定制化的异构资源管理。在实际的智能体强化学习任务中，A

科技2026/3/175 阅读