搜索: "大模型推理"

共找到 7 篇相关文章

英伟达MIT出手！华人团队重磅开源，大模型推理内存暴降10倍

新智元报道【新智元导读】一张普通的24G家用显卡，竟然能让一个32B的超大模型一口气读完6份长文档、自动写出周报？英伟达、MIT、浙大华人研究者联合出新招，让内存消耗直接暴降10倍，不降智也不爆显存，彻底击穿硬件天花板。一张RTX 4090，24GB显存，跑一个32B参数的大模型做agent任务。不做任何KV压缩，显存直接爆掉，连模型都跑不起来。换上TriAttention，模型稳稳跑起来，顺利读

科技2026/5/152 阅读

国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

机器之心编辑部如果只看这场 Meetup 的嘉宾名单，你大概会先想到海外芯片巨头，或者某家国际 AI 基础设施公司。毕竟，SGLang、TileLang、Triton 、Mooncake…… 这些今天大模型推理栈里最活跃、也最有存在感的开源项目，几乎都有核心开发者来到现场。但真正把这群人聚到一起的，竟然是摩尔线程。这才是这件事最值得看的地方。它说明一件事：国产 GPU 厂商开始不只是追着生态跑，而

科技2026/5/153 阅读

国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

金磊发自凹非寺量子位 | 公众号 QbitAI没有大厂高管站台，一屋子却挤满了开源圈的熟面孔。随便往台下扫一眼，就能对上好几个GitHub上的明星ID：有目前大模型推理框架顶流SGLang的核心开发者BBuf（Xiaoyu Zhang）；有主导下一代算子编程生态TileLang的维护者唐正举有操刀KVCache解耦与传输神器Mooncake的核心贡献者马腾有来自智源人工智能研究院、围绕Trit

科技2026/5/151 阅读

Kimi发表新论文：创新KVCache商业模式

衡宇发自凹非寺量子位 | 公众号 QbitAI把长上下文做到极致的Kimi又发新成果！这一次瞄准的是大模型推理架构跨机房调度沉疴。他们提出了一套全新范式，Prefill-as-a-Service（简称PrFaaS），预填充即服务。其核心突破是让KV Cache可以跨数据中心传输，把Prefill和Decode彻底解耦到不同的异构集群。有了PrFaaS，Prefill和Decode之间可以跨越城

科技2026/4/207 阅读

趋境ATaaS平台发布，打造日均万亿产能的“Token工厂”

3月27日，作为2026中关村论坛核心组成部分，由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能全域推理：Token爆发元年的全场景大规模推理服务”专题研讨会成功举办。论坛汇聚院士、顶尖学者及产业领军人物，聚焦大模型时代推理服务的核心技术、产业实践和生态协同，共探高效、稳定、安全、普惠的大模型推理服务体系建设。活动特邀九源智能计算生态联合体秘书长、清华大学教授、趋境科技首席科学家武永卫

科技2026/3/292 阅读

百度推出即用型AI开发平台DuClaw

在3月11日，百度智能云推出了一项名为DuClaw的新服务，实现了从“一键部署”到“零部署”的飞跃。这项创新使用户无需手动选择OpenClaw镜像或配置大模型推理服务的API密钥，极大简化了操作流程。现在，用户可以通过网页直接使用此服务，未来还将支持企业微信、钉钉和飞书等主流办公软件，让人工智能助理更加便捷地融入工作环境中。

科技2026/3/134 阅读

中科大华为诺亚TAPPA：时序视角的统一解释框架

本论文的第一作者杨庆越是中国科学技术大学 2021 级硕博连读生，师从王杰教授，主要研究方向为大模型推理加速与高效推理系统。她曾在 NeurIPS、ICLR 等顶级会议发表论文 3 篇，获华为优秀实习生等荣誉。本工作完成于其在华为诺亚方舟实验室科研实习期间，与中国科学技术大学 MIRA Lab 和华为团队合作完成。近日，中科大王杰教授团队（MIRA Lab）和华为诺亚方舟实验室（Huawei No

科技2026/3/15 阅读