搜索: "大模型推理"

共找到 7 篇相关文章

英伟达MIT出手!华人团队重磅开源,大模型推理内存暴降10倍

英伟达MIT出手!华人团队重磅开源,大模型推理内存暴降10倍

新智元报道【新智元导读】一张普通的24G家用显卡,竟然能让一个32B的超大模型一口气读完6份长文档、自动写出周报?英伟达、MIT、浙大华人研究者联合出新招,让内存消耗直接暴降10倍,不降智也不爆显存,彻底击穿硬件天花板。一张RTX 4090,24GB显存,跑一个32B参数的大模型做agent任务。不做任何KV压缩,显存直接爆掉,连模型都跑不起来。换上TriAttention,模型稳稳跑起来,顺利读

科技2 阅读
国产GPU首获全球顶级推理框架「原生门票」:MUSA合入SGLang主线

国产GPU首获全球顶级推理框架「原生门票」:MUSA合入SGLang主线

机器之心编辑部如果只看这场 Meetup 的嘉宾名单,你大概会先想到海外芯片巨头,或者某家国际 AI 基础设施公司。毕竟,SGLang、TileLang、Triton 、Mooncake…… 这些今天大模型推理栈里最活跃、也最有存在感的开源项目,几乎都有核心开发者来到现场。但真正把这群人聚到一起的,竟然是摩尔线程。这才是这件事最值得看的地方。它说明一件事:国产 GPU 厂商开始不只是追着生态跑,而

科技3 阅读
国产GPU组了个开源局,把SGLang等核心开发者都摇来了!

国产GPU组了个开源局,把SGLang等核心开发者都摇来了!

金磊 发自 凹非寺量子位 | 公众号 QbitAI没有大厂高管站台,一屋子却挤满了开源圈的熟面孔。随便往台下扫一眼,就能对上好几个GitHub上的明星ID:有目前大模型推理框架顶流SGLang的核心开发者BBuf(Xiaoyu Zhang);有主导下一代算子编程生态TileLang的维护者唐正举有操刀KVCache解耦与传输神器Mooncake的核心贡献者马腾有来自智源人工智能研究院、围绕Trit

科技1 阅读
Kimi发表新论文:创新KVCache商业模式

Kimi发表新论文:创新KVCache商业模式

衡宇 发自 凹非寺量子位 | 公众号 QbitAI把长上下文做到极致的Kimi又发新成果!这一次瞄准的是大模型推理架构跨机房调度沉疴。他们提出了一套全新范式,Prefill-as-a-Service(简称PrFaaS),预填充即服务。其核心突破是让KV Cache可以跨数据中心传输,把Prefill和Decode彻底解耦到不同的异构集群。有了PrFaaS,Prefill和Decode之间可以跨越城

科技7 阅读
趋境ATaaS平台发布,打造日均万亿产能的“Token工厂”

趋境ATaaS平台发布,打造日均万亿产能的“Token工厂”

3月27日,作为2026中关村论坛核心组成部分,由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会成功举办。论坛汇聚院士、顶尖学者及产业领军人物,聚焦大模型时代推理服务的核心技术、产业实践和生态协同,共探高效、稳定、安全、普惠的大模型推理服务体系建设。活动特邀九源智能计算生态联合体秘书长、清华大学教授、趋境科技首席科学家武永卫

科技2 阅读

百度推出即用型AI开发平台DuClaw

在3月11日,百度智能云推出了一项名为DuClaw的新服务,实现了从“一键部署”到“零部署”的飞跃。这项创新使用户无需手动选择OpenClaw镜像或配置大模型推理服务的API密钥,极大简化了操作流程。现在,用户可以通过网页直接使用此服务,未来还将支持企业微信、钉钉和飞书等主流办公软件,让人工智能助理更加便捷地融入工作环境中。

科技4 阅读
中科大华为诺亚TAPPA:时序视角的统一解释框架

中科大华为诺亚TAPPA:时序视角的统一解释框架

本论文的第一作者杨庆越是中国科学技术大学 2021 级硕博连读生,师从王杰教授,主要研究方向为大模型推理加速与高效推理系统。她曾在 NeurIPS、ICLR 等顶级会议发表论文 3 篇,获华为优秀实习生等荣誉。本工作完成于其在华为诺亚方舟实验室科研实习期间,与中国科学技术大学 MIRA Lab 和华为团队合作完成。近日,中科大王杰教授团队(MIRA Lab)和华为诺亚方舟实验室(Huawei No

科技5 阅读