
复旦大学与辉羲携手突破LLM硬件瓶颈!实现2万token/s推理速度,或将告别GPU时代?
新智元报道当硅谷公司Taalas将大模型「物理焊死」进芯片引发全球半导体行业的关注时,上海交通大学、辉羲智能及微软亚洲研究院的研究团队已更进一步——他们采用ROM+SRAM异构架构,使端侧LLM推理速度提升至20,000 tokens/s,极大地提升了端侧算力。最近,硅谷初创公司Taalas提出的「模型即芯片」方案引起了全球半导体界的深入讨论和反思。他们绕过了所有热门概念,直接将AI大模型物理焊接
科技14 阅读
