搜索: "Token"

共找到 92 篇相关文章

谷歌推出Gemini 3.1:每秒处理363个token,成本骤降四成挑战Claude

谷歌推出Gemini 3.1:每秒处理363个token,成本骤降四成挑战Claude

新智元报道谷歌在深夜推出Gemini 3.1 Flash-Lite,这款新模型以其卓越的速度和性价比受到广泛关注。在Gemini 3.1 Pro取得显著成绩之后,谷歌又带来了一个全新的突破性产品。Gemini 3.1 Flash-Lite现已正式上线。其输出速度达到每秒363个token,并且价格仅为0.25美元/百万Token,跑分方面则远远超过了GPT-5 mini和Claude 4.5 Ha

科技11 阅读
复旦大学与辉羲携手突破LLM硬件瓶颈!实现2万token/s推理速度,或将告别GPU时代?

复旦大学与辉羲携手突破LLM硬件瓶颈!实现2万token/s推理速度,或将告别GPU时代?

新智元报道当硅谷公司Taalas将大模型「物理焊死」进芯片引发全球半导体行业的关注时,上海交通大学、辉羲智能及微软亚洲研究院的研究团队已更进一步——他们采用ROM+SRAM异构架构,使端侧LLM推理速度提升至20,000 tokens/s,极大地提升了端侧算力。最近,硅谷初创公司Taalas提出的「模型即芯片」方案引起了全球半导体界的深入讨论和反思。他们绕过了所有热门概念,直接将AI大模型物理焊接

科技14 阅读
交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

最近的研究表明,通过改进模型架构可以显著提升大型语言模型的性能和效率。本文介绍了一项由交通大学团队开发的新技术——JTok-M。JTok-M是一种创新性的方法,它利用token-indexed参数来扩展模型容量,从而提高计算资源的有效利用率。传统的Scaling Law主要关注于两个方面:增加模型参数的数量(N)和使用更多的训练数据(D)。然而,这种方法在实际应用中面临着诸多挑战,如成本高昂、效率

科技6 阅读
小米VisionGT超跑惊艳登场;DeepSeekV4或将下周发布;宝可梦三十周年纪念公仔热销不断 | 科技早讯

小米VisionGT超跑惊艳登场;DeepSeekV4或将下周发布;宝可梦三十周年纪念公仔热销不断 | 科技早讯

据报道,DeepSeek V4 或将于下周正式发布,该产品将原生支持图片、视频与文本的生成功能。国内知名 AI 大模型企业杭州深度求索(DeepSeek)计划于近期推出其最新旗舰大模型 DeepSeek V4。据悉,这款新模型具有多模态交互、编程能力提升、长文本处理优化及国产算力适配等多项改进。在长文本处理方面,DeepSeek V4 的上下文窗口被扩展至超过 100 万个 Token,是上一代产

科技1 阅读
FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。文章速览长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。

科技3 阅读
DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

新智元报道最近,一系列重磅消息接连传出。首先,DeepSeek V4预计将在一周内发布。据多方渠道透露,DeepSeek V4即将上线!目前,DeepSeek V4 Lite已经在至少一家推理服务商中进行测试,相关信息如下:该模型代号为Sealion-lite,拥有100万token的上下文窗口,相较于网页版或应用内版本更为出色,并且是原生多模态模型。同时,一张对比图在网络上迅速传播开来,展示了D

科技8 阅读
华为推出AI编程新工具,结合智谱和DeepSeek技术,同类任务Token用量锐减30%

华为推出AI编程新工具,结合智谱和DeepSeek技术,同类任务Token用量锐减30%

编程智能体的发展正逐步加快。近日,华为云推出了码道(CodeArts)代码智能体公测版,这一产品融合了代码大模型、集成开发环境(IDE)、自主开发模式等功能,并涵盖代码生成、研发知识问答、单元测试用例自动生成等AI编程技术,具备项目级代码生成、续写及关键功能支持。发布会上,华为云码道的负责人谈宗玮表示,该智能体依托于华为二十余年的研发经验以及海量代码积累,内置了需求管理、系统设计、软件开发等多个高

科技4 阅读
黄仁勋详谈AI经济效益:无计算则无收益

黄仁勋详谈AI经济效益:无计算则无收益

在最近的财报电话会议中,英伟达CEO黄仁勋和CFO科莱特·克雷斯讨论了公司的战略重点、市场前景及未来产品规划。黄仁勋强调了人工智能领域的发展趋势及其对公司业绩的影响,特别是生成式AI模型对计算需求的巨大推动作用。他表示,从长远来看,数据中心的资本支出规模将大幅增长至3到4万亿美元,因为各行各业都需要构建自己的“AI工厂”来生产token(数据单元)以支持业务发展。对于英伟达未来的产品路线图,黄仁勋

科技21 阅读
扩散模型引领快速深度学习新潮流 英伟达与微软联手突破每秒千个令牌限制

扩散模型引领快速深度学习新潮流 英伟达与微软联手突破每秒千个令牌限制

全球首个深度思考的扩散模型诞生! 它摒弃了传统的自回归模式,成为世界上生成速度最快的模型。 对比之下,传统自回归的“打字机式”输出方式(逐个token按顺序生成)就像乌龟一样慢: 实际测试结果显示,在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。 这一速度比GPT-5(mini版)和Claude-4.5(haiku版本)等传统模型快了五倍之多

AI11 阅读
马年四大热门模型齐聚阿里云Coding Plan启动!海量Token任你用

马年四大热门模型齐聚阿里云Coding Plan启动!海量Token任你用

近日,国内领先的AI云计算服务提供商阿里云推出了一系列重要更新。一哥就有一哥样。刚刚复工之际,阿里云一口气发布了Qwen3.5、GLM-5、MiniMax M2.5和Kimi K2.5四款顶尖开源模型。这些新上线的模型无疑具有重要意义:Qwen3.5作为阿里自主研发的新一代旗舰级大模型,在算力消耗极低的情况下,其性能已超越当前多个顶级闭源模型,并在Hugging Face榜单上占据榜首位置。Min

科技12 阅读