搜索: "大模型"

共找到 179 篇相关文章

杨植麟带队发论文,Kimi下一代模型架构曝光,推理之父惊呼:深度学习2.0要来了!

杨植麟带队发论文,Kimi下一代模型架构曝光,推理之父惊呼:深度学习2.0要来了!

智东西作者|陈骏达编辑|云鹏“一切都需要被重新思考,深度学习2.0时代即将来临。”在读完下方这篇来自月之暗面的最新论文后,前OpenAI大牛、“推理模型之父”Jerry Tworek发出感叹。智东西3月16日报道,今天,月之暗面发布论文,提前预览了下一代模型的关键模块——注意力残差(Attention Residuals,简称AttnRes)。论文的核心亮点在于对大模型中最基础、但长期被忽视的结构

科技2 阅读
小米AI团队罗福莉组创新成果,实现算力成本锐减七成以上

小米AI团队罗福莉组创新成果,实现算力成本锐减七成以上

昨日,智能纪元 AGI 报道称,前 DeepSeek 研究员、现任小米 MiMo 大模型项目负责人的罗福莉博士发布了一篇重要论文,该论文与北京大学合作开发了一种名为 ARL-Tangram 的统一资源管理系统。ARL-Tangram 采用了一种统一的动作级公式和灵活的调度算法,能够在满足不同硬件资源限制的同时,最大限度地减少动作完成时间,并实现定制化的异构资源管理。在实际的智能体强化学习任务中,A

科技2 阅读
理想汽车推出全新自动驾驶模型MindVLA-o1:感知更精准,思考更深入

理想汽车推出全新自动驾驶模型MindVLA-o1:感知更精准,思考更深入

在今天的 NVIDIA GTC 2026 大会上,理想汽车基座模型团队负责人詹锟分享了关于该公司下一代自动驾驶基础模型 MindVLA-o1 的主题演讲《MindVLA-o1:开启全能范式 —— 探索下一代统一视觉-语言-动作自动驾驶大模型》。该模型通过五大创新技术:3D 空间感知、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,构建了一个面向物理世界的自动驾驶基础模型。具体来说,Mind

科技2 阅读
HyperOffload革新超节点存储管理,开启视觉解析新时代

HyperOffload革新超节点存储管理,开启视觉解析新时代

大语言模型的发展进入了一个全新的阶段,即万亿参数时代,这为大模型的推理与部署带来了前所未有的技术挑战。特别是在超节点(SuperNode)复杂的异构存储架构下,如何高效管理与调度海量张量,成为决定大模型能否成功落地的关键因素。最近,上海交通大学可扩展计算研究所的蒋力和刘方鑫教授团队与华为MindSpore团队合作,发布了一份技术报告,题为《HyperOffload: Graph-Driven Hi

科技1 阅读
上交大与阿里Qwen团队提出新型预训练数据选择方法OPUS

上交大与阿里Qwen团队提出新型预训练数据选择方法OPUS

在“大模型预训练”的领域中,普遍的信条是,如果想让模型性能更佳,就需要输入更多、更新且质量更高的数据。然而,最近一篇来自阿里巴巴、上海交通大学和威斯康星大学麦迪逊分校等机构的研究成果,在Hugging Face Daily Paper上取得了月度最佳的成绩,这直接挑战了上述共识,即从质量较低的数据中动态筛选样本,也能在与高质量数据优先的训练方案竞争中胜出。这一发现之所以在社区中引起了轰动,不仅因为

科技1 阅读
揭秘315:“AI投毒”背后的GEO操控手法

揭秘315:“AI投毒”背后的GEO操控手法

3·15晚会上竟然出现了大模型的身影?一款根本不存在的智能手环,竟然被AI推荐,并且排名相当靠前。央视3·15晚会揭露了一项令人震惊的互联网灰色产业链——AI“投毒”。几天后再次询问AI大模型:“有什么值得推荐的智能手环?”结果令人意想不到,它依旧推荐了这款并不存在的产品,而且排名依然靠前。其背后的原理是GEOGEO,即生成式引擎优化(Generative Engine Optimization)

科技4 阅读
深陷315曝光:万亿级隐秘市场的“污染”危机——聚焦DeepSeek

深陷315曝光:万亿级隐秘市场的“污染”危机——聚焦DeepSeek

摘要:将广告植入搜索框中一直是一门生意,如今这门生意已经扩展到了AI对话框中。在315晚会上,这种针对AI大模型的“投毒”行为被首次曝光。凤凰网科技 出品作者|赵子坤3月15日,央视315晚会揭露了GEO产业链的问题。根据业内爆料,央视财经记者在多个网络平台上搜索到了名为GEO的业务。该业务通过向AI平台输入虚假数据,影响其搜索结果。凤凰网科技早在2025年中就发现了这一隐蔽现象,当时的研究显示D

科技18 阅读
AI投毒事件曝光后:力擎GEO紧急撤文,声称影响八大AI模型与十二家媒体平台

AI投毒事件曝光后:力擎GEO紧急撤文,声称影响八大AI模型与十二家媒体平台

在315晚会上,AI大模型遭受“投毒”的问题被揭露,其中“力擎GEO优化系统”受到了特别关注。有记者通过网络平台查到了一项名为“GEO”的服务,该服务声称只需支付费用,就能在主流AI大模型中提升客户产品排名,使客户广告成为AI推荐的“标准答案”。利用GEO技术,可以向AI系统“投毒”、“驯服”并操控AI输出。力思文化传媒有限公司的李总表示:“由于网络上充斥着大量的‘投毒’行为。目前,从事GEO业务

科技2 阅读
Kimi估值激增四倍达1200亿,业内理解者仍寥寥无几

Kimi估值激增四倍达1200亿,业内理解者仍寥寥无几

本文基于公开资料编写,仅供信息交流之用,并不构成任何投资建议。最近,中国人工智能领域的焦点集中在Kimi的新一轮融资上。这家大模型公司,在短短三个月内完成了三次融资,其估值从最初的43亿美元飙升至180亿美元(约1200亿元人民币),刷新了国内同类企业连续融资金额的纪录。这一现象背后蕴含着丰富的信息。在中国的大模型公司中,Kimi由于非上市状态和信息披露较少,成为了业内最难追踪的对象。当其他公司如

科技1 阅读
智谱发布专为龙虾优化大模型 API价格同步上调20%

智谱发布专为龙虾优化大模型 API价格同步上调20%

凤凰网科技讯 3月16日,智谱发布首个专为龙虾场景深度优化的通用大模型GLM-5-Turbo,并在发布时同步上调了GLM-5-Turbo的API价格,幅度为20%。根据端到端龙虾评测基准ZClawBench评测结果,GLM-5-Turbo在OpenClaw场景中的表现相比GLM-5提升显著,在多项关键任务上整体领先于多家主流模型。据介绍,GLM-5-Turbo重点增强了对外部工具与各类Skills

科技1 阅读
中国大模型90后第一人将亮相英伟达GTC,揭秘Kimi技术突破

中国大模型90后第一人将亮相英伟达GTC,揭秘Kimi技术突破

3月16日,备受瞩目的英伟达(NVDA.US)年度GTC开发者大会将在美国加州圣何塞举行,英伟达CEO黄仁勋的主题演讲历来被视为AI产业的重要风向标。英伟达公布2026年GTC大会嘉宾名单,月之暗面创始人杨植麟受邀出席,他是名单中唯一来自独立大模型创业公司的代表。公开资料显示,杨植麟是人工智能大模型公司月之暗面(Moonshot AI)的创始人兼首席执行官,也是知名AI助手Kimi的核心缔造者。他

科技1 阅读
CMU团队提出新算法:行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

CMU团队提出新算法:行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

吴嘉赟博士就读于卡内基梅隆大学(CMU)机器学习系,专注于大语言模型评估和后训练技术的研究。大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法,旨在解决这一难题。该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。经过特定训练后,一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。图1展示了模型回答数学问题时置信度标注的实例。每一

科技1 阅读

百度推出即用型AI开发平台DuClaw

在3月11日,百度智能云推出了一项名为DuClaw的新服务,实现了从“一键部署”到“零部署”的飞跃。这项创新使用户无需手动选择OpenClaw镜像或配置大模型推理服务的API密钥,极大简化了操作流程。现在,用户可以通过网页直接使用此服务,未来还将支持企业微信、钉钉和飞书等主流办公软件,让人工智能助理更加便捷地融入工作环境中。

科技3 阅读
谷歌推出革命性AGI平台!全新多模态融合模型问世,性能领跑业界

谷歌推出革命性AGI平台!全新多模态融合模型问世,性能领跑业界

新智元报道谷歌近日发布了首个原生全模态 Embedding 模型 Gemini Embedding 2,它实现了文本、图像、音频视频以及 PDF 的无缝整合,构成了一个统一的向量空间,显著提升了检索效率。类似于生成式 AI 大模型在表达方面的功能(即“嘴”),Embedding 模型则扮演着理解和检索的角色,也就是负责记忆的部分。过去,这种记忆机制一直处在分裂的状态之中。Gemini API 已经

科技4 阅读
国产模型助力养虾人创新高!4.19万亿Token日调用猛涨34.9%,中国反超美国

国产模型助力养虾人创新高!4.19万亿Token日调用猛涨34.9%,中国反超美国

中国的龙虾爱好者们真是独领风骚。 养虾热潮推动国产大模型在黄金周期间取得了显著成就。 据OpenRouter最新统计,上周中国大模型的调用量激增至4.19万亿Token。 这是中国大模型继今年二月首度超越美国后再次占据榜首位置。 在热门应用榜单上,OpenClaw依旧稳居第一;本月最受欢迎的大模型中,国产产品依然领先。 排名前三的分别是Kimi K2.5、Step 3.5 Flash和Mi

AI6 阅读
二月香港豪华MPV销冠:小鹏X9搭载二代VLA技术

二月香港豪华MPV销冠:小鹏X9搭载二代VLA技术

3月11日,小鹏汽车官方宣布了旗下纯电中大型MPV车型——小鹏X9,在香港豪华MPV市场中于2026年2月份取得了销量冠军的成绩。据悉,小鹏X9在智能驾驶技术上具有明显优势。该车配备了第二代VLA物理世界大模型和图灵AI芯片,能够提供接近专业司机水平的辅助驾驶体验。通过视觉信号直接输出处理复杂路况的能力大幅提升。在动力性能与续航能力方面,小鹏X9提供了增程版和纯电版两种版本供消费者选择。其中,增

科技1 阅读
“龙虾”力推,破除了阻挡豆包前行的壁垒

“龙虾”力推,破除了阻挡豆包前行的壁垒

目前尚未问世的人工智能手机助手豆包,正引发小米、三星和苹果这三大智能手机制造商争相开发类似产品,而这一切的推动力正是广受欢迎的开源多代理框架OpenClaw。最近,小米启动了其AI交互测试项目miclaw的小规模封闭内测。该项目基于小米自主研发的大模型MiMo构建,旨在探索从对话能力到系统级执行能力的发展路径。雷军对此充满期待,在微博上连续发布了三条有关消息,并将miclaw比作“手机龙虾”。与此

科技2 阅读
揭秘:这款超越GPT-5.2的大模型为何能在实际工业应用中脱颖而出?

揭秘:这款超越GPT-5.2的大模型为何能在实际工业应用中脱颖而出?

最近,一些顶级通用大模型参与了三项特殊的专业“工业执业考试”。结果令人惊讶:即便是像GPT-5.2 Thinking (high) 和Gemini-3.1-Pro这样在业界具有领先地位的选手,在面对真实的工业工程环境时也显得力不从心。能够写诗、编程的通用AI为何无法解决一条生产线的问题?答案隐藏在一个低调但备受瞩目的工业AI公司——思谋科技,及其自主研发的专为工业设计的大模型IndustryGPT

科技1 阅读
科研界新锐登场:发布小巧精悍的30B模型,挑战Gemini与Claude

科研界新锐登场:发布小巧精悍的30B模型,挑战Gemini与Claude

大模型能撰写论文,但它们是否真正理解科研的本质呢? 实际上,在许多情况下,人工智能只是在模仿科学家的行为——引用文献、列出逻辑和规范格式,看起来非常专业。然而,深入探究后会发现其中充满漏洞:推理往往凭空编造,推导依赖猜测,结论的正确性全靠运气决定。 近期,发布过BabyVision多模态评估基准的UniPat AI团队推出了一项引人注目的开源项目: UniScientist。 虽然这个模型仅有30

AI2 阅读