搜索: "推理能力"

共找到 12 篇相关文章

小米CEO雷军揭晓公司大模型重大进展:MiMo Token使用量突破一万亿

小米CEO雷军揭晓公司大模型重大进展:MiMo Token使用量突破一万亿

4月3日,小米创始人兼董事长雷军在微博上宣布了一个重要进展:小米的大模型MiMo的调用量已经突破了1万亿词元,这标志着公司在大模型技术领域取得了一项重大成就。前一天即3月31日,雷军还披露了MiMo-V2-Pro大模型在权威评测平台Text Arena上的最新成绩。这款模型凭借其卓越的复杂推理能力、长指令遵循以及多轮对话功能,在Model Rank维度上成功跻身全球前五。此外,在评估实验室综合研发

科技1 阅读
千问成功了,而 Gemini 失败了的事情

千问成功了,而 Gemini 失败了的事情

摘要:尽管“Gemini叫Uber”和“千问直接打车”的功能看似相似,但实际上两者有着本质的区别。前者仅限于让AI操控应用程序界面完成任务,而后者则是真正赋予了AI深层次的推理能力,使其能够深入参与到实际的服务履约过程中。凤凰网科技 出品作者|Dale在中国的人工智能领域中,有两家公司始终保持着独立的发展路线,并未被行业热潮所左右:DeepSeek和千问。前者专注于AGI信念的研究与技术革新;后者

科技1 阅读
MiniMax M2.7实测报告:挑战英伟达,模仿家人无懈可击

MiniMax M2.7实测报告:挑战英伟达,模仿家人无懈可击

MiniMax仅仅一个月前发布了M2.5版本,现在M2.7版本已经推出。这期间虽然包含春节假期。MiniMax在官方声明中指出,M2.7版本代表了首次深度参与模型迭代的过程。在过去几年里,“AI自我进化”已经从一种略带科幻色彩的概念,转变为业界普遍接受的发展方向。前谷歌首席执行官埃里克·施密特曾总结,目前硅谷达成了一项共识:人工智能的推理能力和记忆系统的发展,将彻底改变人类的工作方式。最终,这种系

科技1 阅读
腾讯正秘密测试全新混元HY 3.0大模型 计划四月面世

腾讯正秘密测试全新混元HY 3.0大模型 计划四月面世

在腾讯最近发布的财务报告后的媒体见面会上,公司透露,腾讯的混元系列最新版本HY 3.0正处于内部测试阶段,预计将于2026年4月对外发布。该版本是混元系列的重大更新,相比前一版本HY 2.0,核心性能有了显著提升。腾讯表示,HY 3.0模型在多个关键领域进行了优化,包括推理能力和智能代理(Agent)能力,整体智能水平有了显著提高。为了加快模型的迭代速度,自2025年下半年以来,腾讯混元团队进行

科技3 阅读
美的揭晓2026年全屋智能化蓝图,计划三年内投入600亿元深耕人工智能领域

美的揭晓2026年全屋智能化蓝图,计划三年内投入600亿元深耕人工智能领域

3月10日,在上海举行的发布会上,美的集团宣布了其2026年全屋智能战略,并推出了“三个一”策略和自进化家居智能体MevoX,展示了向人工智能转型的决心。美的集团副总裁赵磊在会上介绍了公司的核心战略——以一个家庭网络、一个AI大脑以及一个开放平台为基础。该战略的核心是具有高级推理能力与记忆功能的MevoX智能体,并基于此构建了MIA 1.0系统,旨在实现全屋设备的一体化管理。目前,美的已经完成了超

科技2 阅读
可灵携手滑铁卢大学发布UniVideo:引领视频理解与创造新时代

可灵携手滑铁卢大学发布UniVideo:引领视频理解与创造新时代

在多模态内容的理解和生成领域,统一的多模型已经显示出显著的效果,但这些成果主要集中在图像处理上。近日,滑铁卢大学与快手可灵团队共同研发出了一种名为 UniVideo 的创新性系统。该系统能够在单一框架下执行视频理解、创建及编辑任务,并且基于一个多模态生成模型构建而成。UniVideo 采用双通道结构设计,将大规模多模态语言模型(MLLM)的指令理解和推理能力与多模态扩散 Transformer(M

科技8 阅读
奖金五千美元揭晓!148局人工智能蟋蟀大赛结果公布,世界锦标赛等你挑战

奖金五千美元揭晓!148局人工智能蟋蟀大赛结果公布,世界锦标赛等你挑战

你是否也在对这个问题感到疑惑? AI大模型之间的实际差距,真的就像各种榜单上显示的那样明显吗? 确实,这些排名看起来一目了然。 参数和得分都很清晰,但总觉得用特定题目和维度来评估AI的能力,似乎有些限制其潜力。 如果将它们置于复杂互动环境中,这些模型的逻辑推理能力是否还能像在标准测试中那样拉开差距呢? 我相信不止我一个人有这种疑问。 目前已经有新的方法开始应用了,并且引起了极大的关注: 将全

AI2 阅读
谷歌在FirstProof数学挑战中创下难以突破的新纪录,超越IMO金牌水平

谷歌在FirstProof数学挑战中创下难以突破的新纪录,超越IMO金牌水平

去年7月举行的国际数学奥林匹克竞赛上,两家人工智能公司因争夺金牌成绩而引发了广泛关注。当时OpenAI和谷歌都宣称取得了金牌的成绩,但OpenAI由于提前违反官方规则宣布结果而受到了批评;谷歌DeepMind的Gemini进阶模型则是首个被奥赛组委会正式认定为金牌的人工智能系统。竞赛与真正的数学研究之间仍存在明显的界限。自那之后,AI的发展迅速加快,其解决数学问题的能力不再仅仅依赖于推理能力。现在

科技3 阅读
Nano Banana 2夜间发布 性能飙升价格减半 创新纪录

Nano Banana 2夜间发布 性能飙升价格减半 创新纪录

近日,谷歌正式发布了其最新的图片生成和编辑模型Nano Banana 2(Gemini 3.1 Flash Image),该模型已在谷歌的多种产品中上线。Nano Banana 2在功能与速度上进行了全面提升,在世界知识、图像质量、推理能力和主体一致性等方面均有所突破。同时,它在基准测试中的表现优于GPT-Image 1.5、Seedream 5.0 Lite和Grok Imagine Image

科技162 阅读
大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

科技10 阅读
北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一

科技15 阅读
清华发布全球首个人工智能评估标准“约束流形”, Gemini 3仅获33.6分

清华发布全球首个人工智能评估标准“约束流形”, Gemini 3仅获33.6分

新智元报道SSI-Bench是首个专注于评估模型在约束流形中空间推理能力的基准,强调真实结构和具体限制条件,通过排序任务来考察模型对三维几何与拓扑关系的理解程度,揭示了当前大模型在处理实际空间问题时严重依赖二维信息的情况,并且其表现远逊于人类。如果将一个在空间理解榜单中得分很高的多模态大型模型直接放置于现实世界环境中,它很可能会在看似简单的任务上遇到困难。

科技28 阅读