搜索: "逻辑推理"

共找到 8 篇相关文章

谷歌Gemma 4详评：虽非完美，却是移动端的理想选择

最近，谷歌推出了新一代开源模型Gemma 4，该版本包含了E2B、E4B、26B和31B四种规格的模型。其中，有两个较小规模的模型——E2B和E4B可以被直接部署在智能手机或树莓派等设备上，并支持离线运行。自从这两款「小型」端侧模型发布以来，它们受到了许多人的赞誉，被认为是迄今为止最实用的端侧解决方案。雷科技之前也发表了两篇关于实测体验的文章，一篇着重于逻辑推理和多模态功能的表现，另一篇则介绍了在

科技2026/5/47 阅读

评分登顶，推理能力骤降！Claude Opus 4.7版本两日内用户评价急转直下

新智元报道【新智元导读】Opus 4.7发布48小时，口碑两极撕裂。官方榜单并列全球第一，逻辑推理公开测试却从94.7%暴跌到41.0%。token消耗涨了35%，旧接口直接报错，用户集体控诉「更贵、更蠢、更爱顶嘴」。Anthropic到底升级了什么，又搞砸了什么？「4.6根本没法用，4.7的消耗速度像核反应堆一样。」Opus 4.7发布后，一位Reddit用户在Anthropic官方帖子下的留言

科技2026/4/195 阅读

ReCALL框架革新多模态检索，破解生成式与判别式模型难题迈向新高度

ReCALL团队在量子位平台上发布了一篇文章，探讨了生成式模型的应用效果。当多模态大模型具备强大的视觉和逻辑推理能力时，人们期待它们能轻松解决图像检索任务，尤其是组合图像检索问题。然而实际应用中却发现，将这些大型生成式模型改造为判别式的检索工具后，其性能反而显著下降。这种从生成转向判断的转换过程中产生了严重的功能退化现象。最近，紫东太初团队与新加坡国立大学的研究人员合作解决了这一行业难题，并提出了

科技2026/4/75 阅读

揭秘GPT-6真容

最新的消息显示，OpenAI即将发布其备受瞩目的新模型——GPT-6。据称这款代号为“土豆”的项目已经进入最后阶段，并定于4月14日推出。该模型被业内视为实现通用人工智能（AGI）的关键一步。知情人士透露，GPT-6将具备显著的性能提升，在代码编写、逻辑推理和智能体任务方面超越前代产品。此外，它还实现了多模态功能的一次性整合，能够处理文本、音频、图像及视频等多种格式的数据。模型的最大亮点之一是其超

科技2026/4/610 阅读

雷军公布小米MiMo-V2-Pro大模型最新“战绩”，Text Arena榜单刷新突破全球前五

IT之家 3 月 31 日消息，小米创办人、董事长兼 CEO 雷军今日分享了 MiMo-V2-Pro 大模型最新“战绩”。在大模型权威评测榜单 Text Arena，MiMo-V2-Pro 凭借在复杂逻辑推理、长指令遵循及多轮对话中的稳定表现，在 Model Rank 维度成功突破全球前五。同时，在衡量实验室综合研发实力的 LabRank（实验室排名）维度，Text Arena（ArenaExpe

科技2026/3/311 阅读

凤凰卫视与海天瑞声达成战略合作推动中文自然语言融入全球AI生态

凤凰网科技讯 3月31日，凤凰卫视在香港举办三十周年台庆的庆典，活动发布了多项重要合作。凤凰卫视执行副总裁兼运营总裁李奇与国内AI训练数据领域龙头企业——海天瑞声创始人、董事长贺琳出席仪式并交换文件，双方将携手深入挖掘海量音视频、文本及多语种、多模态内容，建设具备高知识密度和多元文化视角的高质量数据，为训练大模型逻辑推理、跨文化认知能力提供“黄金语料”。凤凰卫视三十周年台庆签约现场据凤凰卫视执行副

科技2026/3/312 阅读

OpenClaw重大升级，你的虚拟“龙虾”告别记忆缺失问题

养虾热潮席卷全民，就连马化腾也对此表示惊讶：“没想到会有这么火”。然而随着深入体验，“神作”级别的OpenClaw却出现了一些令人头疼的问题，比如硬件要求高、Token消耗大以及“赛博健忘症”。在AI开发领域，处理长对话一直是个棘手问题。你是否遇到过这样的情况：编写代码时，突然发现AI失去了几分钟前的关键信息？或者为了节约Token，系统直接删除了之前的对话记录，导致无法继续逻辑推理？正当许多“养

科技2026/3/106 阅读

奖金五千美元揭晓！148局人工智能蟋蟀大赛结果公布，世界锦标赛等你挑战

你是否也在对这个问题感到疑惑？ AI大模型之间的实际差距，真的就像各种榜单上显示的那样明显吗？确实，这些排名看起来一目了然。参数和得分都很清晰，但总觉得用特定题目和维度来评估AI的能力，似乎有些限制其潜力。如果将它们置于复杂互动环境中，这些模型的逻辑推理能力是否还能像在标准测试中那样拉开差距呢？我相信不止我一个人有这种疑问。目前已经有新的方法开始应用了，并且引起了极大的关注：将全

AI2026/3/65 阅读