
10万token自然语言推理,让30B-A3B模型站上奥赛金牌线
奥赛级科学推理,一定要从更大的通用模型开始吗?最近上海人工智能实验室一份技术报告给出了一个不同答案:不调用外部工具、不执行代码、不接入专用符号求解器,一个 30B-A3B 规模的推理模型,也可以通过统一后训练和推理时扩展,在 IMO、USAMO、IPhO 等高难数学与物理奥赛评测中达到强劲水平。研究团队选择从已有 30B-A3B 推理主干出发,先用约 33.8 万条高质量轨迹进行反向困惑度课程监督
共找到 7 篇相关文章

奥赛级科学推理,一定要从更大的通用模型开始吗?最近上海人工智能实验室一份技术报告给出了一个不同答案:不调用外部工具、不执行代码、不接入专用符号求解器,一个 30B-A3B 规模的推理模型,也可以通过统一后训练和推理时扩展,在 IMO、USAMO、IPhO 等高难数学与物理奥赛评测中达到强劲水平。研究团队选择从已有 30B-A3B 推理主干出发,先用约 33.8 万条高质量轨迹进行反向困惑度课程监督

DeepSeek近日在GitHub上公开了一款多模态推理模型及其技术报告《以视觉原语思考》。这个模型基于DeepSeek V4-Flash架构(总计参数量为284B,实际运行时激活的参数数量为13B)开发而成,并提出了一种新的多模态推理方式。研究指出当前市面上的许多大型多模态模型存在一个未被充分重视的问题:“指代鸿沟”(Reference Gap),即尽管这些模型能够识别图像中的内容,但在用自然语

近日,DeepSeek发布了多模态技术报告《视觉原语思考》(Thinking with Visaul Primitives),详细披露了其新推出的识图模式背后的创新机制。该识图模式采用了名为DeepSeek-V4-Flash的基座模型,参数量达到284B,并拥有13B激活多模态推理模型。这一模型尚未正式命名,但DeepSeek已经确认未来会将其整合进基础模型中进行发布。据介绍,传统的思维链主要在语

近日,AI 行业传出一则重大新闻。多家媒体披露,国内一家领先的人工智能初创企业 DeepSeek 正在与潜在投资者进行谈判,计划以超过 100 亿美元的估值筹集至少三亿美元的资金。据悉,DeepSeek 确实正在接触一些机构,但有关本次融资的具体金额和公司估值的消息尚需进一步确认。去年,凭借高性能且成本低廉的推理模型 DeepSeek R1,该公司在 AI 领域引起了广泛关注,并导致股市波动。此外

智东西作者|陈骏达编辑|云鹏“一切都需要被重新思考,深度学习2.0时代即将来临。”在读完下方这篇来自月之暗面的最新论文后,前OpenAI大牛、“推理模型之父”Jerry Tworek发出感叹。智东西3月16日报道,今天,月之暗面发布论文,提前预览了下一代模型的关键模块——注意力残差(Attention Residuals,简称AttnRes)。论文的核心亮点在于对大模型中最基础、但长期被忽视的结构

英伟达携其“最强开源龙虾模型”正式进入养殖业。 近日,英伟达发布了拥有120B参数的MoE模型Nemotron 3 Super,并宣布将其代码完全开放给公众使用。 在OpenClaw智能体控制能力测试PinchBench中,该模型表现优异,取得了85.6%的成绩,一举登上同类开源模型榜首的位置。 此外,在Artificial Intelligence Index的评估中,Nemotron 3 S

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进