搜索: "技术报告"

共找到 18 篇相关文章

10万token自然语言推理，让30B-A3B模型站上奥赛金牌线

奥赛级科学推理，一定要从更大的通用模型开始吗？最近上海人工智能实验室一份技术报告给出了一个不同答案：不调用外部工具、不执行代码、不接入专用符号求解器，一个 30B-A3B 规模的推理模型，也可以通过统一后训练和推理时扩展，在 IMO、USAMO、IPhO 等高难数学与物理奥赛评测中达到强劲水平。研究团队选择从已有 30B-A3B 推理主干出发，先用约 33.8 万条高质量轨迹进行反向困惑度课程监督

科技2026/5/206 阅读

DeepSeek V4的未竟之憾

最近，关于DeepSeekV4的技术报告引起了广泛关注。报告中列举了多项技术特性，包括mHC、CSA、HCA、Muon和FP4等，但未提及Engram。由于这一情况，人们纷纷热议这个话题。Engram去哪了？Engram是在今年一月由DeepSeek与北京大学联合开源的项目，旨在研究大型模型的记忆效率问题。自从发布以来，关于它的讨论从未间断过。它不仅被视为V4版本的重要预兆，还因为它能显著提高模型

科技2026/5/46 阅读

DeepSeek V4的美中不足之处

近期，网友热议的话题之一就是有关DeepSeekV4的技术报告。在该技术报告中提到了mHC、CSA、HCA、Muon和FP4等技术细节，唯独没有提及Engram。Engram是由DeepSeek与北京大学在年初联合发布的一项开源研究项目，旨在探讨大模型中的记忆及效率问题。自从论文发表以来，业内围绕Engram的讨论从未间断过。Engram去哪了？人们普遍认为，有了Engram，大型语言模型可以不必

科技2026/5/39 阅读

DeepSeek发布创新成果！多模态模型研究报告出炉：性能超GPT-5.4

DeepSeek近日在GitHub上公开了一款多模态推理模型及其技术报告《以视觉原语思考》。这个模型基于DeepSeek V4-Flash架构（总计参数量为284B，实际运行时激活的参数数量为13B）开发而成，并提出了一种新的多模态推理方式。研究指出当前市面上的许多大型多模态模型存在一个未被充分重视的问题：“指代鸿沟”（Reference Gap），即尽管这些模型能够识别图像中的内容，但在用自然语

科技2026/5/27 阅读

DeepSeek 推出多模态模型和技术报告；小红书宣布管理层变动：柯南升任总裁；宇树公司揭晓新款双臂人形机器人，售价从2.69万元起 | 科技早报

最近，DeepSeek 在 Github 上发布了新的多模态模型，并公布了相关技术报告。技术报告中指出，虽然多模态大语言模型取得了显著进步，但目前主流的思维链范式仍主要局限于语言学领域。最近的研究重点在于利用高分辨率裁剪技术来解决感知鸿沟问题，但却忽略了参照鸿沟这一核心障碍。自然语言本身的模糊性难以提供精确的空间指引，导致在需要严谨参照的任务中出现逻辑崩溃。DeepSeek 在其多模态技术报告中提

科技2026/5/25 阅读

DeepSeek发布最新多模态技术框架，聚焦视觉基础单元研究

机器之心编辑部随着五一假期的到来，DeepSeek 最新发布了一项技术进展。前一天，陈小康在 X 平台上的一则消息引发了公众对 DeepSeek 多模态功能的关注。一些用户已经能够在 DeepSeek 的网站和应用程序中体验其多模态特性。刚刚，DeepSeek 在 Github 上正式发布了他们的多模态模型，并公开了技术报告。这是一个全新的推理范式，具有开创性的意义。欢迎访问项目主页：https:

科技2026/5/19 阅读

揭秘DeepSeek“开眼”技术内幕

近日，DeepSeek发布了多模态技术报告《视觉原语思考》（Thinking with Visaul Primitives），详细披露了其新推出的识图模式背后的创新机制。该识图模式采用了名为DeepSeek-V4-Flash的基座模型，参数量达到284B，并拥有13B激活多模态推理模型。这一模型尚未正式命名，但DeepSeek已经确认未来会将其整合进基础模型中进行发布。据介绍，传统的思维链主要在语

科技2026/5/13 阅读

面壁智能发布MiniCPM-o 4.5：消费级显卡轻松驾驭高性能计算任务

面壁智能最近发布了一项重要的技术成果，这是与清华大学以及其他合作伙伴共同研发的。该成果的核心是一套创新的技术框架——Omni-Flow流式全模态框架。Omni-Flow 是面壁智能在全双工全模态交互领域的最新突破。这次发布包括MiniCPM-o 4.5技术报告，这款模型标志着业界首个端到端全双工全模态大模型的诞生。在此之前，多数AI系统采用的是半双工交互模式，即一次只能处理一个用户指令或回复。用户

科技2026/4/294 阅读

DeepSeek坚定守护核心功能！V4版本重要特性曝光

DeepSeek为保护V4的特性不遗余力鱼羊 2026-04-28 14:15:23 量子位技术报告越挖越有

AI2026/4/292 阅读

解读DeepSeek报告：中国AI领域的隐形共识

最近几天，全球顶尖的大规模语言模型陆续更新，新闻不断。在国内，从本周一开始，Qwen、Kimi、小米和腾讯纷纷发布了新的模型版本。到了周五，备受期待的DeepSeek也终于推出了V4双版本，引发了中国AI社区的一场巨浪。目前，中国已经加入万亿参数俱乐部并已开源的模型包括DeepSeek和Kimi两家公司，而小米则预告了其最新的万亿级模型即将开源。阅读完近60页的技术报告后，我们发现这两个开源的大规

科技2026/4/273 阅读

深挖真相：DeepSeek-V4延迟背后的故事终被揭开

新智元报道最近，DeepSeek-V4的技术报告引起了广泛关注，其直率的披露令人惊叹不已。V4发布的延迟背后隐藏着何种秘密？研究人员对此纷纷猜测，并对论文中详细描述Agent操作的方式表示认可。昨日堪称人工智能界的年度盛会。技术报告长达近六十页，详尽地展示了从架构设计到训练过程的每一个细节。与V2至V3仅耗时不足八个月相比，此次V4的研发周期竟达484天。这其中的原因究竟是什么？对这份报告进行了深

科技2026/4/263 阅读

揭秘DeepSeek-V4：延迟发布的真相大白了

最新发布的DeepSeek-V4技术报告令人震惊地揭示了其延迟发布的秘密。这不仅让社区感到意外，也让人们开始猜测背后的原因究竟是什么。昨日的AI圈活动可谓是一场盛大的聚会。这份长达近60页的技术文档详细介绍了从架构设计到训练方法再到后续优化的所有细节。从V3发布至今已过去了整整484天，而它比之前的版本多用了一倍的时间进行开发。为什么会有这样的时间差呢？经过仔细研究这份报告后，我们发现了一些可能的

科技2026/4/254 阅读

梁文锋揭秘DeepSeek V4登顶秘诀

近日，DeepSeek-V4模型成功开源并在Hugging Face平台的开源项目排名中迅速攀升至榜首。此项目的相关技术报告详细披露了其针对华为昇腾与英伟达芯片优化、架构升级及预训练和后训练阶段改进等方面的技术细节。DeepSeek-V4在推理、知识获取和代码能力等关键领域均有显著提升，整体性能可比肩GPT-5.4和Claude Opus 4.6这些顶级闭源模型。此外，该版本首次以“百万上下文”作

科技2026/4/2517 阅读

字节发布Seedance 2.0研究论文，深入解析四项关键技术特征及测评详情

近日，字节跳动团队发布了一份关于Seedance 2.0的技术报告，《Seedance 2.0: Advancing Video Generation for World Complexity》（《Seedance 2.0：推动视频生成应对复杂世界》），详细阐述了这款多模态视频生成模型的各项能力及测试成果。据悉，自今年二月初以来，Seedance 2.0已在豆包、即梦AI和火山引擎等平台投入使用，

科技2026/4/181 阅读

两年前清华的预测成真，现获全球认可！Meta等顶尖AI机构已达相同见解

新智元报道最近，Meta和METR最新发布的AI进展数据与中国团队两年前提出的一项理论不谋而合。在过去的几天里，全球三大权威的人工智能研究机构几乎同时得出了相似的研究成果。4月3日，美国的METR发布了最新的技术报告，得出的主要结论是简短明确的。AI的能力每隔88.6天就会翻一番。五天后，即4月8日，Meta超级智能实验室推出了名为Muse Spark的新模型，并公布了一条内部称为scaling

科技2026/4/148 阅读

马斯克力挺，Kimi挑战十一载无人问津的难题

一项被忽视多年的创新成果得到了业界巨擘马斯克的认可作者：苗正近日，科技界掀起了一场关于人工智能架构设计的新讨论博主Avi Chawla在其社交媒体平台X上发表了一篇长文，详细解析了Kimi团队发布的技术报告这篇帖子迅速引起了广泛关注，马斯克本人也在评论区回复：“Kimi团队的工作令人印象深刻。”马斯克以严格的标准和批评著称，对其他公司如Anthropic和OpenAI的批评尤为严厉他的公司xAI近

科技2026/3/174 阅读

Kimi回击马斯克点赞：你的火箭同样出色

3月17日，Kimi官方账号回应了马斯克对其最新成果的点赞，表示“你的火箭也很不错”。最近，Kimi团队发布了一份技术报告，提出了一个创新性的Attention Residuals（注意力残差）机制，对深度学习领域内沿用多年的传统残差连接进行了彻底的革新，迅速吸引了全球的关注。传统的残差连接通过“固定等权累加”的方式传递信息，随着层数的增加，容易导致浅层信息被稀释，训练效率降低，稳定性减弱。而Ki

科技2026/3/174 阅读

HyperOffload革新超节点存储管理，开启视觉解析新时代

大语言模型的发展进入了一个全新的阶段，即万亿参数时代，这为大模型的推理与部署带来了前所未有的技术挑战。特别是在超节点（SuperNode）复杂的异构存储架构下，如何高效管理与调度海量张量，成为决定大模型能否成功落地的关键因素。最近，上海交通大学可扩展计算研究所的蒋力和刘方鑫教授团队与华为MindSpore团队合作，发布了一份技术报告，题为《HyperOffload: Graph-Driven Hi

科技2026/3/173 阅读