搜索: "技术报告"

共找到 8 篇相关文章

深挖真相:DeepSeek-V4延迟背后的故事终被揭开

深挖真相:DeepSeek-V4延迟背后的故事终被揭开

新智元报道最近,DeepSeek-V4的技术报告引起了广泛关注,其直率的披露令人惊叹不已。V4发布的延迟背后隐藏着何种秘密?研究人员对此纷纷猜测,并对论文中详细描述Agent操作的方式表示认可。昨日堪称人工智能界的年度盛会。技术报告长达近六十页,详尽地展示了从架构设计到训练过程的每一个细节。与V2至V3仅耗时不足八个月相比,此次V4的研发周期竟达484天。这其中的原因究竟是什么?对这份报告进行了深

科技1 阅读
揭秘DeepSeek-V4:延迟发布的真相大白了

揭秘DeepSeek-V4:延迟发布的真相大白了

最新发布的DeepSeek-V4技术报告令人震惊地揭示了其延迟发布的秘密。这不仅让社区感到意外,也让人们开始猜测背后的原因究竟是什么。昨日的AI圈活动可谓是一场盛大的聚会。这份长达近60页的技术文档详细介绍了从架构设计到训练方法再到后续优化的所有细节。从V3发布至今已过去了整整484天,而它比之前的版本多用了一倍的时间进行开发。为什么会有这样的时间差呢?经过仔细研究这份报告后,我们发现了一些可能的

科技1 阅读
梁文锋揭秘DeepSeek V4登顶秘诀

梁文锋揭秘DeepSeek V4登顶秘诀

近日,DeepSeek-V4模型成功开源并在Hugging Face平台的开源项目排名中迅速攀升至榜首。此项目的相关技术报告详细披露了其针对华为昇腾与英伟达芯片优化、架构升级及预训练和后训练阶段改进等方面的技术细节。DeepSeek-V4在推理、知识获取和代码能力等关键领域均有显著提升,整体性能可比肩GPT-5.4和Claude Opus 4.6这些顶级闭源模型。此外,该版本首次以“百万上下文”作

科技0 阅读
字节发布Seedance 2.0研究论文,深入解析四项关键技术特征及测评详情

字节发布Seedance 2.0研究论文,深入解析四项关键技术特征及测评详情

近日,字节跳动团队发布了一份关于Seedance 2.0的技术报告,《Seedance 2.0: Advancing Video Generation for World Complexity》(《Seedance 2.0:推动视频生成应对复杂世界》),详细阐述了这款多模态视频生成模型的各项能力及测试成果。据悉,自今年二月初以来,Seedance 2.0已在豆包、即梦AI和火山引擎等平台投入使用,

科技1 阅读
两年前清华的预测成真,现获全球认可!Meta等顶尖AI机构已达相同见解

两年前清华的预测成真,现获全球认可!Meta等顶尖AI机构已达相同见解

新智元报道最近,Meta和METR最新发布的AI进展数据与中国团队两年前提出的一项理论不谋而合。在过去的几天里,全球三大权威的人工智能研究机构几乎同时得出了相似的研究成果。4月3日,美国的METR发布了最新的技术报告,得出的主要结论是简短明确的。AI的能力每隔88.6天就会翻一番。五天后,即4月8日,Meta超级智能实验室推出了名为Muse Spark的新模型,并公布了一条内部称为scaling

科技5 阅读
马斯克力挺,Kimi挑战十一载无人问津的难题

马斯克力挺,Kimi挑战十一载无人问津的难题

一项被忽视多年的创新成果得到了业界巨擘马斯克的认可作者:苗正近日,科技界掀起了一场关于人工智能架构设计的新讨论博主Avi Chawla在其社交媒体平台X上发表了一篇长文,详细解析了Kimi团队发布的技术报告这篇帖子迅速引起了广泛关注,马斯克本人也在评论区回复:“Kimi团队的工作令人印象深刻。”马斯克以严格的标准和批评著称,对其他公司如Anthropic和OpenAI的批评尤为严厉他的公司xAI近

科技3 阅读
Kimi回击马斯克点赞:你的火箭同样出色

Kimi回击马斯克点赞:你的火箭同样出色

3月17日,Kimi官方账号回应了马斯克对其最新成果的点赞,表示“你的火箭也很不错”。最近,Kimi团队发布了一份技术报告,提出了一个创新性的Attention Residuals(注意力残差)机制,对深度学习领域内沿用多年的传统残差连接进行了彻底的革新,迅速吸引了全球的关注。传统的残差连接通过“固定等权累加”的方式传递信息,随着层数的增加,容易导致浅层信息被稀释,训练效率降低,稳定性减弱。而Ki

科技2 阅读
HyperOffload革新超节点存储管理,开启视觉解析新时代

HyperOffload革新超节点存储管理,开启视觉解析新时代

大语言模型的发展进入了一个全新的阶段,即万亿参数时代,这为大模型的推理与部署带来了前所未有的技术挑战。特别是在超节点(SuperNode)复杂的异构存储架构下,如何高效管理与调度海量张量,成为决定大模型能否成功落地的关键因素。最近,上海交通大学可扩展计算研究所的蒋力和刘方鑫教授团队与华为MindSpore团队合作,发布了一份技术报告,题为《HyperOffload: Graph-Driven Hi

科技2 阅读