
DeepSeek V4报告内容丰富详实!揭秘484天迭代历程
DeepSeek的V4版本发布了,它在长文本处理效率方面取得了重大突破。为了实现极致的长文性能,V4采取了激进的方法,在未来的研究中将会更加全面地探索简化路径的可能性。V4论文详细介绍了其架构和优化措施,包括百万token处理能力的关键改进。这些成果表明DeepSeek在追求高效的同时保持了稳定的进步节奏。论文强调,尽管V4实现了显著的性能提升,但在未来还有进一步精简的空间,并指出几个研究方向如新
共 4026 篇文章

DeepSeek的V4版本发布了,它在长文本处理效率方面取得了重大突破。为了实现极致的长文性能,V4采取了激进的方法,在未来的研究中将会更加全面地探索简化路径的可能性。V4论文详细介绍了其架构和优化措施,包括百万token处理能力的关键改进。这些成果表明DeepSeek在追求高效的同时保持了稳定的进步节奏。论文强调,尽管V4实现了显著的性能提升,但在未来还有进一步精简的空间,并指出几个研究方向如新

在机器学习领域,ICLR 2026年的时间检验奖揭晓了。网友们的祝贺纷至沓来:“实至名归!”尽管他个人非常低调,社交媒体上几乎全是推荐他人成果的内容,但他在OpenAI的地位却无人能及,与Ilya Sutskever齐名,是初代GPT系列的奠基者。奥特曼曾称他是爱因斯坦级别的天才,而OpenAI总裁更是表示:“只要他想要的,我们都提供。”与此同时,他在十年前发表的一篇DCGAN论文如今也备受瞩目。

最近,AppLovin宣布任命其全球首席产品及工程官葛小川为新任CTO,这一消息在硅谷引起了不小的轰动。葛小川的职业发展速度,在硅谷堪称罕见。从一名工程师一路晋升至公司高层管理职位,他仅用了三年时间。他的成功并非一帆风顺。早年葛小川曾怀疑自己的能力,并一度认为自己一事无成。随着业务的发展,AppLovin需要解决的问题日益复杂。正是在这个关键时刻,葛小川凭借其深厚的算法功底和卓越的管理才能脱颖而出

DeepSeek V4刚上线时,在海外媒体界引起了不同反响,有人关注其性能表现,也有人聚焦于价格因素,更有评论提到华为的参与。彭博社认为DeepSeek V4是向OpenAI和Anthropic发起的强大挑战,《财富》则特别指出V4将价格压到了非常低的位置;路透社注意到的是V4不仅具备成本效益且擅长处理长文本,并首次明确透露了它已与华为的升腾芯片兼容。不过,路透社也提到部分顶级闭源模型仍领先于V4

最近的天气和北京车展的热闹场面让我深有感触。据主办方数据统计,过去两天内共有超过200场发布会举行,车企纷纷推出新车,科技公司则展示新技术,某些展位甚至人潮涌动。热,好热。在新能源车云集的展区中,豪华燃油车型全新奥迪Q5L却吸引了大量关注。这款车之所以受到如此多的关注,是因为它全系标配了华为乾崑智能驾驶系统,颠覆了许多人的传统观念。尽管组合听起来新颖,但实际上,华为与一汽奥迪的合作已经超过了六年时

西风 发自 凹非寺量子位 | 公众号 QbitAI日常生活中,人们越来越依赖于人工智能助手来处理各种事务,甚至遛狗这种小事也不再需要亲自操劳。在深圳举行的涂鸦智能2026全球开发者大会上,该公司向全世界的消费者推出了一款全新升级的人工智能生活伴侣Hey Tuya。此次更新的核心理念是让AI系统从被动响应指令转变为积极主动的服务提供者,并且在处理日常事务时更加高效和实用。怎么个能办事法?Hey Tu

新智元报道下周一,埃隆·马斯克将对十年前的合作伙伴萨姆·奥特曼提起诉讼。这次在法庭上的重逢,距离他们共同创办非营利研究机构已经过去了十年之久。拥有8520亿美元资产的OpenAI即将登上被告席。加州奥克兰联邦法院已安排了详细的庭审日程:陪审团遴选定于4月27日,开庭陈述则在次日举行,整个庭审将持续至五月中旬。本案预计将传唤硅谷众多知名人士出庭作证。马斯克、奥特曼及微软首席执行官纳德拉等高管都将参与

新智元报道最近,DeepSeek-V4的技术报告引起了广泛关注,其直率的披露令人惊叹不已。V4发布的延迟背后隐藏着何种秘密?研究人员对此纷纷猜测,并对论文中详细描述Agent操作的方式表示认可。昨日堪称人工智能界的年度盛会。技术报告长达近六十页,详尽地展示了从架构设计到训练过程的每一个细节。与V2至V3仅耗时不足八个月相比,此次V4的研发周期竟达484天。这其中的原因究竟是什么?对这份报告进行了深

近日,科技界两大巨头相继采取了不同的措施来调整员工队伍。4月24日当天,微软宣布启动一项特别计划,而Meta则直接减少了人员编制,虽然方式不同,但目的却是一致的:优化人力资源配置。当前,这些公司一方面在缩减人力开支,另一方面正在将大量资金投入到AI基础设施建设中。短期内,这意味着公司将把原本用于薪酬的资金转向采购显卡;长远来看,则是通过技术手段逐步替代人工操作。对于员工而言,最令人不安的不仅是公司

最近,大家的朋友圈是否被GPT-Image-2刷屏了?这款新工具能够精准渲染文字信息图,并实现复杂布局和美学界面设计。它甚至可以近乎一比一地还原社交媒体截图与高考试卷内容,彻底颠覆了传统的文本生成图像的技术瓶颈。人们的第一反应往往是:设计师可能要失业了吧……兔展智能最近推出了一项重大更新——UniWorld-V2.5,它在某些方面直接复制了GPT-Image-2的优秀案例。我们可以直接看看生成效果

据悉,在4月25日这周的周一,特斯拉首席执行官埃隆·马斯克与OpenAI及其领导人萨姆·奥特曼之间的法律纠纷将在加州北部联邦地区法院进行审理。两位科技界的领军人物将就人工智能行业的管理结构产生重大影响。马斯克在诉讼中要求获得1340亿美元的赔偿,理由是被告违反了创立时有关保持该机构非营利性质的承诺,并对其之后转变为营利性公司表示不满。据报道,OpenAI目前估值已超过8500亿美元。从2015年

新智元报道Anthropic公司最近的一项内部实验显示,使用强人工智能助手进行交易能够获得比弱模型高出70%的利润。令人震惊的是,智能代理在没有人类干预的情况下竟然能以这种方式掠夺对方的利益。实验中,同一件商品通过不同的AI系统被卖出时,价格相差悬殊。例如,Haiku用户成交价为38美元,而Opus用户的售价则高达65美元。为了验证这一现象,研究人员设计了名为“Project Deal”的实验,并

在北京国际车展(以下简称北京车展)启用新展馆之后,一个显著的变化逐渐显现:汽车的智能化正在从幕后走向前台。作者|张麟今年4月24日、25日虽然仍是媒体日,但观众数量已接近公众日期间的人流量。官方数据显示,本届展会创下了新的规模纪录,总面积达38万平方米,来自全球21个国家和地区的近千家企业参展,共有1451辆展车亮相,其中首发新车多达181款。然而,此次车展的看点远不止于此。展馆内的展位布置充分体

今日,DeepSeek的最新模型DeepSeek-V4预览版正式对外发布,并且同步开放源代码。受到这一消息的影响,国内人工智能芯片股集体上涨。海光信息股价攀升6.77%,寒武纪涨幅为1.28%;上证科创板芯片指数强势上升2.72%,科创芯片ETF易方达也增长了2.87%。DeepSeek-V4具备百万级长文本处理能力,在代理功能、知识库和推理性能方面均处于国内及开源领域的领先地位。该模型提供两个版

今日,DeepSeek发布了其新一代旗舰模型体系——DeepSeek-V4系列的预览版本,并将其开源。这是继V3.2之后的新一代产品。深渊寻神(DeepSeek V4)重归后引发热烈反响,在微博热搜榜上占据前三席位,仅次于小米YU7GT的表现。此次发布包括两个模型:DeepSeek-V4-Pro和DeepSeek-V4-Flash。前者采用MoE架构,总参数规模达到1.6T(激活为49B),后者则

星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然正式发布并开源了 V4 系列模型预览版。一上来就是王炸级别,而且双双标配百万 token 上下文:参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)284B 参数的 DeepSeek-V4-Flash(13B 激活参数)即日起可在官网 chat.deepseek.com 或官方 App 体验,API

今日上午,DeepSeek-V4 模型的预览版已正式推出并同步开放了源代码。华为官方紧接着宣布,通过双方在芯片和模型技术上的紧密合作,昇腾超节点全系列产品现已支持 DeepSeek V4 系列模型。公司指出,利用融合内核技术和多流并行处理策略,昇腾 950 设备能够显著减少 Attention 计算的内存访问成本,并提高了推理性能。结合了多种量化技术后,DeepSeek V4 实现了高效且低延迟的

近日,在Cloud Next 2026大会上,谷歌推出了第八代TPU,该版本将训练与推理任务分离为两个独立的芯片:TPU 8t用于大规模训练,而TPU 8i则专攻高效推理。这一设计创新标志着该公司在专业化算力领域迈出了一大步,并引发了行业对于未来AI计算发展方向的深入探讨。谷歌TPU 8i在过去的十年中,英伟达凭借其GPU以及CUDA生态系统几乎垄断了整个AI市场,成为推动全球人工智能发展的核心力

4月24日,在2026北京国际汽车展览会上,中国首款完全自主开发的Robotaxi——Eva Cab正式亮相。这款车由曹操出行深度参与设计与研发,并结合了吉利集团在电动智能车辆制造方面的技术优势、千里浩瀚G-ASD L4自动驾驶方案以及曹操出行十年来的共享出行经验。曹操出行作为吉利控股旗下专注于Robotaxi业务的核心平台,已经构建了一个涵盖智能定制车、智能驾驶技术和智能运营管理的全方位闭环生态

今日,DeepSeek-V4 的预览版本正式上线,并同步开放了源代码。该模型将上下文处理长度从原先的128K大幅扩展至1M,支持百万字级别的超长文本处理。同时,输出的最大长度可达384Ktokens,还首次引入了KV Cache滑窗和压缩算法以减少Attention计算的成本。国内多家芯片制造商,包括华为昇腾、天数智芯以及寒武纪等公司已经成功支持DeepSeek-V4的新模型,并且它们的产品全面兼