搜索: "上下文处理"

共找到 5 篇相关文章

SSA架构问世:13人团队挑战Transformer,计算成本降至Opus的5%,效能提升千倍

SSA架构问世:13人团队挑战Transformer,计算成本降至Opus的5%,效能提升千倍

新智元报道Transformer的主导地位或许即将被撼动!一个名为SubQ的新模型带着SAA架构闪亮登场,成本仅为Opus的五分之一。今天,一款革新性的AI模型SubQ问世,引起了全球的关注。SubQ是世界上首个完全亚二次方稀疏注意力(SSA)架构的模型,具备1200万Token的上下文处理能力。它的核心特点是动态地选择关注点,大大减少了不必要的计算量。与传统的Transformer相比,SubQ

科技4 阅读
DeepSeek V4三日测评揭晓:高性价比背后仍有局限性

DeepSeek V4三日测评揭晓:高性价比背后仍有局限性

DeepSeek V4的发布引起了广泛关注,不仅因为它在技术上的突破性进展,还因为它背后的战略意义和可能带来的行业变革。这款新模型展示了中国在AI领域的创新实力,并且已经开始探索摆脱对英伟达等美国芯片制造商依赖的新路径。在众多亮点中,V4展现了其在长上下文处理、智能体工作流搭建、成本控制及开源生态方面的显著优势。这些特点为那些需要处理海量信息并追求性价比的开发者和企业提供了前所未有的工具箱。然而,

科技6 阅读
华为昇腾超节点助力DeepSeek-V4发布 迈向百万级上下文处理新时代

华为昇腾超节点助力DeepSeek-V4发布 迈向百万级上下文处理新时代

今日,DeepSeek-V4 的预览版本正式上线,并同步开放了源代码。该模型将上下文处理长度从原先的128K大幅扩展至1M,支持百万字级别的超长文本处理。同时,输出的最大长度可达384Ktokens,还首次引入了KV Cache滑窗和压缩算法以减少Attention计算的成本。国内多家芯片制造商,包括华为昇腾、天数智芯以及寒武纪等公司已经成功支持DeepSeek-V4的新模型,并且它们的产品全面兼

科技20 阅读
姚顺雨完成DeepSeek V4挑战

姚顺雨完成DeepSeek V4挑战

今日,腾讯发布了新一代的大规模语言模型混元Hy3 preview,并将其源代码公开,这是该团队自重组以来推出的首个重要产品版本。Hy3 preview是目前混元系列中最先进的一个版本,采用了混合专家架构来实现快速和深入的思考过程。其参数总量达到2950亿个,激活参数为210亿,并能支持长达256K的内容上下文处理。从测试结果来看,Hy3 preview在复杂推理、指令执行以及代码生成等方面的性能得

科技34 阅读