搜索: "上下文处理"

共找到 3 篇相关文章

华为昇腾超节点助力DeepSeek-V4发布 迈向百万级上下文处理新时代

华为昇腾超节点助力DeepSeek-V4发布 迈向百万级上下文处理新时代

今日,DeepSeek-V4 的预览版本正式上线,并同步开放了源代码。该模型将上下文处理长度从原先的128K大幅扩展至1M,支持百万字级别的超长文本处理。同时,输出的最大长度可达384Ktokens,还首次引入了KV Cache滑窗和压缩算法以减少Attention计算的成本。国内多家芯片制造商,包括华为昇腾、天数智芯以及寒武纪等公司已经成功支持DeepSeek-V4的新模型,并且它们的产品全面兼

科技0 阅读
姚顺雨完成DeepSeek V4挑战

姚顺雨完成DeepSeek V4挑战

今日,腾讯发布了新一代的大规模语言模型混元Hy3 preview,并将其源代码公开,这是该团队自重组以来推出的首个重要产品版本。Hy3 preview是目前混元系列中最先进的一个版本,采用了混合专家架构来实现快速和深入的思考过程。其参数总量达到2950亿个,激活参数为210亿,并能支持长达256K的内容上下文处理。从测试结果来看,Hy3 preview在复杂推理、指令执行以及代码生成等方面的性能得

科技9 阅读