搜索: "上下文窗口"

共找到 11 篇相关文章

大模型也需要睡觉！让AI打个盹，醒来更聪明

7×24，AI也吃不消。卡内基梅隆大学和马里兰大学发了篇论文，《Language Models Need Sleep》——大模型处理长上下文的时候，硬撑着不休息，真的会累傻。这项研究的灵感源自人脑运作机制。人睡觉的时候海马体会把白天的短期记忆一遍遍回放，巩固进皮层突触，变成长期知识。研究团队认为模型也可以这样，设计了一个睡眠机制，让大模型上下文窗口快满的时候别硬撑了，打个盹把最近的上下文反复咀嚼几

科技2026/5/272 阅读

Cursor：请大家再爱我一次

作者｜董道力邮箱｜ [email protected] Coding 的第一阶段，最容易被相信的故事是"原生模型 + 原生应用"的闭环优势。Claude Code 背靠 Anthropic，能最早用上最强的 Claude，模型能力、上下文窗口、工具调用都可以被端到端优化。训练数据、推理参数、工具协议，每一层都可以为 coding 场景专门调校，不需要迁就任何第三方API。相

科技2026/5/262 阅读

DeepSeek迎来意外更新！

智东西作者陈骏达编辑心缘据报道，近日多位开发者在社交媒体平台和官方交流群中反映，DeepSeek官方API所使用的模型能力已经发生变化，上下文窗口的容量增至一百万字，超过了之前的128k限制；同时，知识库更新至2025年5月，较之前有所提前。▲DeepSeek API调用出的模型为了验证这些反馈的真实性，我们立即进行了测试。结果显示，在DeepSeek API中的模型自我介绍时，与网页

科技2026/4/233 阅读

五步疗法应对Claude上下文退化问题，官方支招令牌损耗危机

新智元报道Anthropic近日发表了一篇博客，详细介绍了如何管理“上下文腐烂”这一问题，并且承认了即使拥有百万token的庞大上下文空间，模型也可能因信息过多而变得不那么聪明。他们是否打破了关于百万级上下文窗口的概念神话？https://claude.com/blog/using-claude-code-session-management-and-1m-context在这篇新博文中，Anthr

科技2026/4/204 阅读

五步治愈上下文衰竭？Claude官方揭秘TOKEN损耗真相

Anthropic近日发布了一项指南，介绍如何在Claude模型中有效管理上下文信息，并解释了为何过量的上下文数据会使模型性能下降。近日，官方博客上的一篇文章揭示了Claude模型在处理百万级别上下文时遇到的问题。该文章重点讨论了一种被称为“上下文腐烂”的现象，即随着对话长度的增长，模型的表现会逐渐降低。Anthropic表示，所谓的上下文窗口是指模型生成回复时能够参考的所有信息集合，包括系统提示

科技2026/4/193 阅读

深寻科技梁文锋爆料：V4版本四月底面世

经过多次延期传言之后，备受期待的DeepSeek V4终于要发布了。《创智记》从多位内部人士那里了解到，梁文锋近日在公司内部会议中宣布，预计将于四月下旬正式推出新一代旗舰大模型DeepSeek V4。据此前消息透露，这款新版本将拥有超过万亿参数规模以及百万级的上下文窗口，并且首次实现了与国产芯片如华为昇腾等的深度兼容，标志着中国AI产业在摆脱对CUDA依赖方面取得了重要进展。令人注目的是，在3月2

科技2026/4/102 阅读

Qwen 3.6-Plus实战评测：8分钟搭建官网，却在京都地铁中迷路

近日，阿里推出了其最新的大语言模型Qwen3.6-Plus，作为Qwen系列的首个升级版本。与前一版相比，该新模型特别加强了编程、智能体和工具调用等领域的技能，并且支持多达一百万个上下文窗口。目前市面上主流的Agent框架及各类编程工具都已适配此最新版本。官方提及的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline以及OpenCode。在大模型调用平台Op

科技2026/4/38 阅读

全球打工人迎变革：ASI奇点来临，OpenClaw引领龙虾热潮

新智元研究你是否注意到了最近由Anthropic公司发布的Claude模型？它不仅让软件工程师的生活发生了翻天覆地的变化，还引发了法律、会计和市场等领域的巨大变革。这些变化不仅是技术进步的体现，更是人类工作方式的一次大转型。从“人操作软件”到“AI直接交付结果”，我们的角色将由执行者转变为决策者。尽管面临诸多挑战，如上下文窗口限制、安全指令被忽略等问题，这并没有阻挡人们追求更高效工作的热情。事实上

科技2026/3/92 阅读

小米VisionGT超跑惊艳登场；DeepSeekV4或将下周发布；宝可梦三十周年纪念公仔热销不断 | 科技早讯

据报道，DeepSeek V4 或将于下周正式发布，该产品将原生支持图片、视频与文本的生成功能。国内知名 AI 大模型企业杭州深度求索（DeepSeek）计划于近期推出其最新旗舰大模型 DeepSeek V4。据悉，这款新模型具有多模态交互、编程能力提升、长文本处理优化及国产算力适配等多项改进。在长文本处理方面，DeepSeek V4 的上下文窗口被扩展至超过 100 万个 Token，是上一代产

科技2026/3/22 阅读

ICLR 2026 | LightMem：降低大型模型的长期记忆成本

大规模预训练模型虽然表现出色，但在处理“长对话、多轮交互和跨任务”等复杂场景时，依然面临两大挑战：其一为上下文窗口的限制，在对话持续增长的情况下容易出现信息过载；其二是中间环节的信息丢失问题，即便能容纳所有数据也不一定能有效利用。因此，引入“外部记忆系统”成为必要：将对话内容储存于长期记忆，并在需要时进行检索。然而这一方案的实际应用却带来高成本的问题：频繁调用大模型执行总结和提取、实时解决冲突以及

科技2026/2/275 阅读

DeepSeek V4即将发布美国感到恐慌据称绕过了英伟达的限制在国内优先使用机密参数已被曝光

新智元报道最近，一系列重磅消息接连传出。首先，DeepSeek V4预计将在一周内发布。据多方渠道透露，DeepSeek V4即将上线！目前，DeepSeek V4 Lite已经在至少一家推理服务商中进行测试，相关信息如下：该模型代号为Sealion-lite，拥有100万token的上下文窗口，相较于网页版或应用内版本更为出色，并且是原生多模态模型。同时，一张对比图在网络上迅速传播开来，展示了D

科技2026/2/2712 阅读