搜索: "上下文窗口"

共找到 11 篇相关文章

大模型也需要睡觉!让AI打个盹,醒来更聪明

大模型也需要睡觉!让AI打个盹,醒来更聪明

7×24,AI也吃不消。卡内基梅隆大学和马里兰大学发了篇论文,《Language Models Need Sleep》——大模型处理长上下文的时候,硬撑着不休息,真的会累傻。这项研究的灵感源自人脑运作机制。人睡觉的时候海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。研究团队认为模型也可以这样,设计了一个睡眠机制,让大模型上下文窗口快满的时候别硬撑了,打个盹把最近的上下文反复咀嚼几

科技2 阅读
Cursor:请大家再爱我一次

Cursor:请大家再爱我一次

作者 | 董道力邮箱 | [email protected] Coding 的第一阶段,最容易被相信的故事是"原生模型 + 原生应用"的闭环优势。Claude Code 背靠 Anthropic,能最早用上最强的 Claude,模型能力、上下文窗口、工具调用都可以被端到端优化。训练数据、推理参数、工具协议,每一层都可以为 coding 场景专门调校,不需要迁就任何第三方API。相

科技2 阅读
DeepSeek迎来意外更新!

DeepSeek迎来意外更新!

智东西作者 陈骏达编辑 心缘据报道,近日多位开发者在社交媒体平台和官方交流群中反映,DeepSeek官方API所使用的模型能力已经发生变化,上下文窗口的容量增至一百万字,超过了之前的128k限制;同时,知识库更新至2025年5月,较之前有所提前。▲DeepSeek API调用出的模型为了验证这些反馈的真实性,我们立即进行了测试。结果显示,在DeepSeek API中的模型自我介绍时,与网页

科技3 阅读
五步疗法应对Claude上下文退化问题,官方支招令牌损耗危机

五步疗法应对Claude上下文退化问题,官方支招令牌损耗危机

新智元报道Anthropic近日发表了一篇博客,详细介绍了如何管理“上下文腐烂”这一问题,并且承认了即使拥有百万token的庞大上下文空间,模型也可能因信息过多而变得不那么聪明。他们是否打破了关于百万级上下文窗口的概念神话?https://claude.com/blog/using-claude-code-session-management-and-1m-context在这篇新博文中,Anthr

科技4 阅读
五步治愈上下文衰竭?Claude官方揭秘TOKEN损耗真相

五步治愈上下文衰竭?Claude官方揭秘TOKEN损耗真相

Anthropic近日发布了一项指南,介绍如何在Claude模型中有效管理上下文信息,并解释了为何过量的上下文数据会使模型性能下降。近日,官方博客上的一篇文章揭示了Claude模型在处理百万级别上下文时遇到的问题。该文章重点讨论了一种被称为“上下文腐烂”的现象,即随着对话长度的增长,模型的表现会逐渐降低。Anthropic表示,所谓的上下文窗口是指模型生成回复时能够参考的所有信息集合,包括系统提示

科技3 阅读
深寻科技梁文锋爆料:V4版本四月底面世

深寻科技梁文锋爆料:V4版本四月底面世

经过多次延期传言之后,备受期待的DeepSeek V4终于要发布了。《创智记》从多位内部人士那里了解到,梁文锋近日在公司内部会议中宣布,预计将于四月下旬正式推出新一代旗舰大模型DeepSeek V4。据此前消息透露,这款新版本将拥有超过万亿参数规模以及百万级的上下文窗口,并且首次实现了与国产芯片如华为昇腾等的深度兼容,标志着中国AI产业在摆脱对CUDA依赖方面取得了重要进展。令人注目的是,在3月2

科技2 阅读
Qwen 3.6-Plus实战评测:8分钟搭建官网,却在京都地铁中迷路

Qwen 3.6-Plus实战评测:8分钟搭建官网,却在京都地铁中迷路

近日,阿里推出了其最新的大语言模型Qwen3.6-Plus,作为Qwen系列的首个升级版本。与前一版相比,该新模型特别加强了编程、智能体和工具调用等领域的技能,并且支持多达一百万个上下文窗口。目前市面上主流的Agent框架及各类编程工具都已适配此最新版本。官方提及的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline以及OpenCode。在大模型调用平台Op

科技8 阅读
全球打工人迎变革:ASI奇点来临,OpenClaw引领龙虾热潮

全球打工人迎变革:ASI奇点来临,OpenClaw引领龙虾热潮

新智元研究你是否注意到了最近由Anthropic公司发布的Claude模型?它不仅让软件工程师的生活发生了翻天覆地的变化,还引发了法律、会计和市场等领域的巨大变革。这些变化不仅是技术进步的体现,更是人类工作方式的一次大转型。从“人操作软件”到“AI直接交付结果”,我们的角色将由执行者转变为决策者。尽管面临诸多挑战,如上下文窗口限制、安全指令被忽略等问题,这并没有阻挡人们追求更高效工作的热情。事实上

科技2 阅读
小米VisionGT超跑惊艳登场;DeepSeekV4或将下周发布;宝可梦三十周年纪念公仔热销不断 | 科技早讯

小米VisionGT超跑惊艳登场;DeepSeekV4或将下周发布;宝可梦三十周年纪念公仔热销不断 | 科技早讯

据报道,DeepSeek V4 或将于下周正式发布,该产品将原生支持图片、视频与文本的生成功能。国内知名 AI 大模型企业杭州深度求索(DeepSeek)计划于近期推出其最新旗舰大模型 DeepSeek V4。据悉,这款新模型具有多模态交互、编程能力提升、长文本处理优化及国产算力适配等多项改进。在长文本处理方面,DeepSeek V4 的上下文窗口被扩展至超过 100 万个 Token,是上一代产

科技2 阅读
ICLR 2026 | LightMem:降低大型模型的长期记忆成本

ICLR 2026 | LightMem:降低大型模型的长期记忆成本

大规模预训练模型虽然表现出色,但在处理“长对话、多轮交互和跨任务”等复杂场景时,依然面临两大挑战:其一为上下文窗口的限制,在对话持续增长的情况下容易出现信息过载;其二是中间环节的信息丢失问题,即便能容纳所有数据也不一定能有效利用。因此,引入“外部记忆系统”成为必要:将对话内容储存于长期记忆,并在需要时进行检索。然而这一方案的实际应用却带来高成本的问题:频繁调用大模型执行总结和提取、实时解决冲突以及

科技5 阅读
DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

新智元报道最近,一系列重磅消息接连传出。首先,DeepSeek V4预计将在一周内发布。据多方渠道透露,DeepSeek V4即将上线!目前,DeepSeek V4 Lite已经在至少一家推理服务商中进行测试,相关信息如下:该模型代号为Sealion-lite,拥有100万token的上下文窗口,相较于网页版或应用内版本更为出色,并且是原生多模态模型。同时,一张对比图在网络上迅速传播开来,展示了D

科技12 阅读