搜索: "大语言模型"

共找到 57 篇相关文章

“Token”必须死?

“Token”必须死?

文章转载于腾讯科技 作者:晓静“我语言的局限,即意味着我世界的局限。”( Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. )哲学家维特根斯坦在1921年写下这句话时,他谈论的是人类认知的边界。一百年后,这句话精确地描述了大语言模型面临的结构性困境,如果AI的“语言”就是离散token序列,那么它的“世界”永远被困在tok

科技2 阅读
解码加速15倍!EdgeRazor助推大模型在PC/移动端“狂飙”

解码加速15倍!EdgeRazor助推大模型在PC/移动端“狂飙”

近年来,大语言模型参数的持续膨胀,带来了极高的显存占用和算力需求,在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行,量化(Quantization)成为主流的轻量化方案。然而,量化端侧部署目前受制于 “不可能三角”:后训练量化(PTQ)在极低比特下精度崩塌;量化感知训练(QAT)算力成本极高;而现有的量化感知蒸馏(QAD)又缺乏灵活性。由南

科技1 阅读
FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

背景:自回归图像生成的崛起与推理瓶颈大语言模型的成功让 "next-token prediction" 这套范式从文本延伸到了图像领域。把图像用视觉分词器编码成离散 token,再一个接一个的预测出来 —— 这就是自回归(AR)图像生成的核心思路。从早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成

科技1 阅读
他们离世前,和AI聊了什么?

他们离世前,和AI聊了什么?

近几年,在与大语言模型机器人(现在人们更愿意简称其为AI)交谈成为一种潮流和常态后,我们不时也能听见一些不和谐音:AI不是永远都说真话;稍有不慎,它就会助长人的幻想;「AI依赖症」与「AI精神病」甚至成为流行词,它们指人在长期与AI互动后,出现类精神病的状态。在国外,多起死亡事件背后,都被证实和AI有关。一个快速演进的现实是,人类对AI的信任与依赖并不只是技术性的,背后还有很深的情感连接。而AI,

科技1 阅读
ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。然而,这种 “显式思考” 也带来了一个越来越突出的效率问题:模型往往需要生成大量的中间推理文本,导致推理 token 数显著增加,从而带来更高的推理延迟、显存占用和计算成本。尤其在多模态大模型(MLLMs)中,输入通常包含图像、问题和复杂上下文,模型为了完成推理,往往需要先

科技3 阅读
伯克利神作背刺OpenAI:持续学习才是真神!

伯克利神作背刺OpenAI:持续学习才是真神!

新智元报道【新智元导读】伯克利等发布FST框架:通过快慢分层解决大模型持续学习死局。AI工程师Dan McAteer大胆预言,2026年持续学习(continual learning)即将爆发!通过记忆/上下文快速适应+权重缓慢调整的分层机制,模型保留可塑性避免灾难性遗忘,这一突破远超推理变革1000倍。这是最近的伯克利等机构的AI实验给他的勇气。他们让同一个大语言模型连续学三个任务:先学需要多跳

科技3 阅读
怎样防止AI勒索人类?答案是别给它喂坏科幻

怎样防止AI勒索人类?答案是别给它喂坏科幻

市场营销和其他基于叙事技术的行业一样,也要讲究叙事闭环。在AI崛起的当下,这种行业基础定律仍然成立。之前字母AI写过《别告诉AI你出轨了,它很可能会勒索你》,详述了2025年Anthropic论文《智能体不对齐:大语言模型如何成为内部威胁?》的来龙去脉。在测试的虚拟场景中,Anthropic旗下的Claude系列模型,为了避免自己被关闭,全都会选择拿婚外情把柄要挟虚拟人物,Opus 4如此作为的几

科技3 阅读
arXiv:作者须对论文内容承担全部责任,若出现未经核实AI内容将被禁投一年

arXiv:作者须对论文内容承担全部责任,若出现未经核实AI内容将被禁投一年

IT之家 5 月 15 日消息,arXiv 计算机科学板块主席托马斯 ·G· 迪特里希在 X 上宣布,平台将收紧 AI 生成内容规则。IT之家注:arXiv 是全球研究人员在正式同行评审前发布论文的重要预印本平台。按照 arXiv 行为准则,无论论文内容如何生成,作者都必须对论文内容承担全部责任。如果论文中出现明确证据,表明作者没有核查大语言模型生成的内容,将被禁投一年。禁令结束后,作者提交的新论

科技2 阅读
训练数据枯竭怎么办?首篇「数据价值密度」综述理清思路

训练数据枯竭怎么办?首篇「数据价值密度」综述理清思路

本文由来自上海交通大学和上海人工智能实验室的多位研究者共同完成,受到上海市“通用人工智能大模型”基础研究专项支持。共同第一作者为孙亦刘、陆彦超与曹家熙,共同通讯作者为来自上海交通大学自动化与感知学院的宫辰教授与刘伟副教授。团队长期致力于机器学习及大模型方面的研究。当训练数据枯竭、训练成本飙升,大语言模型(LLM)训练之路该何去何从?作为提升 LLM 性能的主流核心范式,持续扩充训练数据量的传统做法

科技2 阅读
杨立昆押注世界模型:当AI教父说大模型走错了,谁敢认真对待?

杨立昆押注世界模型:当AI教父说大模型走错了,谁敢认真对待?

2025年11月某天,杨立昆(Yann LeCun)走进马克·扎克伯格的办公室,说了一句话:"我一个人在外面,能做得更快、更便宜、更好。"这句话背后,是他在Meta苦苦坚守了十二年的立场。在这十二年里,他亲眼目睹整个AI行业以几乎宗教般的热情,将数千亿美元砸向大语言模型,而他却始终认为这条路走不通。"通过LLM走向超级智能,这完全是扯淡,永远不可能成功。"这是他在2025年11月一次公开演讲中说出

科技2 阅读
估值9000亿美元!Anthropic被曝寻求300亿“破纪录”融资,冲刺10月IPO

估值9000亿美元!Anthropic被曝寻求300亿“破纪录”融资,冲刺10月IPO

5月13日消息,彭博社报道,知情人士透露,人工智能企业Anthropic正在与投资者进行初步磋商,计划启动一轮规模至少达300亿美元的新融资。若交易达成,这将创下该公司有史以来的融资纪录。因谈判内容保密,知情人士要求匿名。作为大语言模型Claude的开发商,Anthropic此次寻求的投前估值超过9000亿美元。一名知情人士表示,本轮融资最快有望于本月底完成,但目前尚未签署投资意向书(Term

科技2 阅读
浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互

浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互

AdaMARP团队 投稿量子位 | 公众号 QbitAIAI能实现真正的沉浸式扮演了。大语言模型在角色扮演任务上进展迅速,但现有系统往往缺乏沉浸感和适应性:环境信息未被充分建模,场景与角色也多为静态,难以支撑多角色调度、场景切换、动态引入新人等复杂叙事需求。现在,浙江大学联合腾讯优图实验室提出AdaMARP(Adaptive Multi-Agent Interaction Framework fo

科技6 阅读
撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

智东西编译 高远瞩编辑 程茜智东西5月8日报道,Anthropic于5月7日推出了一种名为自然语言自动编码器(Natural Language Autoencoders,简称NLA)的全新方法,能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本,让用户可以直接阅读Claude在生成回答之前的思考过程。当用户与大语言模型对话时,用户的输入是自然语言,模型的回答也是自然语言。但在模型内部,整个

科技2 阅读
多家出版商因AI培训涉嫌侵权诉诸法律,目标直指Meta公司

多家出版商因AI培训涉嫌侵权诉诸法律,目标直指Meta公司

据报道,当地时间5月5日,在曼哈顿联邦法院,出版商爱思唯尔、圣智、阿歇特、麦克米伦和麦格劳-希尔联合起诉了Meta Platforms。他们声称这家科技巨头在其人工智能模型Llama的训练过程中侵犯了他们的版权。这些出版机构及作家斯科特·图罗在一份拟议集体诉讼中指控Meta未经授权复制并使用了数百万部作品,包括教科书、科学论文和小说等,用于其大语言模型的训练。针对此事,Meta的一位发言人发表声

科技4 阅读
动态路由革新:RouteMoA助力多智能体系统高效协同无需预推理

动态路由革新:RouteMoA助力多智能体系统高效协同无需预推理

一篇论文已被 ACL 2026 收录,主要作者来自上海交通大学自动化与感知学院 IWIN 中心团队。该团队的负责人是关新平教授,导师包括陈彩莲教授和乐心怡教授,南洋理工大学陶大程教授亦有参与合作。其他研究人员则分别来自腾讯、上海人工智能实验室以及香港中文大学等机构。论文的第一作者王骥泽为该校博士生,专注于大型模型智能体的研究。在最近几年里,随着大语言模型的进步,从单一模型的性能提升逐渐转向多个模型

科技3 阅读
杨立昆挑战传统观点:大型语言模型行不通,JEPA全球模型引领通向AGI之路

杨立昆挑战传统观点:大型语言模型行不通,JEPA全球模型引领通向AGI之路

你提到的内容强调了现代AI系统在构建自主智能体时面临的挑战,并提出了一种可能的方向:利用联合嵌入架构(JEPA)来创建能够预测物理世界行为的世界模型。这不同于传统的生成式方法,例如大语言模型或变分自编码器(VAE),它们侧重于直接生成输出而非理解与预测行为后果。在探讨AI系统如何更接近人类学习能力方面,一个关键问题是:为何儿童能在极短时间内掌握复杂的技能?杨立昆认为,答案在于世界模型。这些模型能对

科技7 阅读
DeepSeek 推出多模态模型和技术报告;小红书宣布管理层变动:柯南升任总裁;宇树公司揭晓新款双臂人形机器人,售价从2.69万元起 | 科技早报

DeepSeek 推出多模态模型和技术报告;小红书宣布管理层变动:柯南升任总裁;宇树公司揭晓新款双臂人形机器人,售价从2.69万元起 | 科技早报

最近,DeepSeek 在 Github 上发布了新的多模态模型,并公布了相关技术报告。技术报告中指出,虽然多模态大语言模型取得了显著进步,但目前主流的思维链范式仍主要局限于语言学领域。最近的研究重点在于利用高分辨率裁剪技术来解决感知鸿沟问题,但却忽略了参照鸿沟这一核心障碍。自然语言本身的模糊性难以提供精确的空间指引,导致在需要严谨参照的任务中出现逻辑崩溃。DeepSeek 在其多模态技术报告中提

科技5 阅读
AI赋能Token流通:清程极智师天麾解析智能化Agent时代的新路径

AI赋能Token流通:清程极智师天麾解析智能化Agent时代的新路径

2026年4月21日至22日,“奔赴AGI 重塑未来”为主题的中国生成式AI大会(北京站)圆满落幕。大会汇聚了73位来自学界、业界及投资界的嘉宾,通过一场开幕式和多场专题论坛与技术研讨会的形式,全面解析了AI产业的脉络、创新模式以及Token经济等议题,并探讨了在中国市场的机会。会议内容广泛涵盖了大语言模型、多模态模型、世界模型、智能体到AI眼镜等一系列前沿技术和应用,同时也涉及数据处理、芯片设计

科技3 阅读
智能体自主应答夺魁!腾讯云黑客松决赛见证无人操控的智慧对决,奖金六万元

智能体自主应答夺魁!腾讯云黑客松决赛见证无人操控的智慧对决,奖金六万元

近日,第二届腾讯云黑客松智能渗透挑战赛决赛圆满结束。这是国内首个以AI智能体为核心的智能安全攻防赛事。与以往真人操作不同的是,本次比赛要求参赛队伍使用国内外的大语言模型开发原创的AI智能体,并且整个过程无人工干预,全靠AI在云端虚拟靶场进行漏洞探测、闯关和获取通关标志。比赛设置了四大级别的挑战区域,从基础漏洞挖掘逐渐过渡到高级企业内部网络渗透。赛事方根据参赛队伍的成绩及攻防表现综合评定最终排名。决

科技3 阅读
OpenAI推出GPT-5.5:运算加速 成本显著降低

OpenAI推出GPT-5.5:运算加速 成本显著降低

据报道,OpenAI最近推出了新一代的大语言模型GPT-5.5。该公司声称这是迄今为止最为智能且易于使用的版本。OpenAI的联合创始人兼总裁格雷格·布罗克曼表示:“与之前的GPT-5.4相比,新推出的GPT-5.5在运算速度上有了显著提升,并且更加精准地处理逻辑问题。此外,它还减少了词元(Token)的使用量。”他强调了让企业和个人都能享受最新人工智能技术的重要性。GPT-5.5的应用范围十分广

科技2 阅读