
杨立昆挑战传统观点:大型语言模型行不通,JEPA全球模型引领通向AGI之路
你提到的内容强调了现代AI系统在构建自主智能体时面临的挑战,并提出了一种可能的方向:利用联合嵌入架构(JEPA)来创建能够预测物理世界行为的世界模型。这不同于传统的生成式方法,例如大语言模型或变分自编码器(VAE),它们侧重于直接生成输出而非理解与预测行为后果。在探讨AI系统如何更接近人类学习能力方面,一个关键问题是:为何儿童能在极短时间内掌握复杂的技能?杨立昆认为,答案在于世界模型。这些模型能对
共找到 98 篇相关文章

你提到的内容强调了现代AI系统在构建自主智能体时面临的挑战,并提出了一种可能的方向:利用联合嵌入架构(JEPA)来创建能够预测物理世界行为的世界模型。这不同于传统的生成式方法,例如大语言模型或变分自编码器(VAE),它们侧重于直接生成输出而非理解与预测行为后果。在探讨AI系统如何更接近人类学习能力方面,一个关键问题是:为何儿童能在极短时间内掌握复杂的技能?杨立昆认为,答案在于世界模型。这些模型能对

近期,网友热议的话题之一就是有关DeepSeekV4的技术报告。在该技术报告中提到了mHC、CSA、HCA、Muon和FP4等技术细节,唯独没有提及Engram。Engram是由DeepSeek与北京大学在年初联合发布的一项开源研究项目,旨在探讨大模型中的记忆及效率问题。自从论文发表以来,业内围绕Engram的讨论从未间断过。Engram去哪了?人们普遍认为,有了Engram,大型语言模型可以不必

作者|汤一涛在AI领域中,“中文多付钱”的现象背后远不止表面上的成本问题那么简单。它涉及到技术适配与优化过程中的复杂权衡和意外发现。历史表明,每当将汉字嵌入西方主导的技术体系时,总会有代价隐藏其中。这不仅仅体现在人工智能时代,而是长期存在的挑战。2025年初,在纽约的一位居民Nelson Felix在一个打字机爱好者小组分享了几张照片——一台刻有中文的古老打字机被意外发现,迅速引起了广泛关注和讨论

杭州于五一劳动节首日迎来了全国首个正式运营的交管机器人中队,共配备了十五台名为“杭警智行”的机器人员工,迅速成为街头焦点。这些智能设备主要被部署在西湖景区周边、湖滨商圈以及城市主干道的关键路口,与现场的人类交警共同协作,以维持交通秩序的稳定。机器人承担的任务包括为游客提供指引服务,劝阻非机动车和行人的违法行为,并协助指挥交通,正好缓解了五一假期期间警力紧张的局面。凭借集成的大规模语言模型技术,这些

最近,DeepSeek 在 Github 上发布了新的多模态模型,并公布了相关技术报告。技术报告中指出,虽然多模态大语言模型取得了显著进步,但目前主流的思维链范式仍主要局限于语言学领域。最近的研究重点在于利用高分辨率裁剪技术来解决感知鸿沟问题,但却忽略了参照鸿沟这一核心障碍。自然语言本身的模糊性难以提供精确的空间指引,导致在需要严谨参照的任务中出现逻辑崩溃。DeepSeek 在其多模态技术报告中提

2026年4月21日至22日,“奔赴AGI 重塑未来”为主题的中国生成式AI大会(北京站)圆满落幕。大会汇聚了73位来自学界、业界及投资界的嘉宾,通过一场开幕式和多场专题论坛与技术研讨会的形式,全面解析了AI产业的脉络、创新模式以及Token经济等议题,并探讨了在中国市场的机会。会议内容广泛涵盖了大语言模型、多模态模型、世界模型、智能体到AI眼镜等一系列前沿技术和应用,同时也涉及数据处理、芯片设计

新智元报道AI不再只是童年回忆中的游戏,而是成为了训练大模型的坚实平台:OpenRA-RL将即时战略游戏《红色警戒》改造为AI代理的训练场,并开源了多项关键技术。AI能自己打红警了。近期,Hugging Face推出了一个名为OpenRA-RL的新项目,它让经典RTS游戏成为大型语言模型训练的实际应用环境。这不是简单的演示或玩具级别的展示,而是具备基础设施级功能的真实工具。OpenRA-RL提供了

研究团队成员包括:Yuxin Chen,现为伊利诺伊大学厄巴纳-香槟分校硕士一年级学生;Chumeng Liang 和 Hangke Sui 均为该校博士生;Ge Liu 则是该校计算机科学系的助理教授。Liu 实验室专注于扩散及流模型领域,并已发表了包括 Riemannian Consistency Model (RCM)、Statistical Flow Matching 等在内的多项成果,其

近日,第二届腾讯云黑客松智能渗透挑战赛决赛圆满结束。这是国内首个以AI智能体为核心的智能安全攻防赛事。与以往真人操作不同的是,本次比赛要求参赛队伍使用国内外的大语言模型开发原创的AI智能体,并且整个过程无人工干预,全靠AI在云端虚拟靶场进行漏洞探测、闯关和获取通关标志。比赛设置了四大级别的挑战区域,从基础漏洞挖掘逐渐过渡到高级企业内部网络渗透。赛事方根据参赛队伍的成绩及攻防表现综合评定最终排名。决

最近几天,全球顶尖的大规模语言模型陆续更新,新闻不断。在国内,从本周一开始,Qwen、Kimi、小米和腾讯纷纷发布了新的模型版本。到了周五,备受期待的DeepSeek也终于推出了V4双版本,引发了中国AI社区的一场巨浪。目前,中国已经加入万亿参数俱乐部并已开源的模型包括DeepSeek和Kimi两家公司,而小米则预告了其最新的万亿级模型即将开源。阅读完近60页的技术报告后,我们发现这两个开源的大规

据报道,OpenAI最近推出了新一代的大语言模型GPT-5.5。该公司声称这是迄今为止最为智能且易于使用的版本。OpenAI的联合创始人兼总裁格雷格·布罗克曼表示:“与之前的GPT-5.4相比,新推出的GPT-5.5在运算速度上有了显著提升,并且更加精准地处理逻辑问题。此外,它还减少了词元(Token)的使用量。”他强调了让企业和个人都能享受最新人工智能技术的重要性。GPT-5.5的应用范围十分广

智东西编辑团队发布了一篇关于腾讯新一代混合专家架构的大规模语言模型Hy3 preview的文章。该文章详细介绍了姚顺雨领导的混元团队首次对外展示的新一代大模型。Hy3 preview是迄今最智能的模型,采用了快慢思考融合的设计理念,并具备支持最长256K上下文的能力。它拥有总计295B的参数量和激活参数数量为21B。从测评结果来看,Hy3 preview在复杂推理、指令遵循、代码生成与智能体能力等

混元大模型重建的第一步是Hy3 preview。作者|连冉姚顺雨在加入腾讯后,推出了首个重要的语言模型项目。4月23日,腾讯正式发布了混元 Hy3 preview 语言模型,并将其开源。这款模型采用快慢思考融合的MoE架构设计,总参数量达295B,激活参数为21B,支持的最大上下文长度达到256K,官方宣称其整体性能处于同尺寸模型中的领先水平。按照研发进度来看,Hy3 preview 从今年年初启

最近,一款名为混元的大规模语言模型在腾讯内部正式亮相。这款AI工具体现了公司对前沿技术的持续投入与研发能力。这款新产品的发布恰逢腾讯业绩报告中关于人工智能和机器学习领域的积极进展的披露。根据财报数据,公司在第四季度显著增加了科研投资,以支持其人工智能业务的发展。腾讯管理层在上个月举行的电话会议期间强调了持续创新的重要性,并分享了有关AI技术应用及未来战略规划的具体信息。马化腾特别指出,公司拥有充足

4月23日,腾讯发布了混元 Hy3 preview 语言模型,并宣布将其开源。该模型结合了快慢思考的特点,拥有总计2950亿参数和激活参数210亿,能够处理长达256K的上下文长度。腾讯官方透露,在今年二月,腾讯对预训练及强化学习的基础架构进行了重建,并确立了三个追求实用性的准则:能力系统化、评估真实性以及性价比。Hy3 preview 是在此次基础建设改进之后生成的第一个模型,也是迄今为止混元系

今日,腾讯发布了新一代的大规模语言模型混元Hy3 preview,并将其源代码公开,这是该团队自重组以来推出的首个重要产品版本。Hy3 preview是目前混元系列中最先进的一个版本,采用了混合专家架构来实现快速和深入的思考过程。其参数总量达到2950亿个,激活参数为210亿,并能支持长达256K的内容上下文处理。从测试结果来看,Hy3 preview在复杂推理、指令执行以及代码生成等方面的性能得

腾讯近日发布并开源了新一代大语言模型混元Hy3 preview,填补了4月在AI领域的关键空白。作为混元3.0的早期版本,这款混合专家模型结合了快慢思考模式,拥有总计295B个参数和21B个激活参数,并能支持长达256K的上下文长度。据腾讯介绍,这是迄今为止最智能的混元模型,在复杂推理、指令遵循、代码处理及智能体功能等方面实现了显著提升。上月,腾讯在其2025年度业绩公告中首次提及“混元3.0”,

“以图思量”的方法,即通过工具调用或代码生成等方式,在思考过程中引入辅助图像(如裁剪、标定、作辅助线等),已成为增强多模态大语言模型视觉推理能力的重要手段。这类方案虽然效果显著,但也带来了对外部工具的依赖性,导致了几个局限。训练和推断复杂度高:在训练过程中,模型需要额外学习各种工具及函数接口的使用方式,增加了训练难度;同时,在多轮交互式推理中也延长了推断延迟时间。可操作类型受限:受制于可用工具种类

新智元报道大语言模型的安全机制看似稳固,实则仅在表面构建了一个「安全区」。这些模型的预训练过程中内化了有害的知识,以一种隐蔽的方式潜藏于其深处。当遇到与训练数据不一致的新输入时,只需简单的自然语言提示就能激活潜在风险,导致模型生成具有危害性的建议。研究发现,在26个主流模型中,有22个完全失效,这揭示出当前的对齐方法存在根本性缺陷。真正的安全性需要从预训练阶段开始,重塑知识结构,实现内在伦理治理。

根据美国医学会旗下的期刊 JAMA Network Open 的最新报道,当前业界主流的大型语言模型在临床推理方面依然存在显著不足,尤其是在早期鉴别诊断阶段,错误率普遍超过 80%。论文研究团队使用了包含 29 个标准化案例的数据集来评估包括 GPT-5、Claude 4.5 Opus、Gemini 3 和 Grok 4 在内的二十一个主流大模型。这些模型在模拟的完整医疗决策流程中,涵盖了鉴别诊断