搜索: "大语言模型"

共找到 29 篇相关文章

揭秘Mac mini:不仅仅是AI养虾场,M4芯片性能惊人,Claude再创佳绩

揭秘Mac mini:不仅仅是AI养虾场,M4芯片性能惊人,Claude再创佳绩

新智元报道近期的一项研究揭示了苹果M4神经引擎的真实性能,包括其在大语言模型中的潜力。这项工作由Ronald Mannak和Maderix共同完成。Maderix通过逆向工程的方式深入挖掘了苹果的M4神经引擎(ANE),发现其真正能力远超官方描述。该研究证明,在正确的网络结构下,ANE能够在2.8W功耗条件下实现19 TFLOPS FP16性能。这标志着苹果硬件在能效方面具有显著优势。研究中还详细

科技12 阅读
李国豪:AI界的创新先锋|甲子光年

李国豪:AI界的创新先锋|甲子光年

我是李国豪,目前专注于大语言模型和代理研究领域。本科毕业于哈尔滨工业大学电子信息工程专业,并在沙特阿卜杜拉国王科技大学(KAUST)攻读博士学位。我的学术兴趣从强化学习延伸到图神经网络,最终聚焦于大语言模型及其应用。作者|王艺我的兴趣演变始于强化学习,但很快发现它难以解决跨领域问题的泛化性挑战。因此,我转向探索更通用的表征学习方法,并研究图神经网络(GNN)。然而,在ChatGPT出现之后,我发现

科技4 阅读

林俊旸宣布辞去阿里Qwen技术负责人职务

在3月4日凌晨,阿里巴巴Qwen团队的技术领导者林俊旸通过社交平台宣布即将离任,并深情地写道:“再见了,我深爱的Qwen。”作为阿里云通义千问项目的先锋人物以及公司最年轻的P10级技术专家之一,他在该项目中发挥了关键作用。林俊旸不仅领导了Qwen大语言模型及其多模态模型系列的研发工作,还负责推动这些模型的开源进程。他本科毕业于北京大学计算机科学系,并在该校外国语学院攻读硕士学位,专业方向为语言学与

科技3 阅读
理想汽车揭秘:无训练直推最强AI算法!端侧Scaling Law革新解读

理想汽车揭秘:无训练直推最强AI算法!端侧Scaling Law革新解读

新智元报道本文探讨了如何在给定硬件约束条件下使大语言模型达到最优性能的研究成果,并揭示了软硬协同设计的重要性。研究表明,传统的堆算力方法并不足以充分发挥芯片的潜力,优化架构才是关键所在。马赫100自研芯片与星环OS操作系统、MindVLA智能驾驶大模型共同构成了理想汽车完整的技术栈,并通过软硬协同设计实现高效能利用。在传统模式中,开发团队通常需要花费数月时间才能为新硬件找到最优的架构方案。然而,借

科技4 阅读
美軍涉嫌在對伊空襲中運用AI技術,同款算法曾參與委內瑞拉行動並遭特朗普政權制裁

美軍涉嫌在對伊空襲中運用AI技術,同款算法曾參與委內瑞拉行動並遭特朗普政權制裁

美军近期对伊朗发动袭击时采用了AI大模型“克劳德”。(央视新闻曾报道)《华尔街日报》援引美国《参考消息》称,据匿名消息来源透露,在最近的空袭中,美军使用了由Anthropic公司开发的大语言模型“克劳德”,尽管美国总统特朗普在几天前下令停止与该公司合作。据报导,五角大楼利用人工智能(AI)处理情报、确定目标及模拟不同场景。这表明Anthropic公司的模型已融入美军的决策系统中。此外,在针对委内瑞

国际1 阅读
过多的AI智能体并不意味着更强:信息冗余限制了大规模语言模型代理的发展

过多的AI智能体并不意味着更强:信息冗余限制了大规模语言模型代理的发展

近年来,基于大语言模型的多智能体系统(MAS)在复杂推理任务中得到了广泛应用。传统方法通常让多个独立生成决策的代理通过投票或辩论等方式进行聚合,从而提高算术、常识推断及专业问答等领域的准确率。当test-time compute成为常见的性能提升策略时,一个自然而然的问题随之产生:随着agent数量的增加,MAS是否能够持续增强其能力?直观上来看,这种想法似乎是合理的:类似ensemble或sel

科技3 阅读
扩散模型引领快速深度学习新潮流 英伟达与微软联手突破每秒千个令牌限制

扩散模型引领快速深度学习新潮流 英伟达与微软联手突破每秒千个令牌限制

全球首个深度思考的扩散模型诞生! 它摒弃了传统的自回归模式,成为世界上生成速度最快的模型。 对比之下,传统自回归的“打字机式”输出方式(逐个token按顺序生成)就像乌龟一样慢: 实际测试结果显示,在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。 这一速度比GPT-5(mini版)和Claude-4.5(haiku版本)等传统模型快了五倍之多

AI11 阅读
大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

大语言模型的推理能力受到质疑:系统性研究揭示结构性失败原因

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

科技10 阅读
北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一

科技15 阅读