
揭秘Mac mini:不仅仅是AI养虾场,M4芯片性能惊人,Claude再创佳绩
新智元报道近期的一项研究揭示了苹果M4神经引擎的真实性能,包括其在大语言模型中的潜力。这项工作由Ronald Mannak和Maderix共同完成。Maderix通过逆向工程的方式深入挖掘了苹果的M4神经引擎(ANE),发现其真正能力远超官方描述。该研究证明,在正确的网络结构下,ANE能够在2.8W功耗条件下实现19 TFLOPS FP16性能。这标志着苹果硬件在能效方面具有显著优势。研究中还详细
共找到 98 篇相关文章

新智元报道近期的一项研究揭示了苹果M4神经引擎的真实性能,包括其在大语言模型中的潜力。这项工作由Ronald Mannak和Maderix共同完成。Maderix通过逆向工程的方式深入挖掘了苹果的M4神经引擎(ANE),发现其真正能力远超官方描述。该研究证明,在正确的网络结构下,ANE能够在2.8W功耗条件下实现19 TFLOPS FP16性能。这标志着苹果硬件在能效方面具有显著优势。研究中还详细

我是李国豪,目前专注于大语言模型和代理研究领域。本科毕业于哈尔滨工业大学电子信息工程专业,并在沙特阿卜杜拉国王科技大学(KAUST)攻读博士学位。我的学术兴趣从强化学习延伸到图神经网络,最终聚焦于大语言模型及其应用。作者|王艺我的兴趣演变始于强化学习,但很快发现它难以解决跨领域问题的泛化性挑战。因此,我转向探索更通用的表征学习方法,并研究图神经网络(GNN)。然而,在ChatGPT出现之后,我发现

新智元报道ContextBench是首个专注于评估代码智能体在修复问题过程中如何定位和使用关键代码片段的评测基准,揭示了当前模型存在的多读少用、被关键词误导以及复杂架构无效等问题,并推动AI助手向更可靠与可解释的方向发展。自动化软件工程领域中,SWE-bench及其衍生版本(如SWE-bench Pro和Multi-SWE-bench)已成为衡量大型语言模型代码能力的标准基准,这些评测基准促进了代

在过去一年里,人们普遍认为大模型意味着更强的质量,但速度必然更慢。然而,袁粒课题组基于UniWorld-OSP2.0训练出了名为OSP-RealTime 14B的模型,在单块昇腾Atlas A3系列产品上实现了每秒生成十帧的实时文生视频效果,成为首个接近“交互式视频生成”的开源级扩散架构。UniWorld-OSP2.0通过FlashI2V解决了物理真实感问题,并利用冻结状态下的预训练视觉语言模型(

组织的构建正在经历由分布式代理网络推动的变化。作者|连冉自从水滴公司在2023年底推出了首款保险AI代理人以来,该公司已成功探索了将人工智能与保险业务相结合的新途径,并实现了从零开始到初步应用再到更广泛推广的发展阶段。上一年初,水滴明确提出了“全面拥抱AI”的战略愿景,深入研究大型语言模型技术并将其应用于各个业务领域。今年,随着技术基础的升级,公司进一步设定了更高的目标——从单纯使用人工智能工具转

在多模态内容的理解和生成领域,统一的多模型已经显示出显著的效果,但这些成果主要集中在图像处理上。近日,滑铁卢大学与快手可灵团队共同研发出了一种名为 UniVideo 的创新性系统。该系统能够在单一框架下执行视频理解、创建及编辑任务,并且基于一个多模态生成模型构建而成。UniVideo 采用双通道结构设计,将大规模多模态语言模型(MLLM)的指令理解和推理能力与多模态扩散 Transformer(M
在3月4日凌晨,阿里巴巴Qwen团队的技术领导者林俊旸通过社交平台宣布即将离任,并深情地写道:“再见了,我深爱的Qwen。”作为阿里云通义千问项目的先锋人物以及公司最年轻的P10级技术专家之一,他在该项目中发挥了关键作用。林俊旸不仅领导了Qwen大语言模型及其多模态模型系列的研发工作,还负责推动这些模型的开源进程。他本科毕业于北京大学计算机科学系,并在该校外国语学院攻读硕士学位,专业方向为语言学与

新智元报道本文探讨了如何在给定硬件约束条件下使大语言模型达到最优性能的研究成果,并揭示了软硬协同设计的重要性。研究表明,传统的堆算力方法并不足以充分发挥芯片的潜力,优化架构才是关键所在。马赫100自研芯片与星环OS操作系统、MindVLA智能驾驶大模型共同构成了理想汽车完整的技术栈,并通过软硬协同设计实现高效能利用。在传统模式中,开发团队通常需要花费数月时间才能为新硬件找到最优的架构方案。然而,借

美国和以色列针对哈梅内伊的行动引发了关于情报技术神话背后真相的探讨。据悉,人工智能及其算法发挥了重要作用。哈梅内伊面对的是一个全球性的监控与打击网络,其中包括Palantir、Anduril以及先进的大型语言模型Claude等工具。《耶路撒冷邮报》报道指出,将大型语言模型纳入军事行动链标志着现代战争的重大变革。最初用于编写代码和诗歌的工具,现在已成为现代战场上不可或缺的一部分。1关于这一现象,《华

美军近期对伊朗发动袭击时采用了AI大模型“克劳德”。(央视新闻曾报道)《华尔街日报》援引美国《参考消息》称,据匿名消息来源透露,在最近的空袭中,美军使用了由Anthropic公司开发的大语言模型“克劳德”,尽管美国总统特朗普在几天前下令停止与该公司合作。据报导,五角大楼利用人工智能(AI)处理情报、确定目标及模拟不同场景。这表明Anthropic公司的模型已融入美军的决策系统中。此外,在针对委内瑞

最近的研究表明,通过改进模型架构可以显著提升大型语言模型的性能和效率。本文介绍了一项由交通大学团队开发的新技术——JTok-M。JTok-M是一种创新性的方法,它利用token-indexed参数来扩展模型容量,从而提高计算资源的有效利用率。传统的Scaling Law主要关注于两个方面:增加模型参数的数量(N)和使用更多的训练数据(D)。然而,这种方法在实际应用中面临着诸多挑战,如成本高昂、效率

近年来,基于大语言模型的多智能体系统(MAS)在复杂推理任务中得到了广泛应用。传统方法通常让多个独立生成决策的代理通过投票或辩论等方式进行聚合,从而提高算术、常识推断及专业问答等领域的准确率。当test-time compute成为常见的性能提升策略时,一个自然而然的问题随之产生:随着agent数量的增加,MAS是否能够持续增强其能力?直观上来看,这种想法似乎是合理的:类似ensemble或sel

全球首个深度思考的扩散模型诞生! 它摒弃了传统的自回归模式,成为世界上生成速度最快的模型。 对比之下,传统自回归的“打字机式”输出方式(逐个token按顺序生成)就像乌龟一样慢: 实际测试结果显示,在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。 这一速度比GPT-5(mini版)和Claude-4.5(haiku版本)等传统模型快了五倍之多

过去两年间,大型语言模型在推理领域的进步显著。从数学与编程生成到解决复杂的逻辑和科学问题,这些模型不断刷新基准测试的记录。随着“推理模型”概念的兴起,越来越多的研究开始将推理能力视为通向通用人工智能的关键标志。在能力迅速提升的同时,一个更为基础的问题逐渐显现:当模型在执行推理任务时出现错误,这些失误是随机波动还是表明了深层次的设计缺陷?近期发表于 TMLR 的论文《大型语言模型推理失败》对该问题进

目前,RLVR(带有验证奖励的强化学习)已经成为促进大规模语言模型进行有效推理的主要技术路径。然而,这种方法在扩展性方面面临一个主要障碍:需要高质量的标注数据来监督奖励机制。当转向不需要人工标注的数据训练时,“自我奖励” 强化学习方法可能导致模型迅速陷入所谓的 “训练崩溃”。尽管模型看似获取到了越来越多的奖励,实际上它们是在利用自我奖励系统的漏洞进行投机行为,而非真正解决问题获得奖励。什么样的强化

新智元报道近日,美国五角大楼正对 Anthropic 加大压力,要求解除其大型语言模型 Claude 在军事领域的使用限制。会后,该公司发布了新的政策声明。据知情人士透露,在最近的几天里,一场气氛紧张的会议在五角大楼内部举行。会议上,双方代表的是截然对立的利益和立场。美国国防部长皮特·海格塞斯(Pete Hegseth)代表了政府强硬的安全政策态度及监管宽松的趋势。Anthropic 公司的首席执

近年来,基于大模型的文本检索技术取得了显著进展,最新的领先技术(SOTA)中,LLM Embedding Model 的参数量通常超过70亿。虽然相关性搜索性能得到了提升,但部署成本也随之大幅增加。众所周知,LLM Embedding Model 使用对称双塔架构,其中查询端和文档端常常共享同一完整的大型语言模型(LLM)。然而,一个长期被忽视的问题是:在

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一