搜索: "模型评估"

共找到 4 篇相关文章

国产世界模型夺冠，领先谷歌、英伟达等企业继续领跑全球

机器之心发布最近，全球权威的具身世界模型评估平台 WorldArena 更新了最新的排名榜单。流形空间团队研发的世界模型 Worldscape 0.2 凭借其在遵守物理法则和多源交互理解上的显著进步，在本次评比中取得了全球第一的成绩。这一成果不仅展示了国产世界模型在生成复杂动态场景以及具身控制方面的高精度、强泛化及物理真实性，还吸引了包括英伟达、谷歌在内的国际巨头以及国内的星动纪元、极佳视界等公司

科技2026/4/281 阅读

DoorDash推出有偿兼职项目助配送员增收，同时推进自家AI技术发展

据报道，美国最大的外卖平台 DoorDash 日前上线了一项名为“Tasks”的新服务，允许配送员在等待订单或空闲时段完成一些简单的任务，以此赚取额外收入。该平台提供的任务包括拍摄餐厅菜品的照片和录制非英语的自然对话视频，这些内容将被用于训练人工智能和机器人模型。DoorDash 表示，这些数据不仅会用于自家研发的人工智能模型评估，还会提供给零售、保险、酒店和科技行业的合作伙伴，用于他们的模型测试

科技2026/3/202 阅读

CMU团队提出新算法：行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

吴嘉赟博士就读于卡内基梅隆大学（CMU）机器学习系，专注于大语言模型评估和后训练技术的研究。大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法，旨在解决这一难题。该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。经过特定训练后，一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。图1展示了模型回答数学问题时置信度标注的实例。每一

科技2026/3/133 阅读

北京航空航天大学发布Code2Bench：推动代码大模型评估体系革新，终结单纯刷分现象

在评估大语言模型（LLM）生成代码的能力时，一个日益凸显的问题浮现出来：当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时，我们究竟是在衡量其真实的泛化推理能力，还是仅仅检验它们对训练数据的记忆力？目前的代码基准正面临两大核心挑战：一是数据污染的风险，二是测试严谨性的不足。前者可能使评测退化为「开卷考试」，而后者常常导致一

科技2026/2/2532 阅读