搜索: "模型评估"

共找到 3 篇相关文章

DoorDash推出有偿兼职项目助配送员增收,同时推进自家AI技术发展

DoorDash推出有偿兼职项目助配送员增收,同时推进自家AI技术发展

据报道,美国最大的外卖平台 DoorDash 日前上线了一项名为“Tasks”的新服务,允许配送员在等待订单或空闲时段完成一些简单的任务,以此赚取额外收入。该平台提供的任务包括拍摄餐厅菜品的照片和录制非英语的自然对话视频,这些内容将被用于训练人工智能和机器人模型。DoorDash 表示,这些数据不仅会用于自家研发的人工智能模型评估,还会提供给零售、保险、酒店和科技行业的合作伙伴,用于他们的模型测试

科技1 阅读
CMU团队提出新算法:行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

CMU团队提出新算法:行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

吴嘉赟博士就读于卡内基梅隆大学(CMU)机器学习系,专注于大语言模型评估和后训练技术的研究。大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法,旨在解决这一难题。该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。经过特定训练后,一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。图1展示了模型回答数学问题时置信度标注的实例。每一

科技1 阅读
北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

北京航空航天大学发布Code2Bench:推动代码大模型评估体系革新,终结单纯刷分现象

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一

科技15 阅读