搜索: "模型评测"

共找到 3 篇相关文章

一家垂类 AI 创企的自救:当通用模型开始吃掉一切

一家垂类 AI 创企的自救:当通用模型开始吃掉一切

智能开始非线性增长,AI 企业的底层逻辑正被改写。作者|徐珊90%,这是投资人给出 2026 年 AI 初创企业创业失败的概率。4 月,由 a16z 领投、手握 3300 万美元种子轮融资的 AI 模型评测平台 Yupp 突然宣布关停,曾集 Google 首席科学家 Jeff Dean 、 Twitter 联合创始人 Biz Stone 等多位硅谷大佬的背书,平台上线不到一年便吸引了 130 万用

科技2 阅读
从现实出发评估具身智能:EAIDC启动“实景测试”之旅|甲子光年

从现实出发评估具身智能:EAIDC启动“实景测试”之旅|甲子光年

EAIDC助力具身智能从技术演示迈向工程落地。作者|拾月如果说具身智能的浪潮由AI带动,那其发展脉络,也在不可避免地沿着AI的既有范式展开。尤其是在模型评测上,这种惯性已经十分明显。过去一段时间,具身模型的能力验证,很大程度上延续了大语言模型的路径——在虚拟环境中进行评测,在标准化任务中进行横向对比。但问题也正在这里逐渐显现。仿真环境可以加速迭代,却难以还原真实世界的复杂性。sim2real的GA

科技2 阅读
谷歌深夜推出Nano Banana 2,单价不足五毛,虽无革命性突破却物超所值

谷歌深夜推出Nano Banana 2,单价不足五毛,虽无革命性突破却物超所值

谷歌于2月26日深夜正式推出了Nano Banana 2,其最大的特点就是价格亲民。它在确保生成图像的质量不受影响的同时,将单张图片的成本削减了一半,并且能够提供快速的出图速度和专业级别的画质效果。根据AI模型评测平台Arena.ai发布的榜单显示,Nano Banana 2以1279分的成绩超越了GPT-Image-1.5以及自家的上一代产品Nano Banana Pro;在单张图片编辑方面获得

科技10 阅读