搜索: "模型评测"

共找到 3 篇相关文章

一家垂类 AI 创企的自救：当通用模型开始吃掉一切

智能开始非线性增长，AI 企业的底层逻辑正被改写。作者｜徐珊90%，这是投资人给出 2026 年 AI 初创企业创业失败的概率。4 月，由 a16z 领投、手握 3300 万美元种子轮融资的 AI 模型评测平台 Yupp 突然宣布关停，曾集 Google 首席科学家 Jeff Dean 、 Twitter 联合创始人 Biz Stone 等多位硅谷大佬的背书，平台上线不到一年便吸引了 130 万用

科技2026/5/242 阅读

从现实出发评估具身智能：EAIDC启动“实景测试”之旅｜甲子光年

EAIDC助力具身智能从技术演示迈向工程落地。作者｜拾月如果说具身智能的浪潮由AI带动，那其发展脉络，也在不可避免地沿着AI的既有范式展开。尤其是在模型评测上，这种惯性已经十分明显。过去一段时间，具身模型的能力验证，很大程度上延续了大语言模型的路径——在虚拟环境中进行评测，在标准化任务中进行横向对比。但问题也正在这里逐渐显现。仿真环境可以加速迭代，却难以还原真实世界的复杂性。sim2real的GA

科技2026/4/22 阅读

谷歌深夜推出Nano Banana 2，单价不足五毛，虽无革命性突破却物超所值

谷歌于2月26日深夜正式推出了Nano Banana 2，其最大的特点就是价格亲民。它在确保生成图像的质量不受影响的同时，将单张图片的成本削减了一半，并且能够提供快速的出图速度和专业级别的画质效果。根据AI模型评测平台Arena.ai发布的榜单显示，Nano Banana 2以1279分的成绩超越了GPT-Image-1.5以及自家的上一代产品Nano Banana Pro；在单张图片编辑方面获得

科技2026/2/2710 阅读