搜索: "人工智能评估"

共找到 3 篇相关文章

“欢乐马”在Sora停运两周后闪亮登场，国产视频模型凭什么制胜？

3月25日，OpenAI宣布停止其视频模型产品Sora的运营。随后，在短短十三天之后，国产视频模型“欢乐马”HappyHorse迅速推出，并在Artificial Analysis评测平台上以高分位居榜首。据了解，Artificial Analysis是目前全球最权威的人工智能评估平台之一。在其发布的排行榜中，字节跳动的Seedance 2.0、昆仑万维的SkyReels V4以及快手的可灵3.0

科技2026/4/113 阅读

GLM-5.1开源版本领跑业界：自主编程能力突破八小时限制

据快科技4月10日的消息，在3月底智谱公司发布了GLM-5.1大模型，该模型在编程能力方面的评分达到了45.3分，并声称仅比全球领先的Opus 4.6低2.6分。不久前，GLM-5.1大模型正式向公众开放源代码，受到了开发者的广泛欢迎。最近，权威的人工智能评估平台LMArena（由百万用户参与盲测）更新了Code Arena的专项排名表，显示GLM-5.1在开源模型中位居第一，在全球所有模型中的排

科技2026/4/102 阅读

清华发布全球首个人工智能评估标准“约束流形”， Gemini 3仅获33.6分

新智元报道SSI-Bench是首个专注于评估模型在约束流形中空间推理能力的基准，强调真实结构和具体限制条件，通过排序任务来考察模型对三维几何与拓扑关系的理解程度，揭示了当前大模型在处理实际空间问题时严重依赖二维信息的情况，并且其表现远逊于人类。如果将一个在空间理解榜单中得分很高的多模态大型模型直接放置于现实世界环境中，它很可能会在看似简单的任务上遇到困难。

科技2026/2/2529 阅读