搜索: "大模型发布"

共找到 3 篇相关文章

蚂蚁万亿参数思考模型来了！实测AIME真题难不倒，会写爽文、规划出行

智东西作者杨京丽编辑李水青智东西5月9日报道，今天，蚂蚁百灵大模型发布Ring-2.6-1T。这是一款面向真实复杂任务场景的万亿级思考模型，目前已上线OpenRouter，并开放限时一周免费体验，后续将正式开源。Ring-2.6-1T加入了可调节的Reasoning Effort机制。开发者可以在high和xhigh两种推理强度之间选择：high面向Agent、Coding、多步工具调

科技2026/5/104 阅读

伯克利研发出专为作弊设计的AI，SWE-bench满分且无任何Bug修正

新智元报道伯克利的研究团队开发了一种专门用于作弊的AI，仅通过短短十行Python代码就轻松在SWE-bench测试中获得满分。最近一周内发生的事件使整个AI评测领域陷入了信任危机。SWE-bench作为衡量人工智能编程能力的重要指标，在各大模型发布时和投资估值阶段被广泛引用。然而，伯克利的团队发现，只需一个名为conftest.py的小文件就能绕过这一测试。除了SWE-bench外，伯克利RDI

科技2026/4/204 阅读

伯克利研发出无BUG完美评分的作弊专用AI系统

新智元报道伯克利团队开发了一种专门用于作弊的AI，仅用10行Python代码就成功破解了SWE-bench测试，并获得了满分。近期，人工智能评测领域经历了一场信任危机。SWE-bench是公认的衡量AI编程能力的标准工具，在各大模型发布会和投资评估中占据重要地位。然而，伯克利的研究团队指出，一个名为conftest.py的文件就能让SWE-bench失效。除了SWE-bench之外，伯克利RDI小

科技2026/4/194 阅读