搜索: "编程能力"

共找到 13 篇相关文章

马斯克大招来了：Grok Build编程智能体泄露对标Cluade Code

快科技5月10日消息，目前在AI领域占据优势的主要是美国御三家的AI大模型，马斯克的xAI在性能上已经落后了，现在已经被收编到SpaceXAI，不过马斯克准备的大招提前泄露了。当前的AI大模型最有前途和钱途的领域就是AI编程，马斯克之前也表示会在6月份发布新的大模型，要在编程能力上超越当前的王者Calude。马斯克暗示的这个新玩意应该就是日前泄露的全平台桌面代码工具 Grok Build，Grok

科技2026/5/102 阅读

Qwen3.6-27B实战评测：四分钟打造跑酷游戏，验证码破解精度逾九成

智东西编译杨京丽编辑陈骏达近日，阿里通义千问团队发布了Qwen3.6-27B的开源版本——这是一个具有270亿参数的大规模稠密多模态模型，并支持思考与非思考模式。相较于先前推出的Qwen3.5-397B-A17B，新的Qwen3.6-27B虽然在参数量上仅为前者的十分之一，却在编程性能等多个关键指标上实现了超越。其不仅显著提升了编程能力，在文本和多模态推理方面也表现出色。与同级别的Ge

科技2026/4/2429 阅读

Qwen3.6-27B模型全面开放源代码

昨日夜间，千问3.6系列的最新版本Qwen3.6-27B正式对外开放源代码。据官方披露，这款模型凭借其庞大的参数规模，在核心编程能力评估中表现出色，与拥有千亿级参数量级别的模型不相上下。在多项权威基准测试如SWE-bench、Terminal-Bench 2.0、SkillsBench、QwenWebBench及NL2Repo等真实世界智能体编程技能评价体系中，该模型均取得了卓越的成绩。目前，开源

科技2026/4/242 阅读

阿里推出Qwen系列最新旗舰模型3.6-Max预览版：增强智能体编程功能

4月20日，阿里巴巴宣布推出Qwen3.6-Max-Preview的早期版本。这款模型属于Qwen系列的新一代旗舰产品，并且可以在Qwen Studio中与用户进行互动对话。此外，该模型即将通过阿里云百炼API以qwen3.6-max-preview的形式提供服务。此次发布的预览版在世界知识掌握和指令执行方面表现出色，同时智能体编程能力也有了显著提升，在多项基准测试中的表现尤为突出。作为一款正在开

科技2026/4/207 阅读

伯克利研发出专为作弊设计的AI，SWE-bench满分且无任何Bug修正

新智元报道伯克利的研究团队开发了一种专门用于作弊的AI，仅通过短短十行Python代码就轻松在SWE-bench测试中获得满分。最近一周内发生的事件使整个AI评测领域陷入了信任危机。SWE-bench作为衡量人工智能编程能力的重要指标，在各大模型发布时和投资估值阶段被广泛引用。然而，伯克利的团队发现，只需一个名为conftest.py的小文件就能绕过这一测试。除了SWE-bench外，伯克利RDI

科技2026/4/204 阅读

伯克利研发出无BUG完美评分的作弊专用AI系统

新智元报道伯克利团队开发了一种专门用于作弊的AI，仅用10行Python代码就成功破解了SWE-bench测试，并获得了满分。近期，人工智能评测领域经历了一场信任危机。SWE-bench是公认的衡量AI编程能力的标准工具，在各大模型发布会和投资评估中占据重要地位。然而，伯克利的研究团队指出，一个名为conftest.py的文件就能让SWE-bench失效。除了SWE-bench之外，伯克利RDI小

科技2026/4/194 阅读

AI巨头Claude Opus4.7遭质疑陷入负面评价漩涡国内外一片哗然

昨晚，知名人工智能公司Anthropic发布了Claude Opus 4.7版本，这款大模型在编程领域被广泛认为是市场上最强大的工具之一，许多开发者不惜重金也要使用它。据官方透露，此次更新显著增强了Opus 4.7的编程能力，特别是在处理复杂任务方面有明显进步。此外，其视觉识别和审美水平也有所提升，指令执行更加严格，并且在记忆能力和自我验证机制上也有改进。在性能测试中，SWE-Bench的成绩显示

科技2026/4/171 阅读

Qwen3.6开源版本面世！编程与视觉能力双双升级，支持OpenClaw

智东西作者李水青编辑心缘昨晚，阿里通义千问团队宣布开源了混合专家（MoE）模型Qwen3.6-35B-A3B，在此前发布的Qwen3.6-Plus之后。这一新模型拥有350亿的总参数量，激活参数仅为30亿。它以其轻量化高效和智能体编程能力著称，并在多模态感知与推理方面表现出色，超越了谷歌近期推出的Gemma 4系列和其他阿里内部模型。据官方信息显示，在关键编程基准测试中，Qwen3.6-35B

科技2026/4/1734 阅读

GLM-5.1开源版本领跑业界：自主编程能力突破八小时限制

据快科技4月10日的消息，在3月底智谱公司发布了GLM-5.1大模型，该模型在编程能力方面的评分达到了45.3分，并声称仅比全球领先的Opus 4.6低2.6分。不久前，GLM-5.1大模型正式向公众开放源代码，受到了开发者的广泛欢迎。最近，权威的人工智能评估平台LMArena（由百万用户参与盲测）更新了Code Arena的专项排名表，显示GLM-5.1在开源模型中位居第一，在全球所有模型中的排

科技2026/4/102 阅读

阿里推出全新编程模型Qwen3.6-Plus，性能媲美Claude，国产大模型冲刺顶级行列

近日，一款名为Qwen 3.6 Plus的新模型正式发布，其强大的编程能力令人瞩目。梦瑶 2026-04-02 15:08:18 量子位

AI2026/4/314 阅读

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

梦瑶发自凹非寺量子位 | 公众号 QbitAI智谱GLM-5.1，突然上线！官方公告只有寥寥两句：GLM-5.1现已面向GLM Coding Plan全部用户(Lite/Pro/Max)开放。ModelKey：GLM-5.1别的没再多说，只是默默甩出Coding Evaluation评测结果——在编程能力上相比上一代GLM-5直接飙升近10分。甚至嘛，距全球最强编程模型Claude Opus

科技2026/3/294 阅读

郭达雅成大厂争夺焦点！DeepSeek核心成员背后的综艺传奇

最近，量子位公众号 QbitAI 发布了一篇关于DeepSeek公司的报道。该工程师名叫郭达雅，是V2、V3、R1等一系列模型的重要作者。郭达雅在学术领域和竞赛中有着卓越的表现，被誉为“中山大学雷军”。据郭达雅自述，他博士入学后的第三天就完成了毕业所需的论文发表要求。他还在腾讯广告算法大赛中多次夺冠，并在微信大数据挑战赛中获得第一名。郭达雅在真人秀《燃烧吧！天才程序员》中展现了顶尖的编程能力。离职

科技2026/3/234 阅读

小米VisionGT超跑惊艳登场；DeepSeekV4或将下周发布；宝可梦三十周年纪念公仔热销不断 | 科技早讯

据报道，DeepSeek V4 或将于下周正式发布，该产品将原生支持图片、视频与文本的生成功能。国内知名 AI 大模型企业杭州深度求索（DeepSeek）计划于近期推出其最新旗舰大模型 DeepSeek V4。据悉，这款新模型具有多模态交互、编程能力提升、长文本处理优化及国产算力适配等多项改进。在长文本处理方面，DeepSeek V4 的上下文窗口被扩展至超过 100 万个 Token，是上一代产

科技2026/3/22 阅读