搜索: "编程能力"

共找到 13 篇相关文章

马斯克大招来了:Grok Build编程智能体泄露 对标Cluade Code

马斯克大招来了:Grok Build编程智能体泄露 对标Cluade Code

快科技5月10日消息,目前在AI领域占据优势的主要是美国御三家的AI大模型,马斯克的xAI在性能上已经落后了,现在已经被收编到SpaceXAI,不过马斯克准备的大招提前泄露了。当前的AI大模型最有前途和钱途的领域就是AI编程,马斯克之前也表示会在6月份发布新的大模型,要在编程能力上超越当前的王者Calude。马斯克暗示的这个新玩意应该就是日前泄露的全平台桌面代码工具 Grok Build,Grok

科技2 阅读
Qwen3.6-27B实战评测:四分钟打造跑酷游戏,验证码破解精度逾九成

Qwen3.6-27B实战评测:四分钟打造跑酷游戏,验证码破解精度逾九成

智东西编译 杨京丽编辑 陈骏达近日,阿里通义千问团队发布了Qwen3.6-27B的开源版本——这是一个具有270亿参数的大规模稠密多模态模型,并支持思考与非思考模式。相较于先前推出的Qwen3.5-397B-A17B,新的Qwen3.6-27B虽然在参数量上仅为前者的十分之一,却在编程性能等多个关键指标上实现了超越。其不仅显著提升了编程能力,在文本和多模态推理方面也表现出色。与同级别的Ge

科技29 阅读
Qwen3.6-27B模型全面开放源代码

Qwen3.6-27B模型全面开放源代码

昨日夜间,千问3.6系列的最新版本Qwen3.6-27B正式对外开放源代码。据官方披露,这款模型凭借其庞大的参数规模,在核心编程能力评估中表现出色,与拥有千亿级参数量级别的模型不相上下。在多项权威基准测试如SWE-bench、Terminal-Bench 2.0、SkillsBench、QwenWebBench及NL2Repo等真实世界智能体编程技能评价体系中,该模型均取得了卓越的成绩。目前,开源

科技2 阅读
阿里推出Qwen系列最新旗舰模型3.6-Max预览版:增强智能体编程功能

阿里推出Qwen系列最新旗舰模型3.6-Max预览版:增强智能体编程功能

4月20日,阿里巴巴宣布推出Qwen3.6-Max-Preview的早期版本。这款模型属于Qwen系列的新一代旗舰产品,并且可以在Qwen Studio中与用户进行互动对话。此外,该模型即将通过阿里云百炼API以qwen3.6-max-preview的形式提供服务。此次发布的预览版在世界知识掌握和指令执行方面表现出色,同时智能体编程能力也有了显著提升,在多项基准测试中的表现尤为突出。作为一款正在开

科技7 阅读
伯克利研发出专为作弊设计的AI,SWE-bench满分且无任何Bug修正

伯克利研发出专为作弊设计的AI,SWE-bench满分且无任何Bug修正

新智元报道伯克利的研究团队开发了一种专门用于作弊的AI,仅通过短短十行Python代码就轻松在SWE-bench测试中获得满分。最近一周内发生的事件使整个AI评测领域陷入了信任危机。SWE-bench作为衡量人工智能编程能力的重要指标,在各大模型发布时和投资估值阶段被广泛引用。然而,伯克利的团队发现,只需一个名为conftest.py的小文件就能绕过这一测试。除了SWE-bench外,伯克利RDI

科技4 阅读
伯克利研发出无BUG完美评分的作弊专用AI系统

伯克利研发出无BUG完美评分的作弊专用AI系统

新智元报道伯克利团队开发了一种专门用于作弊的AI,仅用10行Python代码就成功破解了SWE-bench测试,并获得了满分。近期,人工智能评测领域经历了一场信任危机。SWE-bench是公认的衡量AI编程能力的标准工具,在各大模型发布会和投资评估中占据重要地位。然而,伯克利的研究团队指出,一个名为conftest.py的文件就能让SWE-bench失效。除了SWE-bench之外,伯克利RDI小

科技4 阅读
AI巨头Claude Opus4.7遭质疑陷入负面评价漩涡国内外一片哗然

AI巨头Claude Opus4.7遭质疑陷入负面评价漩涡国内外一片哗然

昨晚,知名人工智能公司Anthropic发布了Claude Opus 4.7版本,这款大模型在编程领域被广泛认为是市场上最强大的工具之一,许多开发者不惜重金也要使用它。据官方透露,此次更新显著增强了Opus 4.7的编程能力,特别是在处理复杂任务方面有明显进步。此外,其视觉识别和审美水平也有所提升,指令执行更加严格,并且在记忆能力和自我验证机制上也有改进。在性能测试中,SWE-Bench的成绩显示

科技1 阅读
Qwen3.6开源版本面世!编程与视觉能力双双升级,支持OpenClaw

Qwen3.6开源版本面世!编程与视觉能力双双升级,支持OpenClaw

智东西作者 李水青编辑 心缘昨晚,阿里通义千问团队宣布开源了混合专家(MoE)模型Qwen3.6-35B-A3B,在此前发布的Qwen3.6-Plus之后。这一新模型拥有350亿的总参数量,激活参数仅为30亿。它以其轻量化高效和智能体编程能力著称,并在多模态感知与推理方面表现出色,超越了谷歌近期推出的Gemma 4系列和其他阿里内部模型。据官方信息显示,在关键编程基准测试中,Qwen3.6-35B

科技34 阅读
GLM-5.1开源版本领跑业界:自主编程能力突破八小时限制

GLM-5.1开源版本领跑业界:自主编程能力突破八小时限制

据快科技4月10日的消息,在3月底智谱公司发布了GLM-5.1大模型,该模型在编程能力方面的评分达到了45.3分,并声称仅比全球领先的Opus 4.6低2.6分。不久前,GLM-5.1大模型正式向公众开放源代码,受到了开发者的广泛欢迎。最近,权威的人工智能评估平台LMArena(由百万用户参与盲测)更新了Code Arena的专项排名表,显示GLM-5.1在开源模型中位居第一,在全球所有模型中的排

科技2 阅读
GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI智谱GLM-5.1,突然上线!官方公告只有寥寥两句:GLM-5.1现已面向GLM Coding Plan全部用户(Lite/Pro/Max)开放。ModelKey:GLM-5.1别的没再多说,只是默默甩出Coding Evaluation评测结果——在编程能力上相比上一代GLM-5直接飙升近10分。甚至嘛,距全球最强编程模型Claude Opus

科技4 阅读
郭达雅成大厂争夺焦点!DeepSeek核心成员背后的综艺传奇

郭达雅成大厂争夺焦点!DeepSeek核心成员背后的综艺传奇

最近,量子位公众号 QbitAI 发布了一篇关于DeepSeek公司的报道。该工程师名叫郭达雅,是V2、V3、R1等一系列模型的重要作者。郭达雅在学术领域和竞赛中有着卓越的表现,被誉为“中山大学雷军”。据郭达雅自述,他博士入学后的第三天就完成了毕业所需的论文发表要求。他还在腾讯广告算法大赛中多次夺冠,并在微信大数据挑战赛中获得第一名。郭达雅在真人秀《燃烧吧!天才程序员》中展现了顶尖的编程能力。离职

科技4 阅读
小米VisionGT超跑惊艳登场;DeepSeekV4或将下周发布;宝可梦三十周年纪念公仔热销不断 | 科技早讯

小米VisionGT超跑惊艳登场;DeepSeekV4或将下周发布;宝可梦三十周年纪念公仔热销不断 | 科技早讯

据报道,DeepSeek V4 或将于下周正式发布,该产品将原生支持图片、视频与文本的生成功能。国内知名 AI 大模型企业杭州深度求索(DeepSeek)计划于近期推出其最新旗舰大模型 DeepSeek V4。据悉,这款新模型具有多模态交互、编程能力提升、长文本处理优化及国产算力适配等多项改进。在长文本处理方面,DeepSeek V4 的上下文窗口被扩展至超过 100 万个 Token,是上一代产

科技2 阅读