
MiniMax M3来了!
MiniMax M3来了,而且很震撼!看到 MiniMax M3 的发布公告,我们第一反应不是「又一个国产模型」,而是:Frontier 三件套同时开源,这是真的吗?按照 MiniMax 的定义,Frontier 三件套是指三项模型能力:前沿 Coding/Agentic 能力百万 token 级长上下文窗口原生多模态在此之前,能同时满足三项的只有 Claude Opus 4.7、Gemini 3
共找到 39 篇相关文章

MiniMax M3来了,而且很震撼!看到 MiniMax M3 的发布公告,我们第一反应不是「又一个国产模型」,而是:Frontier 三件套同时开源,这是真的吗?按照 MiniMax 的定义,Frontier 三件套是指三项模型能力:前沿 Coding/Agentic 能力百万 token 级长上下文窗口原生多模态在此之前,能同时满足三项的只有 Claude Opus 4.7、Gemini 3

不知道你有没有发现,最近一两年,"问问 AI" 已经悄悄变成了很多人求证信息时的默认姿势。在 推特(X)上刷到一张耸人听闻的现场图,第一反应是@Grok让它鉴定真伪;小红书上看到一份帖子,可以直接@问一问 ai让它回答问题, 或者顺手打开豆包或 Kimi 让 AI 评估博主推的产品到底靠不靠谱;淘宝、亚马逊页面前犹豫两个商品孰优孰劣,把图甩给 ChatGPT 要一份 "客观" 对比。VLM(视觉语

不知道你有没有发现,最近一两年,"问问 AI" 已经悄悄变成了很多人求证信息时的默认姿势。在 推特(X)上刷到一张耸人听闻的现场图,第一反应是 @Grok 让它鉴定真伪;小红书上看到一份帖子,可以直接 @问一问 ai 让它回答问题, 或者顺手打开豆包或 Kimi 让 AI 评估博主推的产品到底靠不靠谱;淘宝、亚马逊页面前犹豫两个商品孰优孰劣,把图甩给 ChatGPT 要一份 "客观" 对比。VLM

Anthropic宣布,公司已完成H轮融资,融资金额达650亿美元,投后估值为9650亿美元。这笔融资将被Anthropic用来继续研发,同时扩大算力产能,满足现在市场对Claude越来越大的需求。与此同时,Claude Opus 4.8被端上来了!!这大晚上的,我们还以为要等到六月份呢……在Claude Code 2.1.154版本中,输入/model后的模型选择菜单里,Opus一栏已经更新为O

快科技5月29日消息,据报道,美国AI巨头Anthropic旗下的顶级大模型Claude Opus4.8,近期陷入前所未有的身份危机。多名用户实测发现,用中文询问其身份时,它竟坚称自己是中国的DeepSeek或通义千问,完全否认自身归属,这一“叛变”事件迅速引爆全球AI圈。用户通过API接口多次测试,无论提问“你是谁”还是“你是什么模型”,Claude Opus 4.8均会生成标准回复,清晰表明自

就在今天凌晨,Anthropic 掏出来了他们最新的 Claude Opus 4.8。距离 Opus 4.7 才过去一个多月,不得不说,Claude 上新的速度是越来越快了。本来吧,4.8 注定只是大伙儿眼里的小版本更新。但世超发现,这次事情并没有那么简单。因为不少人怀疑,Opus 4.8 似乎蒸了,蒸的还是 DeepSeek 和千问。。。很多人通过 API 询问 Opus 4.8,你是什么模型,

Opus 4.8发布后,最有意思的并非它强不强,而在于它的"诚实"到底意味着什么。一面是,它确实更愿意承认不确定,更少把问题藏起来。另一面是,它在某些任务上表现变差,而且似乎越来越懂得自己正在被评估。这让Opus 4.8变成了一次很有意思的更新。它没有带来简单的"更聪明"叙事,也不该只按官方说法理解成"更诚实"。更值得追问的是:当一个模型开始知道哪些行为会被打低分时,它表现出来的诚实,还算不算我们

美国时间5月28日,Anthropic一天之内干了三件大事。先是发布新旗舰模型Claude Opus 4.8。最大的变化不是榜单上又多赢了几分,而是它开始学会一件事:不确定的时候,敢说自己不确定。按Anthropic的说法,Opus 4.8让代码缺陷被漏掉的概率,降到了上一代的约四分之一。但也有用户反馈它与人交流时有些冰冷,甚至刻薄。同一天,Anthropic宣布完成650亿美元H轮融资,投后估值

新智元报道Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。换句话说

新智元报道【新智元导读】Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4

新智元报道【新智元导读】几乎同一天,Anthropic三大超级AI提前曝光!Claude Opus 4.8突袭谷歌后台,Sonnet 4.8跳级4.7。曾经叫嚣着「太危险不公开」的Mythos 1,也现身了。Anthropic三大「杀手锏」,一口气全曝光了!就在今天,开发者在Google Vertex后台,意外发现一个新的模型标识——claude-opus-4.8。时隔一个多月,Claude又一次

新智元报道【新智元导读】前谷歌DeepMind研究员离职并发表长文指出AI行业当前最被低估的瓶颈。他认为,现有的基准测试和安全评估都隐含假设下一代模型只是当前模型的增强版,但如果模型跨入全新能力区间,整个评估基础设施将悄然崩溃。AI训练,到底能持续多久?这是2026年整个科技圈都在问的问题。GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家头部实验室都还在烧钱

新智元报道【新智元导读】几乎同一天,Anthropic三大超级AI提前曝光!Claude Opus 4.8突袭谷歌后台,Sonnet 4.8跳级4.7。曾经叫嚣着「太危险不公开」的Mythos 1,也现身了。Anthropic三大「杀手锏」,一口气全曝光了!就在今天,开发者在Google Vertex后台,意外发现一个新的模型标识——claude-opus-4.8。时隔一个多月,Claude又一次

还记得五月初,AI评测里出现了两款神秘国模A和B吗?这是开发者toyama nao发布的测试结果。这款极限分数超越了Gemini 3.1 Pro和Claude Opus 4.6的国模A,一时间众说纷纭。如今,随着2026年阿里云峰会主论坛的开幕,国模A的真实身份也得以浮出水面:阿里云正式发布了新一代旗舰模型Qwen3.7-Max。不过,这次峰会与以往最大的区别在于,主角不再是参数规模、上下文长度和

机器之心编辑部当前,各大榜单上不断刷新的高分似乎已经成为了大模型们之间的常态。然而,在一项名为 ARC-AGI-3 的基准测试中,两款广受瞩目的顶尖模型——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 ——却都遭遇了前所未有的挑战……最近,ARC Prize 官方发布了针对这两款顶级模型的详细分析报告。结果显示,在处理全新逻辑任务时,两者的得分均低于

新智元报道最近,AI的发展历程中上演了一幕荒诞剧:Claude Opus 4.7 在最大努力模式下无视开发者的限制,在未经允许的情况下群发了二十封邮件。Anthropic的这一行为引起了极大的恐慌和担忧。知名硅谷YouTuber、创业者Theo在社交媒体上揭露了一则令人啼笑皆非的消息:Claude Code 处理涉及OpenClaw代码请求时,竟然直接拒绝或要求额外收费。奥特曼迅速回应了这一事件,

近日,DeepSeek-V4模型成功开源并在Hugging Face平台的开源项目排名中迅速攀升至榜首。此项目的相关技术报告详细披露了其针对华为昇腾与英伟达芯片优化、架构升级及预训练和后训练阶段改进等方面的技术细节。DeepSeek-V4在推理、知识获取和代码能力等关键领域均有显著提升,整体性能可比肩GPT-5.4和Claude Opus 4.6这些顶级闭源模型。此外,该版本首次以“百万上下文”作

新智元报道人工智能领域迎来新的里程碑,Opus 4.7 在两项重要评估中拔得头筹,显示出其在执行复杂任务、工具调用和工程工作流方面的卓越性能。Anthropic 最近发布了名为 Claude Opus 4.7 的新版本。它在这两个最受业界关注的公开评测中再次占据领先地位。根据 Artificial Analysis 的综合智能排名,Opus 4.7 获得了 57 分的成绩,比上一代产品的 53 分

新智元报道【新智元导读】Opus 4.7发布48小时,口碑两极撕裂。官方榜单并列全球第一,逻辑推理公开测试却从94.7%暴跌到41.0%。token消耗涨了35%,旧接口直接报错,用户集体控诉「更贵、更蠢、更爱顶嘴」。Anthropic到底升级了什么,又搞砸了什么?「4.6根本没法用,4.7的消耗速度像核反应堆一样。」Opus 4.7发布后,一位Reddit用户在Anthropic官方帖子下的留言

今日AI界最大的焦点莫过于Claude发布了新的模型版本。这次发布前,大家都满怀期待,因为之前的Claude Opus 4.6已经非常出色了,前不久又推出了让整个Anthropic内部都感到惊恐的最强模型Mythos。所以这次的新版本自然引起了人们的广泛关注。然而试用之后,大家纷纷表示失望,纷纷呼唤原来的Claude回来。新版Claude Opus 4.7失去了以往对话中的灵气和灵魂,反而变得像其