放弃了 Llama 这个出道即巅峰的项目,Meta 决定不再走弯路,投入数百亿美元创建了一个超级智能实验室。
在 Meta 调整其 AI 策略之后,他们的第一款通用模型 Muse Spark 经过一年的研发,终于问世了。
世超在第一时间尝试后发现,曾经的 Meta 只是跟跑者之一,在资金的支持下,如今可能已经成为了行业领导者。
官方发布的跑分数据显示,Muse Spark 在多模态、文字推理、健康等多个领域与 Opus 4.6 和 Gemini 3.1 Pro 等顶尖模型相比各有优势。

不过,在健康领域的测试中,Muse Spark 的表现有些与众不同,因为这种类型的评估标准并不常见。
预计即将推出的“沉思模式”下,Muse Spark 在 Humanity's Last Exam 这样的难题上的推理能力与 Gemini 3.1 Deep Think 和 GPT 5.4 Pro 相当。

然而,并非所有人都看好 Muse Spark 的前景。因为官方博客披露的信息有限且没有发布 API,存在造假的可能性。
因此,为了验证其真实实力,世超对 Muse Spark 进行了与 Gemini 3.1 Pro 和 Opus 4.6 的简单对比测试。
目前,Muse Spark 提供 Instant 和 Thinking 两种模式,前者用于快速回答问题,后者则具备一定的推理能力。这次主要考察的是 Thinking 模式的表现。

在多模态应用方面,世超向 Muse Spark 展示了一张超市货架图,并要求它推荐适合减脂期的零食。
从测试结果来看,Muse Spark 对图像的理解能力和细节捕捉能力都很强,能够给出详细的回答和建议,具有较高的可信度。

然而,如果仅限于此,所有模型都能做到。真正的考验在于接下来的一些高难度任务。
官方博客中提到一个案例:给定一张图片,并提示将其变为数独游戏的网页版,Muse Spark 能够完成这个转换。

我们也进行了类似测试,发现 Muse Spark 的表现令人满意,不仅界面流畅且答案准确无误。

与其他模型相比,Muse Spark 并不只是识别图像那么简单。它能够精准地复制图片并推断出背后的逻辑操作。
更进一步的挑战中,世超给 Muse Spark 展示了一张 Windows 11 计算器的截图,并要求将其转变为一个可使用的计算器应用。

在此对比下,GPT 5.4 Thinking 界面虽类似但有乱码问题;Gemini 3.1 pro 完全忽略了原图;只有 Opus 4.6 维持了高水准的转换能力。

即便是在不擅长代码实现方面,Muse Spark 的表现也令人惊喜。
在前端网页设计上,Muse Spark 展现了一流的设计审美和功能完整性,尽管部分细节存在杜撰现象,但整体效果不错。
与 Opus 4.6 相比,Muse Spark 稍逊一筹,不过相比其他模型则明显占优。

在算法代码方面,我们选择了几道 leetcode 的难题进行了测试。

最令人惊讶的是在第 65 号题上,所有模型均通过了测试,但 Muse Spark 提供的解决方案更为优雅,在时间和空间复杂度上有优势。
比如 Opus 4.6 和 GPT 在时间复杂度上的表现仅达到 50%,而 Gemini 3.1 pro 的空间复杂度仅优于 13% 的提交答案。
对于第 10 号题,Muse Spark 和 Opus 同样给出了最优解;GPT 虽然通过测试但解决方案不够理想;Gemini 则直接失败了。

经过一系列的测试,Muse Spark 的表现大大超出了世超的预期,在性能上与 Opus 相互竞争,而 GPT 和 Gemini 显得有些逊色。

连 Meta 也能有这么出色的表现吗?这或许意味着大模型领域即将迎来新的格局变化。
在简单的文字测试中,Muse Spark 的思路清晰,Instant 模式下几个经典逻辑问题的回答准确且迅速。
而在这一环节中,Gemini 和 Opus 也表现得非常稳定,相比之下 GPT 则稍显逊色。

至于健康领域的测试,所有模型的表现都较为普通,Muse Spark 各项指标均达标。

经过一系列的试用之后,世超认为大模型行业的三足鼎立格局将被打破。

目前 Meta 发布的是一个较轻量级的版本,未来有可能会进行开源。
官方表示在 Muse Spark 的基础上将继续加大技术投入,从研究到基础设施全面升级。
在模型训练的技术细节上,Meta 强调了预训练、强化学习以及测试时推理的重要性。
前两者是每个大模型必备的过程,但 Meta 由于拥有 Instagram 和 Facebook 等平台的数据优势,在这方面占有显著的领先地位。

至于测试时推理阶段,Meta 尝试让模型在回答前思考一段时间,并优化了长推理的问题。
这一点与 GPT 的表现形成鲜明对比。GPT 经常出现过长的回答导致信息密度低下的情况。
Meta 选择对过长的思考进行惩罚,通过压缩推理过程中的 token 数量来提高模型回答的准确性。
回顾整个发展历程,Meta 虽然经历多次失败但从未退出竞争,并最终再次跻身行业前沿,这值得我们关注。

相比之下,Claude Mythos Preview 的实力已跨入另一个维度。相比之下,Muse Spark 则像是补齐了之前缺失的课程内容。
因此,世超期待 Meta 在这场模型竞赛中扮演更重要的角色,让小扎有机会坐上他的办公椅并继续前行。
所以,世超只能说,期待 Meta 加入这场模型大乱斗,让小扎也有机会,瘫坐在小小的办公椅上吧。
