Meta AI的背后真相或许超乎想象

作者：世界网2026年4月11日科技1 阅读

放弃了 Llama 这个出道即巅峰的项目，Meta 决定不再走弯路，投入数百亿美元创建了一个超级智能实验室。

在 Meta 调整其 AI 策略之后，他们的第一款通用模型 Muse Spark 经过一年的研发，终于问世了。

世超在第一时间尝试后发现，曾经的 Meta 只是跟跑者之一，在资金的支持下，如今可能已经成为了行业领导者。

官方发布的跑分数据显示，Muse Spark 在多模态、文字推理、健康等多个领域与 Opus 4.6 和 Gemini 3.1 Pro 等顶尖模型相比各有优势。

不过，在健康领域的测试中，Muse Spark 的表现有些与众不同，因为这种类型的评估标准并不常见。

预计即将推出的“沉思模式”下，Muse Spark 在 Humanity's Last Exam 这样的难题上的推理能力与 Gemini 3.1 Deep Think 和 GPT 5.4 Pro 相当。

然而，并非所有人都看好 Muse Spark 的前景。因为官方博客披露的信息有限且没有发布 API，存在造假的可能性。

因此，为了验证其真实实力，世超对 Muse Spark 进行了与 Gemini 3.1 Pro 和 Opus 4.6 的简单对比测试。

目前，Muse Spark 提供 Instant 和 Thinking 两种模式，前者用于快速回答问题，后者则具备一定的推理能力。这次主要考察的是 Thinking 模式的表现。

在多模态应用方面，世超向 Muse Spark 展示了一张超市货架图，并要求它推荐适合减脂期的零食。

从测试结果来看，Muse Spark 对图像的理解能力和细节捕捉能力都很强，能够给出详细的回答和建议，具有较高的可信度。

然而，如果仅限于此，所有模型都能做到。真正的考验在于接下来的一些高难度任务。

官方博客中提到一个案例：给定一张图片，并提示将其变为数独游戏的网页版，Muse Spark 能够完成这个转换。

我们也进行了类似测试，发现 Muse Spark 的表现令人满意，不仅界面流畅且答案准确无误。

与其他模型相比，Muse Spark 并不只是识别图像那么简单。它能够精准地复制图片并推断出背后的逻辑操作。

更进一步的挑战中，世超给 Muse Spark 展示了一张 Windows 11 计算器的截图，并要求将其转变为一个可使用的计算器应用。

在此对比下，GPT 5.4 Thinking 界面虽类似但有乱码问题；Gemini 3.1 pro 完全忽略了原图；只有 Opus 4.6 维持了高水准的转换能力。

即便是在不擅长代码实现方面，Muse Spark 的表现也令人惊喜。

在前端网页设计上，Muse Spark 展现了一流的设计审美和功能完整性，尽管部分细节存在杜撰现象，但整体效果不错。

与 Opus 4.6 相比，Muse Spark 稍逊一筹，不过相比其他模型则明显占优。

在算法代码方面，我们选择了几道 leetcode 的难题进行了测试。

最令人惊讶的是在第 65 号题上，所有模型均通过了测试，但 Muse Spark 提供的解决方案更为优雅，在时间和空间复杂度上有优势。

比如 Opus 4.6 和 GPT 在时间复杂度上的表现仅达到 50%，而 Gemini 3.1 pro 的空间复杂度仅优于 13% 的提交答案。

对于第 10 号题，Muse Spark 和 Opus 同样给出了最优解；GPT 虽然通过测试但解决方案不够理想；Gemini 则直接失败了。

经过一系列的测试，Muse Spark 的表现大大超出了世超的预期，在性能上与 Opus 相互竞争，而 GPT 和 Gemini 显得有些逊色。

连 Meta 也能有这么出色的表现吗？这或许意味着大模型领域即将迎来新的格局变化。

在简单的文字测试中，Muse Spark 的思路清晰，Instant 模式下几个经典逻辑问题的回答准确且迅速。

而在这一环节中，Gemini 和 Opus 也表现得非常稳定，相比之下 GPT 则稍显逊色。

至于健康领域的测试，所有模型的表现都较为普通，Muse Spark 各项指标均达标。

经过一系列的试用之后，世超认为大模型行业的三足鼎立格局将被打破。

目前 Meta 发布的是一个较轻量级的版本，未来有可能会进行开源。

官方表示在 Muse Spark 的基础上将继续加大技术投入，从研究到基础设施全面升级。

在模型训练的技术细节上，Meta 强调了预训练、强化学习以及测试时推理的重要性。

前两者是每个大模型必备的过程，但 Meta 由于拥有 Instagram 和 Facebook 等平台的数据优势，在这方面占有显著的领先地位。

至于测试时推理阶段，Meta 尝试让模型在回答前思考一段时间，并优化了长推理的问题。

这一点与 GPT 的表现形成鲜明对比。GPT 经常出现过长的回答导致信息密度低下的情况。

Meta 选择对过长的思考进行惩罚，通过压缩推理过程中的 token 数量来提高模型回答的准确性。

回顾整个发展历程，Meta 虽然经历多次失败但从未退出竞争，并最终再次跻身行业前沿，这值得我们关注。

相比之下，Claude Mythos Preview 的实力已跨入另一个维度。相比之下，Muse Spark 则像是补齐了之前缺失的课程内容。

因此，世超期待 Meta 在这场模型竞赛中扮演更重要的角色，让小扎有机会坐上他的办公椅并继续前行。

所以，世超只能说，期待 Meta 加入这场模型大乱斗，让小扎也有机会，瘫坐在小小的办公椅上吧。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Meta AI的背后真相或许超乎想象

作者：世界网2026年4月11日科技1 阅读

放弃了 Llama 这个出道即巅峰的项目，Meta 决定不再走弯路，投入数百亿美元创建了一个超级智能实验室。

在 Meta 调整其 AI 策略之后，他们的第一款通用模型 Muse Spark 经过一年的研发，终于问世了。

世超在第一时间尝试后发现，曾经的 Meta 只是跟跑者之一，在资金的支持下，如今可能已经成为了行业领导者。

官方发布的跑分数据显示，Muse Spark 在多模态、文字推理、健康等多个领域与 Opus 4.6 和 Gemini 3.1 Pro 等顶尖模型相比各有优势。

不过，在健康领域的测试中，Muse Spark 的表现有些与众不同，因为这种类型的评估标准并不常见。

预计即将推出的“沉思模式”下，Muse Spark 在 Humanity's Last Exam 这样的难题上的推理能力与 Gemini 3.1 Deep Think 和 GPT 5.4 Pro 相当。

然而，并非所有人都看好 Muse Spark 的前景。因为官方博客披露的信息有限且没有发布 API，存在造假的可能性。

因此，为了验证其真实实力，世超对 Muse Spark 进行了与 Gemini 3.1 Pro 和 Opus 4.6 的简单对比测试。

目前，Muse Spark 提供 Instant 和 Thinking 两种模式，前者用于快速回答问题，后者则具备一定的推理能力。这次主要考察的是 Thinking 模式的表现。

在多模态应用方面，世超向 Muse Spark 展示了一张超市货架图，并要求它推荐适合减脂期的零食。

从测试结果来看，Muse Spark 对图像的理解能力和细节捕捉能力都很强，能够给出详细的回答和建议，具有较高的可信度。

然而，如果仅限于此，所有模型都能做到。真正的考验在于接下来的一些高难度任务。

官方博客中提到一个案例：给定一张图片，并提示将其变为数独游戏的网页版，Muse Spark 能够完成这个转换。

我们也进行了类似测试，发现 Muse Spark 的表现令人满意，不仅界面流畅且答案准确无误。

与其他模型相比，Muse Spark 并不只是识别图像那么简单。它能够精准地复制图片并推断出背后的逻辑操作。

更进一步的挑战中，世超给 Muse Spark 展示了一张 Windows 11 计算器的截图，并要求将其转变为一个可使用的计算器应用。

在此对比下，GPT 5.4 Thinking 界面虽类似但有乱码问题；Gemini 3.1 pro 完全忽略了原图；只有 Opus 4.6 维持了高水准的转换能力。

即便是在不擅长代码实现方面，Muse Spark 的表现也令人惊喜。

在前端网页设计上，Muse Spark 展现了一流的设计审美和功能完整性，尽管部分细节存在杜撰现象，但整体效果不错。

与 Opus 4.6 相比，Muse Spark 稍逊一筹，不过相比其他模型则明显占优。

在算法代码方面，我们选择了几道 leetcode 的难题进行了测试。

最令人惊讶的是在第 65 号题上，所有模型均通过了测试，但 Muse Spark 提供的解决方案更为优雅，在时间和空间复杂度上有优势。

比如 Opus 4.6 和 GPT 在时间复杂度上的表现仅达到 50%，而 Gemini 3.1 pro 的空间复杂度仅优于 13% 的提交答案。

对于第 10 号题，Muse Spark 和 Opus 同样给出了最优解；GPT 虽然通过测试但解决方案不够理想；Gemini 则直接失败了。

经过一系列的测试，Muse Spark 的表现大大超出了世超的预期，在性能上与 Opus 相互竞争，而 GPT 和 Gemini 显得有些逊色。

连 Meta 也能有这么出色的表现吗？这或许意味着大模型领域即将迎来新的格局变化。

在简单的文字测试中，Muse Spark 的思路清晰，Instant 模式下几个经典逻辑问题的回答准确且迅速。

而在这一环节中，Gemini 和 Opus 也表现得非常稳定，相比之下 GPT 则稍显逊色。

至于健康领域的测试，所有模型的表现都较为普通，Muse Spark 各项指标均达标。

经过一系列的试用之后，世超认为大模型行业的三足鼎立格局将被打破。

目前 Meta 发布的是一个较轻量级的版本，未来有可能会进行开源。

官方表示在 Muse Spark 的基础上将继续加大技术投入，从研究到基础设施全面升级。

在模型训练的技术细节上，Meta 强调了预训练、强化学习以及测试时推理的重要性。

前两者是每个大模型必备的过程，但 Meta 由于拥有 Instagram 和 Facebook 等平台的数据优势，在这方面占有显著的领先地位。

至于测试时推理阶段，Meta 尝试让模型在回答前思考一段时间，并优化了长推理的问题。

这一点与 GPT 的表现形成鲜明对比。GPT 经常出现过长的回答导致信息密度低下的情况。

Meta 选择对过长的思考进行惩罚，通过压缩推理过程中的 token 数量来提高模型回答的准确性。

回顾整个发展历程，Meta 虽然经历多次失败但从未退出竞争，并最终再次跻身行业前沿，这值得我们关注。

相比之下，Claude Mythos Preview 的实力已跨入另一个维度。相比之下，Muse Spark 则像是补齐了之前缺失的课程内容。

因此，世超期待 Meta 在这场模型竞赛中扮演更重要的角色，让小扎有机会坐上他的办公椅并继续前行。

所以，世超只能说，期待 Meta 加入这场模型大乱斗，让小扎也有机会，瘫坐在小小的办公椅上吧。

“”

Meta AI的背后真相或许超乎想象

Meta AI的背后真相或许超乎想象

相关文章

相关文章