谷歌推出「史上最严」AI挑战，考验你的高压应对之道？

作者：世界网2026年5月4日科技2 阅读

新智元报道

谷歌最近推出了一项名为Vantage的实验项目，这个项目的创新之处在于利用AI模拟职场环境中的互动情景。

传统考试形式虽然历史悠久，但从未有过像这样的测试方式。

SAT考察数学知识，GRE则侧重于词汇量，而古代科举制度则是通过八股文来选拔人才。

不论古今，大多数的考核都是为了检验一个人的知识水平和掌握能力。

然而，有一种技能却鲜有考试能够触及：在压力环境中如何与人有效沟通和处理冲突。

近期，谷歌实验室上线了Vantage项目，旨在解决这一问题。

Vantage目前开放给英文用户试用。

此项目由谷歌携手纽约大学共同开发，核心理念是借助生成式AI技术来模拟团队合作场景，并以此评测参与者的软技能表现。

该实验会将参与者置于一个由多种AI角色构成的虚拟工作环境中，通过一系列任务挑战评估他们的反应能力和情绪管理能力。

其中有一个特定的角色会故意制造冲突和压力情景。

这些互动会被另一个智能体基于评分标准进行细致分析，并据此生成反馈意见与成绩报告。

整个过程被比喻为一个“职场修罗场”，旨在考察人们在高压环境下的人格特质，而非单纯的知识积累。

经过初步测试验证，AI的评估结果与专业人员的一致性已达到相当高的水平。

这表明AI已经开始具备评判软技能的能力。

传统考试难以全面衡量一个人的实际能力，特别是那些需要互动才能展现出来的特质。

软技能在职场中的重要性不言而喻：招聘时最担心的问题之一就是员工是否能够有效协作。

根据世界经济论坛的报告预测，在未来五年内，职场的核心技能将发生显著变化，其中软技能占据了主导地位。

面试官通常通过自我汇报问卷和真人评估中心来考察应聘者的软实力。

然而，这种传统方式不仅耗时且成本高昂，难以大规模推广。

Vantage项目正是为了克服这些挑战，它利用AI技术创建了一个低成本、高效率的解决方案。

该项目的独特之处在于其多层次架构设计：多个智能体协同工作生成情景，并评估参与者的行为表现。

其中一个关键角色的任务就是通过制造难题和压力情况来测试参与者的应对能力。

这种互动式测评方式能够更真实地反映出一个人在实际工作中的行为模式。

评分过程被严格分为了事实收集与判断两个阶段，确保每一项评价都有具体依据。

相比传统评估方法，这种模块化的架构使得Vantage具有更强的灵活性和可扩展性。

问题是，怎么测？

实验结果显示，AI在软技能测评方面的准确性和一致性已经达到了相当高的水平。

基本上只能依靠两条。

这一突破性的技术为大规模、低成本地开展软技能培训和评估提供了可能。

Vantage不仅能够用于招聘筛选，还可以广泛应用于教育领域，帮助学生更好地掌握协作与沟通技巧。

随着技术的发展，“最难考的能力”正在变得可量化和可视化。

这意味着未来的教学内容可能会因此而发生变化，更加注重培养那些曾经难以测评的软技能。

同时，在招聘过程中也可能出现新的评估方式，不再仅仅依赖于简历和面试官的主观判断。

当AI能够精准衡量一个人在复杂情境下的表现时，“情商”与“协作力”等概念将变得更加重要。

市场上也不是没人尝试。

HireVue用视频面试做AI情绪分析，Pymetrics用神经科学小游戏做性格测评，但它们都有一个共同局限：

候选人面对的，更多仍是被设计好的数字流程，而不是一个会跟你争论、会给你挖坑、会把互动不断推进下去的真实对手。

直到谷歌推出 Vantage，事情才开始变得不一样：它试图用多方AI角色协作生成情境，而且还把软技能测试的成本压到接近可规模化的水平。

Vantage的多智能体架构

Vantage不是一个AI在干活，而是一群AI在演戏，该系统的精巧之处在于架构设计。

它不是一个AI出题、你来答题的传统路子，而是搭了一个四层架构，每层都有AI各司其职，同时运转。

第一层，场景生成。

你输入一个软技能维度，比如「冲突解决」。系统不是随机编个故事，它先拿到评估量表，看清楚「什么表现算好、什么算差」，然后倒推出一个能区分好坏的具体情境。

第二层，角色扮演。

这是整个系统最有意思的部分：多个AI agent各领一个角色进入场景，跟真人被测者对话。

关键的地方来了：其中一个agent（Executive LLM）的任务就是「制造麻烦」。

谷歌研究人员提到，它的角色就是按剧本给你施压、抛出不合理要求、搞情绪化反应。

这不是随便聊聊天，而是有组织、有「预谋」的压力测试。

当然，这个agent也不是傻压，而是实时分析对话状态，动态调整施压策略。它就像一个自适应的考试引擎，确保考完之后该采集的证据都采集到了。

第三层，行为提取。

对话结束后，另一个agent上场，逐轮回看对话记录。

它不打分，只做一件事：把你的具体行为抽出来。

哪句话是在回避冲突，哪句是在主动倾听，哪句是在强行说服。

事实归事实，判断归判断，这两步被刻意分开了。

第四层，评分。

评分agent拿着量表和上一步提取出的行为证据，逐条对照打分。

每个分数必须指向具体对话片段作为依据，不允许凭印象给分。

这样四层解耦的好处很明显：场景可以换，角色可以换，评分标准可以换，但流水线本身不变，而且，模块化意味着可扩展。

今天测冲突解决，明天换个量表就能测项目管理，后天再换就能测谈判能力。

熟悉软件工程的人大概一眼就认出来了，这就是把微服务架构的思路，搬到了教育评估里。

188人实测

AI考官到底靠不靠谱

架构再漂亮，不实测都是空谈。

谷歌和NYU做了一次联合验证。他们找了188名美国测试者，年龄18-25岁，在Vantage中完成了冲突解决和项目管理两个维度的评估。

然后，NYU的人类评分专家用同一份rubric对同样的对话记录打分。

结果很有意思。

人类专家之间的一致性，Kappa值为0.45到0.64，也就是中等一致性。

专家彼此之间，以及大模型和专家之间，在对话评估上的一致性对比。蓝色是专家与专家，红色是大模型与专家的一致性评估结果。柱子越高，代表看法越接近。

两个人类专家给同一段对话打分，经常打出不同的分数。

这不意外。

软技能评估本来就是主观判断密集的领域。

比如，一个人觉得候选人在冲突中表现出了「坚定但尊重」，另一个人可能觉得那叫「固执」。

而AI评分期跟人类专家之间的一致性呢？跟两个人类专家之间差不多，这意味着它的评分质量已经到了同一水平线上。

这听起来似乎没什么大不了，但在软技能评估这个领域里，这已经是一个了不起的基线。

更重要的是：人类专家一次只能评几个人，AI可以同时评几万人。

成本直接差了两个数量级。

这不只是考试

很多人第一反应是：这不就是个花哨的AI面试官吗。

过去几年，AI面试工具层出不穷，大多数最后沦为噱头。

但Vantage更像是一个基础设施层，目前谷歌已公开 Vantage 的技术报告与实验介绍，外界已经能比较清楚地看到它如何用评分量表驱动情境生成、角色互动与结果评估。

从方法上看，这套框架具备一定的可迁移性：在理论上，研究者或机构可以围绕不同软技能设计相应任务与量表，并据此搭建类似的评估流程。

比如，企业可以探索把它用于领导力或协作场景的训练与评估，教育机构也可以把它用于协作能力练习和反馈。

这让人想起教育评估领域长期讨论的「形成性评估」：不是期末一次定结果，而是在学习过程中持续测量、持续反馈、持续调整。

过去这件事之所以难以规模化，一个重要原因是高质量互动评估往往依赖真人考官，成本高、耗时长、标准化困难。

而像Vantage这类基于生成式AI的模拟评估系统，则让这件事第一次呈现出更强的可扩展性。

当「最难考的能力」变得可考

当然，必须说清楚Vantage目前的边界。

Google Labs博客中将其定义为研究实验，它目前更接近一个公开可体验的研究实验，而不是已经大规模落地的成熟应用。

188人的验证规模不算大，只明确覆盖了协作中的冲突解决和项目管理两个维度，跨文化场景没碰，长期技能成长追踪没做，模拟环境里的表现能不能迁移到真实的人际互动，也还是个问号。

谷歌自己也承认，下一步要研究的正是这些。但这不妨碍Vantage这项实验的潜力。

OECD早就把创造力、批判性思维列进了教育系统的核心讨论。所有人都知道软技能重要，但没人真正解决过怎么测、怎么大规模地测。

Vantage给出了一个可能的答案。

Google Research博客里提到了这样一句话：「在全球教育体系中，被测量的东西往往就是被教授的东西。」

这句话才是真正的炸弹。

如果软技能可以被量化评估，那学校教什么就会变。

现在学校考什么？知识、公式、标准答案。因为只有这些东西能标准化测量。

但如果有一天，协作力、冲突解决能力、创造力都能被精准打分了，课程设计的底层逻辑就会被改写。

企业招聘也一样。

今天的招聘流程看学历、看简历、看面试官的直觉。

如果AI可以在沉浸式模拟中直接观察一个人处理冲突的能力，并给出可量化的分数，面试这件事本身就会被重新定义。

个人成长也一样。

你的沟通能力、你的领导力，第一次有了可视化的进步曲线。

不再是「我觉得自己变强了」，而是「系统显示你的冲突解决得分从上个月的63提升到了71」。

这就是Vantage这个小实验背后的大故事：当「最难考的能力」变得可考，教育评估的边界就会被重新划定。

未来的考试

可能是让你跟AI吵一架

当AI能制造冲突、观察行为、提取证据、逐条打分，「考试」这个词的含义就永远变了。

它不再是你对着一张试卷独自奋斗，可能是你走进一个房间，面对一群不好对付的人，然后做你自己。

下一个被AI考的软技能会是什么？

也许是谈判，也许是共情，也许是你最不想被打分的那个东西。

当AI不仅能替代你的硬技能，还能给你的软技能精准打分的时候，你还觉得「情商」「协作力」是不需要认真对待的东西吗？

参考资料：

https://research.google/blog/towards-developing-future-ready-skills-with-generative-ai/

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

谷歌推出「史上最严」AI挑战，考验你的高压应对之道？

作者：世界网2026年5月4日科技2 阅读

新智元报道

谷歌最近推出了一项名为Vantage的实验项目，这个项目的创新之处在于利用AI模拟职场环境中的互动情景。

传统考试形式虽然历史悠久，但从未有过像这样的测试方式。

SAT考察数学知识，GRE则侧重于词汇量，而古代科举制度则是通过八股文来选拔人才。

不论古今，大多数的考核都是为了检验一个人的知识水平和掌握能力。

然而，有一种技能却鲜有考试能够触及：在压力环境中如何与人有效沟通和处理冲突。

近期，谷歌实验室上线了Vantage项目，旨在解决这一问题。

Vantage目前开放给英文用户试用。

此项目由谷歌携手纽约大学共同开发，核心理念是借助生成式AI技术来模拟团队合作场景，并以此评测参与者的软技能表现。

该实验会将参与者置于一个由多种AI角色构成的虚拟工作环境中，通过一系列任务挑战评估他们的反应能力和情绪管理能力。

其中有一个特定的角色会故意制造冲突和压力情景。

这些互动会被另一个智能体基于评分标准进行细致分析，并据此生成反馈意见与成绩报告。

整个过程被比喻为一个“职场修罗场”，旨在考察人们在高压环境下的人格特质，而非单纯的知识积累。

经过初步测试验证，AI的评估结果与专业人员的一致性已达到相当高的水平。

这表明AI已经开始具备评判软技能的能力。

传统考试难以全面衡量一个人的实际能力，特别是那些需要互动才能展现出来的特质。

软技能在职场中的重要性不言而喻：招聘时最担心的问题之一就是员工是否能够有效协作。

根据世界经济论坛的报告预测，在未来五年内，职场的核心技能将发生显著变化，其中软技能占据了主导地位。

面试官通常通过自我汇报问卷和真人评估中心来考察应聘者的软实力。

然而，这种传统方式不仅耗时且成本高昂，难以大规模推广。

Vantage项目正是为了克服这些挑战，它利用AI技术创建了一个低成本、高效率的解决方案。

该项目的独特之处在于其多层次架构设计：多个智能体协同工作生成情景，并评估参与者的行为表现。

其中一个关键角色的任务就是通过制造难题和压力情况来测试参与者的应对能力。

这种互动式测评方式能够更真实地反映出一个人在实际工作中的行为模式。

评分过程被严格分为了事实收集与判断两个阶段，确保每一项评价都有具体依据。

相比传统评估方法，这种模块化的架构使得Vantage具有更强的灵活性和可扩展性。

问题是，怎么测？

实验结果显示，AI在软技能测评方面的准确性和一致性已经达到了相当高的水平。

基本上只能依靠两条。

这一突破性的技术为大规模、低成本地开展软技能培训和评估提供了可能。

Vantage不仅能够用于招聘筛选，还可以广泛应用于教育领域，帮助学生更好地掌握协作与沟通技巧。

随着技术的发展，“最难考的能力”正在变得可量化和可视化。

这意味着未来的教学内容可能会因此而发生变化，更加注重培养那些曾经难以测评的软技能。

同时，在招聘过程中也可能出现新的评估方式，不再仅仅依赖于简历和面试官的主观判断。

当AI能够精准衡量一个人在复杂情境下的表现时，“情商”与“协作力”等概念将变得更加重要。

市场上也不是没人尝试。

HireVue用视频面试做AI情绪分析，Pymetrics用神经科学小游戏做性格测评，但它们都有一个共同局限：

候选人面对的，更多仍是被设计好的数字流程，而不是一个会跟你争论、会给你挖坑、会把互动不断推进下去的真实对手。

直到谷歌推出 Vantage，事情才开始变得不一样：它试图用多方AI角色协作生成情境，而且还把软技能测试的成本压到接近可规模化的水平。

Vantage的多智能体架构

Vantage不是一个AI在干活，而是一群AI在演戏，该系统的精巧之处在于架构设计。

它不是一个AI出题、你来答题的传统路子，而是搭了一个四层架构，每层都有AI各司其职，同时运转。

第一层，场景生成。

第二层，角色扮演。

这是整个系统最有意思的部分：多个AI agent各领一个角色进入场景，跟真人被测者对话。

关键的地方来了：其中一个agent（Executive LLM）的任务就是「制造麻烦」。

谷歌研究人员提到，它的角色就是按剧本给你施压、抛出不合理要求、搞情绪化反应。

这不是随便聊聊天，而是有组织、有「预谋」的压力测试。

当然，这个agent也不是傻压，而是实时分析对话状态，动态调整施压策略。它就像一个自适应的考试引擎，确保考完之后该采集的证据都采集到了。

第三层，行为提取。

对话结束后，另一个agent上场，逐轮回看对话记录。

它不打分，只做一件事：把你的具体行为抽出来。

哪句话是在回避冲突，哪句是在主动倾听，哪句是在强行说服。

事实归事实，判断归判断，这两步被刻意分开了。

第四层，评分。

评分agent拿着量表和上一步提取出的行为证据，逐条对照打分。

每个分数必须指向具体对话片段作为依据，不允许凭印象给分。

这样四层解耦的好处很明显：场景可以换，角色可以换，评分标准可以换，但流水线本身不变，而且，模块化意味着可扩展。

今天测冲突解决，明天换个量表就能测项目管理，后天再换就能测谈判能力。

熟悉软件工程的人大概一眼就认出来了，这就是把微服务架构的思路，搬到了教育评估里。

188人实测

AI考官到底靠不靠谱

架构再漂亮，不实测都是空谈。

谷歌和NYU做了一次联合验证。他们找了188名美国测试者，年龄18-25岁，在Vantage中完成了冲突解决和项目管理两个维度的评估。

然后，NYU的人类评分专家用同一份rubric对同样的对话记录打分。

结果很有意思。

人类专家之间的一致性，Kappa值为0.45到0.64，也就是中等一致性。

两个人类专家给同一段对话打分，经常打出不同的分数。

这不意外。

软技能评估本来就是主观判断密集的领域。

比如，一个人觉得候选人在冲突中表现出了「坚定但尊重」，另一个人可能觉得那叫「固执」。

而AI评分期跟人类专家之间的一致性呢？跟两个人类专家之间差不多，这意味着它的评分质量已经到了同一水平线上。

这听起来似乎没什么大不了，但在软技能评估这个领域里，这已经是一个了不起的基线。

更重要的是：人类专家一次只能评几个人，AI可以同时评几万人。

成本直接差了两个数量级。

这不只是考试

很多人第一反应是：这不就是个花哨的AI面试官吗。

过去几年，AI面试工具层出不穷，大多数最后沦为噱头。

从方法上看，这套框架具备一定的可迁移性：在理论上，研究者或机构可以围绕不同软技能设计相应任务与量表，并据此搭建类似的评估流程。

比如，企业可以探索把它用于领导力或协作场景的训练与评估，教育机构也可以把它用于协作能力练习和反馈。

这让人想起教育评估领域长期讨论的「形成性评估」：不是期末一次定结果，而是在学习过程中持续测量、持续反馈、持续调整。

过去这件事之所以难以规模化，一个重要原因是高质量互动评估往往依赖真人考官，成本高、耗时长、标准化困难。

而像Vantage这类基于生成式AI的模拟评估系统，则让这件事第一次呈现出更强的可扩展性。

当「最难考的能力」变得可考

当然，必须说清楚Vantage目前的边界。

Google Labs博客中将其定义为研究实验，它目前更接近一个公开可体验的研究实验，而不是已经大规模落地的成熟应用。

谷歌自己也承认，下一步要研究的正是这些。但这不妨碍Vantage这项实验的潜力。

OECD早就把创造力、批判性思维列进了教育系统的核心讨论。所有人都知道软技能重要，但没人真正解决过怎么测、怎么大规模地测。

Vantage给出了一个可能的答案。

Google Research博客里提到了这样一句话：「在全球教育体系中，被测量的东西往往就是被教授的东西。」

这句话才是真正的炸弹。

如果软技能可以被量化评估，那学校教什么就会变。

现在学校考什么？知识、公式、标准答案。因为只有这些东西能标准化测量。

但如果有一天，协作力、冲突解决能力、创造力都能被精准打分了，课程设计的底层逻辑就会被改写。

企业招聘也一样。

今天的招聘流程看学历、看简历、看面试官的直觉。

如果AI可以在沉浸式模拟中直接观察一个人处理冲突的能力，并给出可量化的分数，面试这件事本身就会被重新定义。

个人成长也一样。

你的沟通能力、你的领导力，第一次有了可视化的进步曲线。

不再是「我觉得自己变强了」，而是「系统显示你的冲突解决得分从上个月的63提升到了71」。

这就是Vantage这个小实验背后的大故事：当「最难考的能力」变得可考，教育评估的边界就会被重新划定。

未来的考试

可能是让你跟AI吵一架

当AI能制造冲突、观察行为、提取证据、逐条打分，「考试」这个词的含义就永远变了。

它不再是你对着一张试卷独自奋斗，可能是你走进一个房间，面对一群不好对付的人，然后做你自己。

下一个被AI考的软技能会是什么？

也许是谈判，也许是共情，也许是你最不想被打分的那个东西。

当AI不仅能替代你的硬技能，还能给你的软技能精准打分的时候，你还觉得「情商」「协作力」是不需要认真对待的东西吗？

参考资料：

https://research.google/blog/towards-developing-future-ready-skills-with-generative-ai/

“”

谷歌推出「史上最严」AI挑战，考验你的高压应对之道？

谷歌推出「史上最严」AI挑战，考验你的高压应对之道？

相关文章

相关文章