美国科技巨头微软于4月3日宣布,推出三款自主研发的AI模型供广泛商业使用,此举旨在减少对长期伙伴OpenAI的依赖。
这些新推出的模型包括MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2。它们分别专注于语音转录、语音生成以及图像创建这三个在企业级应用中具有高商业价值的功能领域。

微软首席执行官纳德拉对外宣布了这一更新。
公司强调,MAI-Transcribe-1是市面上最准确的转录模型之一,在涵盖各种语言的测试中平均错误率仅为3.9%。相比之下,OpenAI和Gemini 3.1 Flash的同类产品分别达到了4.2%和4.9%。
MAI-Voice-1模型能够在单个GPU上实现在不到一秒钟的时间内生成长达一分钟的音频,并且在长时间语音内容创建中保持一致性。
MAI-Image-2自3月19日首次亮相以来,已与另外两款模型一同进入广泛商用阶段。目前,在“大模型竞技场”平台上的文字转图像排名中,该模型位列第三,落后于谷歌的Nano Banana 2和OpenAI的GPT-Image 1.5。
在价格方面,MAI-Image-2的文字输入起价为每百万词元(tokens)5美元,而图像输出则从每百万词元33美元开始。相比之下,谷歌Gemini 3 Pro和Gemini 3.1 Flash的定价分别为每百万词元120美元和60美元。
微软的目标是自主开发世界领先的人工智能模型。
这一系列努力始于去年十月,当时微软与OpenAI重新谈判了合作关系,允许微软独立或与其他第三方合作伙伴共同追求通用人工智能技术。此前的协议虽然让微软能够使用OpenAI的技术资源,但同时也禁止其自行开发竞争性的人工智能系统。
微软AI首席执行官穆斯塔法·苏莱曼透露,到2027年为止的目标是“达到最先进的水平”,涵盖文本生成、图像创建和语音处理等关键领域。
苏莱曼表示,公司目前正在构建用于训练模型所需的计算能力,并从十月份开始部署英伟达的GB200芯片。
他说:“自那时以来,我们计划在未来大约一年到一年半的时间里逐步增强算力,以达到前沿水平。”
苏莱曼于去年11月全职加入微软领导AI超级智能团队。在此之前,他是谷歌DeepMind的联合创始人,在上个月内部重组后专注于模型开发工作。
苏莱曼在接受采访时指出:“在未来三到五年内推进自身最先进的人工智能技术,并实现长期自主的战略目标至关重要。”他还表示公司将继续托管由其他机构开发的AI模型。
随着微软对OpenAI知识产权访问权限将在2032年到期,因此发展自主研发的大规模人工智能模型成为了重要的风险防范措施。
尽管自研模型业务才刚刚起步,但已显露出不少短板。苏莱曼的团队在未来一年内需要完成大量工作以弥补这些不足之处。
比如说,MAI-Image-2目前仅支持纵横比为1:1的画面生成,并且不提供横向或纵向选项;此外也不具备其他AI应用中常见的图像到图像编辑和参考图功能。同样地,MAI-Transcribe-1也无法区分对话中的不同说话者身份,不支持上下文偏好设置及流式传输等功能。不过微软方面表示这些特性都在积极开发当中。
