
不只能画图!谷歌推出Gemini Omni:只需动动嘴 AI自动帮你改大片
快科技5月20日消息,在Google I/O 2026上,谷歌正式发布Gemini Omni模型。该模型支持文本、图像、音频、视频作为输入,实现跨模态生成与编辑。其中在音频方面,目前该模型初期仅支持语音输入,但Google表示未来将很快扩展更多类型的音频输入能力。首发产品Gemini Omni Flash已在Gemini应用上线,后续将向企业客户开放API。该模型核心卖点在于深度视频编辑能力。用户
科技2 阅读
共找到 3 篇相关文章

快科技5月20日消息,在Google I/O 2026上,谷歌正式发布Gemini Omni模型。该模型支持文本、图像、音频、视频作为输入,实现跨模态生成与编辑。其中在音频方面,目前该模型初期仅支持语音输入,但Google表示未来将很快扩展更多类型的音频输入能力。首发产品Gemini Omni Flash已在Gemini应用上线,后续将向企业客户开放API。该模型核心卖点在于深度视频编辑能力。用户

AI应用风向标(公众号:ZhidxcomAI)作者|江宇编辑|漠影智东西5月15日报道,昨日,豆包输入法macOS版正式上线,用户终于可以在电脑上直接“张嘴打字”了。和传统输入法里的“语音转文字”功能不同,这次豆包输入法主打的,是一整套AI语音输入能力。其背后采用的是豆包App同款语音模型,重点强调“边说边出字”“中英文混说”“智能纠错”和“长文本输入”等能力。目前,豆包输入法支持在任意对话框中实

阿里云JVS Claw现已全面开放,新增多项实用功能,包括语音输入和技能开关等。 量子位的朋友们 2026-03-25 11:36:58 量子位