搜索: "文本生成"

共找到 6 篇相关文章

百度最强模型来了！五大场景深度实测，搜索能力突出

智东西编译刘煜编辑陈骏达智东西5月9日报道，今日，百度推出新一代基础模型文心5.1。百度称，文心5.1将总参数压缩至约1/3、激活参数压缩至约1/2，使用业界同规模模型约6%的预训练成本，实现同级别模型基础效果领先。不过，百度并未明确说明这一“6%成本”的具体对标模型范围与口径。在LMArena 5月7日更新的文本生成大模型排行榜中，文心5.1全球总排名第14。与前面OpenAI、xAI的模型

科技2026/5/104 阅读

清华打破多模态音频生成通才困境：Omni2Sound 音频基础模型开源

近年来，音频生成技术发展迅猛。随着应用场景的复杂化，业界呈现出一个显著趋势：音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中，同时支持文本生成音频（T2A）、视频生成音频（V2A）以及视频-文本联合生成音频（VT2A）。相比为每个任务独立部署专用模型的传统做法，统一模型能大幅降低架构冗余与部署成本，为用户提供更为灵活的音频生成方式。然而，随着研究的深入，业界发现了一

科技2026/5/98 阅读

国产AI绘图突破新极限，挑战GPT-Image-2！

最近，大家的朋友圈是否被GPT-Image-2刷屏了？这款新工具能够精准渲染文字信息图，并实现复杂布局和美学界面设计。它甚至可以近乎一比一地还原社交媒体截图与高考试卷内容，彻底颠覆了传统的文本生成图像的技术瓶颈。人们的第一反应往往是：设计师可能要失业了吧……兔展智能最近推出了一项重大更新——UniWorld-V2.5，它在某些方面直接复制了GPT-Image-2的优秀案例。我们可以直接看看生成效果

科技2026/4/263 阅读

重回阿里的他再创奇迹：打造全新行业黑马

文 | 字母AI最近，人工智能视频领域似乎进入了一段相对低迷期，Seedance 2.0陷入版权争议风波之中，OpenAI也关闭了其Sora项目，使得整个行业气氛显得有些沉重。正当此时，阿里巴巴却带来了一个令人瞩目的新进展。在2026年4月的Artificial Analysis排行榜上，HappyHorse-1.0在文本生成视频和图像转换成无音频视频两个赛道中超越了字节跳动、快手等竞争对手，一举

科技2026/4/132 阅读

全新个性化生图模型阿里Wan2.7-Image登场！告别单一AI面孔，迎接千人千面时代

阿里巴巴今日推出了图像生成与编辑统一模型Wan2.7-Image，旨在解决当前AI生图领域中“标准脸”审美疲劳和色彩单一等问题。新的模型能够实现个性化定制，“千人千面”，并具备全新的调色盘功能，精准控制颜色。用户现在可以通过阿里云百炼平台、wan.video网站以及即将上线的千问App体验Wan2.7-Image的功能。Wan2.7-Image涵盖了从文本生成图像到交互式编辑等一系列能力。在盲测中

科技2026/4/13 阅读

Image2.0千问版本更新上线

3月13日，千问App推出了Qwen-Image2.0图像生成与编辑模型。该模型能够实现图文转换和多种编辑功能，包括从文本生成图像、基础编辑以及多场景创作，而且在文字渲染、材质真实感和指令解析方面都有了显著的进步。千问App新发布了Qwen-Image2.0版本的图像处理工具

国内2026/3/174 阅读