搜索: "GPT-4"

共找到 6 篇相关文章

牛津、微软等发布音视频智能综述:梳理大模型时代的AVI研究全景

牛津、微软等发布音视频智能综述:梳理大模型时代的AVI研究全景

GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL

科技2 阅读
揭秘GPT Image 2:或已融合GPT-4能力,OpenAI未将其定位为纯粹的图像生成模型

揭秘GPT Image 2:或已融合GPT-4能力,OpenAI未将其定位为纯粹的图像生成模型

作者|樊雅婷提供的电子邮箱地址似乎不完整或有误,请确认后重试。GPT Image 2 的出现标志着图像生成技术的一个重大转折点,它不仅仅是一个优化后的扩散模型或是更高效的架构迭代,而是将语义理解和推理能力直接引入了图像生成过程中的关键环节。这样的革新不仅解决了图像质量与一致性的问题,还大大提升了用户交互体验。根据最近的观察和分析,GPT Image 2 的成功在很大程度上归功于其独特的混合架构——

科技3 阅读
TDM-R1模型强势崛起,性能超越GPT-4,GenEval评分飙升至92%

TDM-R1模型强势崛起,性能超越GPT-4,GenEval评分飙升至92%

TDM-R1 是一项针对少步扩散模型的创新后训练方法,它显著提升了这些模型在组合式生成任务上的表现能力。研究团队利用 GenEval 基准测试验证了这项工作的有效性,并取得了令人瞩目的结果。该研究以4步基线模型(TDM-SD3.5-M)作为起点,在此基础上通过引入 TDM-R1 方法,将GenEval得分从61%大幅提升到92%,展示出了在组合式生成任务上的巨大进步。与此同时,与标准80步的SD3

科技2 阅读
GPT之母宣布离开OpenAI,业界震动不已

GPT之母宣布离开OpenAI,业界震动不已

最近,一位曾在OpenAI工作了四年半的人士宣布离职。Joanne Jang作为「4o之母」的她在社交媒体上发布了一篇长文,正式结束了自己在OpenAI的职业旅程。在经历了四年多的工作后,她决定离开这家科技巨头公司。值得一提的是,这位灵魂工程师亲手塑造了GPT-4o这一标志性模型的人格特质。之前已经出现过首席财务官的内讧事件、首席运营官转职以及其他高级管理人员离职或休假的情况之后,Joanne J

科技1 阅读
OpenAI重要成员相继出走,幕后推手GPT-4的灵魂人物离任

OpenAI重要成员相继出走,幕后推手GPT-4的灵魂人物离任

本文由刘煜编辑,陈骏达审校。近日,智东西报道了OpenAI Labs总经理Joanne Jang的离职消息,她在该公司担任高管长达四年半之久,并未透露具体离职原因及未来规划。她表示会在社交媒体上逐渐分享有关新的人机交互页面开发情况的信息。Joanne Jang在X平台上发布了一则声明(图源:X)。OpenAI的ChatGPT全球负责人Nick Turley在其个人账号下评论道:“感谢你邀请我加入O

科技1 阅读
Kimi的「注意力残差」引发热议,重新定义焦点方向

Kimi的「注意力残差」引发热议,重新定义焦点方向

自2015年ResNet诞生以来,「将输入直接加到输出上」这一简单的机制,几乎统治了所有神经网络架构。近期,沿用了十年的残差机制迎来了重大变革,「注意力机制」成为了其替代方案。这一创新甚至影响到了OpenAI的研究人员,包括负责开发o1/o3系列、Codex编程模型及GPT-4 STEM能力的Jerry Tworek,他深受启发,认为需要重新评估现有的一切,「深度学习2.0」时代即将到来。这一突破

科技5 阅读