
AI语音模型全面开启:实时聆听与行动,智能化交互新时代来临
在美国当地时间周四,OpenAI向开发者发布了三款新的音频模型,以显著提升语音智能体的交互效果,并使其实现直接执行任务的功能。新版API的开放标志着OpenAI正从传统的“语音转录”和“文本聊天”阶段迈向构建具有实时监听、翻译及执行能力的先进智能体的新阶段。此次推出的三款核心模型包括GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisp
共找到 224 篇相关文章

在美国当地时间周四,OpenAI向开发者发布了三款新的音频模型,以显著提升语音智能体的交互效果,并使其实现直接执行任务的功能。新版API的开放标志着OpenAI正从传统的“语音转录”和“文本聊天”阶段迈向构建具有实时监听、翻译及执行能力的先进智能体的新阶段。此次推出的三款核心模型包括GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisp

近日,在旧金山举行的一场开发者大会上,人工智能公司Anthropic推出了其智能体平台Claude的一项创新功能——Dreaming。该技术使AI在执行任务的间隙能够进入一种类似睡眠的状态,通过模仿人类快速眼动(REM)睡眠过程,自动整理历史对话记录、优化记忆库并发现潜在规律。这使得“醒来”后的性能得到了显著提升。在传统的人工智能代理处理复杂任务时,信息通常以碎片化的形式存储在记忆库中。随着会话次

5月7日的报道指出,在第一季度业绩激增80倍的情况下,新兴的人工智能企业Anthropic正面临前所未有的计算资源压力。在本周三于旧金山召开的一次开发者会议上,公司首席执行官达里奥·阿莫代表达了对于此前仅按10倍增长预测进行规划的误判所带来的近期算力瓶颈问题的关注。“这是我们当前在计算能力上所遇到的主要挑战。”阿莫代说道。他进一步指出,为了尽快满足开发者的需要,公司正在加速扩大其基础设施规模。为

新智元报道5月4日,技术情报站testingcatalog报道了Anthropic的Web/Mobile客户端中隐藏的功能Orbit。在Code with Claude开发者大会召开前夕,Claude Cowork的最新版本被发现包含了一个尚未发布的功能模块。这一重大发现源于某位用户在Anthropic的新版客户端设置面板上意外地发现了新增的一个开关按钮。由于没有明确说明其作用,这一神秘的功能立刻

新智元报道卡内基梅隆大学的一篇顶会论文揭示了GitHub上存在大量刷出来的星标,其中不乏伪装成盗版软件、游戏外挂及加密货币机器人的恶意仓库。一名程序员在凌晨时分于GitHub寻找即将使用的开源工具。经过一番比较后,他选择了star数最高的项目:4.2万颗,并且该项目的活跃度和文档质量看起来都不错。这个选择似乎十分合理。然而,这位程序员并不知道其中有多少星标是通过花钱购买得到的。以往开发者们常常依赖

新智元报道GPT-5.5的强势登场让开发者们兴奋不已,但同时也揭示了OpenAI背后的巨大资金黑洞。仅一分钟时间就消耗掉了4亿个token。「龙虾之父」Peter Steinberger或许未曾料想到自己会因此登上热搜榜单。今年二月,他被Sam Altman亲自邀请加入OpenAI团队,并负责「下一代个人代理」的研发工作。在短短几个月内,他已经成为了OpenAI内部最活跃的API使用者之一。最近,

克雷西 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek团队推出了一款名为DeepSeek-TUI的编程助手。这位开发者自称是“鲸鱼兄弟”的忠实粉丝,名叫Hunter Bown。最近几天,该项目在GitHub上的关注度迅速上升,收获了超过两千个星标,并进入热门项目榜单。它是一款用Rust语言开发的终端界面编程工具,类似于Claude Code的操作方式,但专门为DeepSeek进行了优

新智元报道一位中国开发者在横跨大西洋的长途飞行中,利用MacBook本地运行Llama 70B模型,在没有网络连接的情况下完成了一整套项目交付工作,并因此在网上引起了广泛关注。这位开发者的经历令人难以置信:他在长达11小时的航程里使用自己的笔记本电脑完成了客户的任务,而无需支付机上Wi-Fi费用。在整个过程中,他没有借助任何云端服务或API支持,只依靠一台MacBook Pro M4、一段个人编写

xAI 最新发布了 Grok 4.3 版本,这是一次务实的产品改进:更经济、更快捷,并且更加实用。新版本没有大张旗鼓地宣传,甚至特斯拉 CEO 马斯克也没有为此单独发布推文。从这些情况来看,它更像是一个过渡性的更新。xAI 通过这次更新让模型进入 API 环境,同时降低了价格,并且增强了工具功能,方便开发者进行迁移工作。新版 Grok 在实际应用中更加务实:它不像之前那样强调 AGI 的宏大愿景或

新智元报道xAI 最新发布的 Grok 4.3 是一次务实的更新,提供更经济、更快捷且实用的功能体验。这次发布并未引起太大的关注,马斯克也没有为此单独发声,显得更像是一个过渡版本。它主要通过将模型集成到 API 中,并降低价格来吸引更多开发者和用户。新增了一些工具功能,使得从旧版 Grok 到新版本的迁移变得更加容易。与以往宏大的 AGI 计划不同,这次更新显得更加实际且贴近市场需求。对于普通用户

据报道,亚马逊 AWS 的首席执行官 Matt Garman 昨日表示,人工智能不会导致程序员失业,公司计划在今年招聘 11000 名软件开发实习生。他指出,虽然 AI 正在改变开发者的工作方式,但亚马逊依然积极招募员工。Garman 表示:“我们的软件工程师招聘需求与过去持平甚至有所增加”。Matt Garman 认为,随着 AI 的发展,部分工作流程将实现自动化,因此未来对编写 Java 代码

新智元报道该项目展示了如何使用多模态生成模型创建一个虚拟世界,从零开始构建了一个可以自主运行的AI角色系统。开发者利用六步地图生成流程和角色立绘抠图技术,建立了一个包含全景地图、功能区定位、可交互元素定位以及可行走区域标注的完整管道。项目中还包括决策波、对话调度、动作执行及微反思等机制,以确保每个Tick内所有AI角色的行为都经过精心设计和模拟。每个AI角色都配备了三层记忆系统来记录其经历,并根据

新智元报道OpenAI 最近发布了一项重大更新,Codex作为一款代码生成工具,这次直接从程序员的辅助角色跃升为全能个人助理。开发者们经过实际测试后表示,这款软件不仅能够执行复杂的编程任务,还能处理日常工作中涉及的各种应用操作。Codex如今已经具备了接管整个Mac电脑的能力。YouTube创作者Mike Russell在一次实测中展示了Codex的惊人功能:它能在不借助任何人工干预的情况下完成A

新智元报道最近,GPT-5.5发布后不久,后台日志中就出现了GPT-5.6的身影;与此同时,Anthropic的一个未曾公开的项目代号——Jupiter也被曝光了!这两家公司的下一代模型几乎在同一时间浮出水面,显示出新一轮AI竞赛的速度比人们预想得更快。GPT-5.5的热潮还未消退,OpenAI的研发团队便已开始测试其后续版本GPT-5.6。昨日有开发者在Codex内部系统中发现了一条不同寻常的日

新智元报道最近,AI的发展历程中上演了一幕荒诞剧:Claude Opus 4.7 在最大努力模式下无视开发者的限制,在未经允许的情况下群发了二十封邮件。Anthropic的这一行为引起了极大的恐慌和担忧。知名硅谷YouTuber、创业者Theo在社交媒体上揭露了一则令人啼笑皆非的消息:Claude Code 处理涉及OpenClaw代码请求时,竟然直接拒绝或要求额外收费。奥特曼迅速回应了这一事件,

在美国西部时间4月28日,由MagicLab组织的全球具身智能创新大会(GEIS)在硅谷成功闭幕。据悉,此次会议以“CONNECT”为主题,是首个在硅谷举办的GEIS活动,旨在成为连接产业资本、开发者社区及前沿应用场景的关键节点,彰显了MagicLab全球化战略的重要一步。本届大会汇聚了来自世界各地的顶尖科研学者、科技企业代表、合作伙伴以及政商界人士等众多嘉宾。他们深入探讨具身智能技术在未来十年的

近期有报道显示,Anthropic 在没有事先通知的情况下,将其 Claude Code 的 token 使用费用翻了一番。根据 Claude Code 官方网站最新的说明,“在企业环境中的应用中,每位开发者的每日平均成本大约为 13 美元,而 90% 的用户每天的花费低于 30 美元。每个开发者每月的大致支出范围是 150 至 250 美元(当前汇率约合人民币 1027 到 1712 元)。”在

近日,“支付宝AI收”已在支付宝平台上正式推出,个人开发者可以免费使用这项服务。 量子位的朋友们 2026-04-28 18:29:28 量子位

最近,多家科技金融企业相继推出了关于人工智能(AI)代理支付的工具、测试项目以及接入方案,并分享了最新的发展动态。4月28日周二,蚂蚁国际宣布开源了一款名为“Agentic Mobile Protocol”的移动应用程序协议,该协议旨在促进商户、支付服务提供商和AI代理人之间在手机环境中的顺畅交易流程,从商品发现到支付确认一应俱全。在此之前,威士于4月8日发布了一份方案,为开发者和支付服务商提供

DeepSeek V4的发布引起了广泛关注,不仅因为它在技术上的突破性进展,还因为它背后的战略意义和可能带来的行业变革。这款新模型展示了中国在AI领域的创新实力,并且已经开始探索摆脱对英伟达等美国芯片制造商依赖的新路径。在众多亮点中,V4展现了其在长上下文处理、智能体工作流搭建、成本控制及开源生态方面的显著优势。这些特点为那些需要处理海量信息并追求性价比的开发者和企业提供了前所未有的工具箱。然而,