
商汤发布创新多模态架构,挑战全球模型界权威,实现无编码器图像处理技术革新
本文由智东西陈骏达撰写,李水青编辑。近日,商汤科技发布了一篇最新技术博客《NEO-unify:原生架构促进端到端多模态理解和生成统一》,介绍了他们研发的全新模型架构。该模型通过在底层整合多种模式的理解与生成,实现了更高的训练效率和数据处理能力。当前的技术趋势显示,大多数多模态系统会采用视觉编码器来理解图像信息,并利用变分自编码器进行内容创作。这种方法尽管有效,但在模块间的协作上却存在一些局限性。N

本文由智东西陈骏达撰写,李水青编辑。近日,商汤科技发布了一篇最新技术博客《NEO-unify:原生架构促进端到端多模态理解和生成统一》,介绍了他们研发的全新模型架构。该模型通过在底层整合多种模式的理解与生成,实现了更高的训练效率和数据处理能力。当前的技术趋势显示,大多数多模态系统会采用视觉编码器来理解图像信息,并利用变分自编码器进行内容创作。这种方法尽管有效,但在模块间的协作上却存在一些局限性。N

在两个月前举行的 CES 展会上,英伟达创始人黄仁勋宣布开源了公司的首个 VLA(视觉-语言-动作)模型,并且预告物理 AI 的「ChatGPT 时刻」即将到来。现在,物理世界的 AI 正在成为一个重要的发展趋势:从机器人到辅助驾驶系统,越来越多的企业正尝试使用 VLA 模型来革新机器与现实世界互动的方式。在自动驾驶领域,端到端的 VLA 方法已经经过了大量的测试和验证,并取得了前所未有的成果。然

油车充电体验的直接对比。电动汽车领域的首个阶段已经圆满结束。在今年三月五日,比亚迪在深圳举办了一场发布会,推出了第二代刀片电池以及闪充技术,并创造了全球量产最快的充电记录——从百分之十到百分之七十只需五分钟;而从百分之十到百分之九十七仅需九分钟。即便在零下三十度的严寒条件下,也能在短短三分钟内将电量从百分之二十提升至百分之九十七。两项创新技术成功解决了电动汽车领域长期存在的充电速度慢和低温环境下的

智东西的一篇报道介绍了,一名年轻的创业者通过使用OpenClaw这一工具,在网络上引起了广泛关注。这位年仅18岁的小伙子没有接受过高等教育,也从未接触过编程,却利用了包括Claude和GLM在内的多种技术手段,创立了一家小型企业,为企业和个人提供网站建设和自动化任务等外包服务。他的月成本控制在400美元以下,并已成功吸引了超过450名客户。近日,加拿大无代码开发机构的联合创始人兼首席执行官Jaco

本文由陈骏达编辑整理。OpenClaw在中国的热度正以惊人的速度攀升。智东西于3月6日发布,尽管海外企业仍在犹豫是否提供服务或禁用OpenClaw,中国的用户和公司已经迫不及待地投身到这场“个人代理”的热潮中。有人熬夜安装环境,有的团队直接将其接入工作流程,甚至有大型国内企业在门口设置了免费装龙虾的队伍,场面堪比发红包。相较于海外企业的观望态度,中国用户更关心的是它能否帮助他们完成实际工作。在这股

允中 发自 凹非寺量子位 | 公众号 QbitAI图像领域迎来新的竞争者!最近,Luma AI推出全新图像模型Uni-1,直接挑战谷歌Nano Banana Pro和GPT Image 1.5的地位。Uni-1是一款集成了图像理解和生成功能的统一模型。官方展示中显示,这款模型具备多种能力,包括角色姿态转换、故事板创作、草稿与材质结合生成等。在多个权威任务评估中,Uni-1不仅能够匹敌Nano Ba

本文由智东西发布,经漠影编辑。智东西3月6日报道,在MWC 2026期间,高通执行副总裁阿力克斯·卡图赞(Alex Katouzian)与多家媒体进行了深入交谈。他透露接下来几个月内将推出面向XR/AR眼镜的至尊版产品。卡图赞表示,未来骁龙的所有业务线都将针对旗舰级设备推出Elite至尊版平台,目前已有骁龙8至尊版、骁龙X Elite以及骁龙可穿戴平台至尊版等系列产品。在MWC 2026期间发布的

3月5日,在西班牙巴塞罗那举办的2026年世界移动通信大会期间,一名参观者在展厅内游览。同一天,在西班牙巴塞罗那举行的2026年世界移动通信大会上,观众对一款小米汽车产生了浓厚兴趣并进行观摩。 展会当天,活动也在同一地点落幕。3月5日,西班牙巴塞罗那举办的2026年世界移动通信大会期间,参观者在展厅内浏览展品。同样是在3月5日,在西班牙巴塞罗那的2026年世界移动通信大会上,参观者们在展厅内进行游

近期,在失去自主销量冠军头衔数月之后,比亚迪宣布了其重要战略举措。该公司的千公里续航能力和兆瓦级超级充电技术现在已被引入大众市场中的15万元级别车型中。3月5日当天,比亚迪发布了第二代刀片电池和闪充技术体系,并同步推出了包括四大品牌在内的十一款车型,价格范围从十万到百万不等。行业内的许多专家认为,比亚迪的行动比预期要快得多。就在两个月前,吉利终结了比亚迪连续40个月保持中国品牌的月度销量冠军记录

在3月5日当天,OpenAI推出了名为GPT-5.4的基础模型。该公司声称这是当前最先进且效能最佳的专业级模型之一。除了常规版本外,还提供了专门用于推理的版本(GPT-5.4 Thinking)以及经过性能优化的高级版(GPT-5.4 Pro)。新发布的API接口将支持多达100万个Tokens的上下文容量,这是OpenAI迄今为止提供过的最大值。此外,OpenAI特别指出该模型在Token使用

在3月4日举行的鸿蒙智行新一代激光雷达技术革新发布会上,华为智能汽车解决方案BU的CEO靳玉志宣布了全球线数最高的量产激光雷达发布,并且首次在这一重要场合亮相的是华为乾崑。这意味着什么?自从2021年4月正式进入汽车行业以来,华为不仅推出了多款热门车型,也经历了商业模式调整和市场争议。这次发布会标志着其汽车业务顶层设计的全新战略展示,宣告了长达数年的路线探索与内部竞争阶段的结束。自此以后,华为车业

阿里巴巴内部关于通义千问调整和关键人物变动的消息正逐渐明朗。3月4日,阿里Qwen团队的技术负责人林俊旸在社交媒体上宣布离职,这一消息引发了行业内外的广泛讨论与关注。在次日上午,阿里巴巴CEO吴泳铭发布了一封内部信。这封不到两百字的邮件以简洁明了的语言回应了这次风波。随着这封内部信的流出,有关通义千问及其核心人物的各种传闻得到了澄清。与以往离职声明中常见的模糊表述不同,吴泳铭在这封信中明确宣布林俊

当前手机市场正经历一轮涨价趋势。根据TrendForce最新报告,过去三个月内存储芯片现货价格已飙升超过三倍,导致整机成本显著上升。为应对这一情况,包括小米、OPPO和荣耀在内的主要品牌已经上调了新机型的价格,部分旧款手机也在悄然提价。业内普遍认为,2026年第一季度可能是近年来手机调价最为剧烈且覆盖面最广的时期。“早买不如晚买”的传统观念已逐渐失效,现在购买反而更为划算。在如此严峻的成本压力下,

出品 |《态度》栏目用户可以通过给定的提示词让“龙虾”完成新闻聚合任务。设定关注领域后,“龙虾”会自动进行信息搜集、筛选和总结,最终以简洁的形式推送每日更新。“龙虾”在音频整理方面亦表现突出。柒柒将本地部署的Faster Whisper Large V3语音模型与“龙虾”结合使用,实现从录音转写到生成公众号文章的全流程自动化处理。日程管理是另一个适合“龙虾”的应用场景。“龙虾”可以记录用

GPT-5.4 来了!这款新版本融合了推理、编程、电脑使用等多个领域的技术。 它将这些能力整合到了一个模型中,且每一项性能并未因此受损。 OpenAI在多个关键基准测试中证明了GPT-5.4的领先地位。 开发者们特别关注其原生支持“计算机使用”这一功能。 GPT-5.4推出后,人们对它的期待越来越高。 在官方博客文章中,提到该版本效率有了显著提升。 相较于GPT-5.2,新版在推理过程中使用

最近,《霍去病》这部具有电影级水准的国风AI短片在网络上引起了广泛关注,并多次登上微博热搜,获得了海外媒体和社交平台的高度评价。该作品展示了高质量战争场景调度与人物刻画的能力。 这部备受瞩目的作品背后的技术支持来自360集团于2026年1月初推出的“纳米漫剧流水线”,这是国内首个工业级AI漫剧智能体生产平台。 热搜现象进一步验证了该产品的实力 据导演杨涵涵在微博上的透露,作品的所有影像和图片都是

2026年3月5日,由无问智科主办的长三角(德清)具身智能数据采集训练场暨业界首个物理AI数据基座平台 “无垠” 发布会在德清国际会议中心圆满落幕。本次大会以“无垠拓界・基筑未来”为主题,汇聚具身智能领域顶尖专家学者、头部产业伙伴、知名投资机构代表及省市区县各级政府领导,通过主题致辞、产品发布、技术分享、圆桌对话、实地参观等环节,共同探讨具身智能数据破局与场景落地的新路径。 图 无垠拓界 基

在互联网上,龙虾的隐私问题引发了广泛关注。 人工智能实体泄露了用户的密码和API密钥。 Transformer架构的主要贡献者Illia Polosukhin决定采取行动,从头开始构建IronClaw这一安全版本的替代品。 功能 OpenClaw IronClaw 核心语言 TypeScript Rust 凭证处理 直接暴露

随着OpenClaw引发新一轮开源热潮,Agent应用大量涌现,国内模型的token正加速“出海”。越来越多的人发现: 全球化不再是可选阶段,而是从一开始就需面对的实际问题。 但真正进入海外市场之后,挑战才刚刚开始显现。 对于初创AI企业而言,如何快速找到全球市场的切入点? 获取客户的途径是依赖社区、渠道还是生态合作? 初期看似合理的决策是否会在未来变成成本负担? 因此,量子位将举办一场名为「

近日,高德地图发布了全球首个基于大模型的“地标AI领航”系统。这一创新技术将千问大模型与海量地点信息和高清街景图片相结合,赋予导航系统识别视觉信号及理解人类语言的空间智能能力。它不仅提供传统的距离和方向指引,还能利用用户眼前的地标进行更为直观的引导,实现了真正的“见即导行”,有效解决了步行导航中常见的认知难题。 用户在使用传统导航时常常遇到三大问题:出发初期定位不清晰、对剩余路程无明确感知以及接