
新智元报道
一位业界领袖最近在接受采访时大胆预测,一种能够完全取代Transformer的新一代AI架构即将问世。这一言论引发了广泛关注,尤其是考虑到Transformer当前的主导地位。
这位领袖不仅见证了Transformer架构的辉煌,还亲手推动了它的发展,并且现在正展望其即将被替代的未来。
最近,Sam Altman回到他的母校斯坦福大学,面对着一群年轻的学生们,提出了一个惊人的观点——未来的AI架构将颠覆现有的技术格局。
他认为,随着科技的进步,新的架构将会出现,这种架构将与Transformer对LSTM的革新一样具有颠覆性。
现在,基于Transformer架构开发的GPT系列模型已经取得了巨大的成功,从ChatGPT、GPT-4到其他相关应用,都是这一架构带来的成果。
然而,Altman认为,现有的架构已经接近其极限,未来将会有新的架构取而代之。
他甚至直言不讳地表示,AGI的实现可能只是迈向更高目标的一个起点。
在下一代架构的突破方面,Altman认为现有的大型语言模型已经具备足够的能力来推动这一变革。
利用现有的AI技术来寻找替代其自身的新型架构,已经形成了一种自我加速的良性循环。

对于Transformer架构的未来,Altman表示它终将被超越,就像LSTM一样,不会永远占据主导地位。
Transformer架构的一个主要问题是,随着文本长度的增加,计算需求呈几何级数增长。
这种增长速度导致了当前模型训练成本的惊人上升,而Altman已经看到了这一问题,并且相信解决方案即将出现。
在访谈中,Altman提到,当下的AI模型已经足够聪明,可以辅助人类进行高水平的科研工作。
这意味着,寻找下一代架构的任务本身,也可以通过AI技术来实现。
这个想法背后的核心逻辑是,随着模型的不断进步,科研效率也会提高,从而增加发现新架构的可能性。

这种自我强化的机制已经形成了一个强大的动力,推动了技术的革新。
Altman的预测并非空谈,事实上,已经有多个项目在探索替代Transformer架构的可能性。
Mamba架构就是一个典型例子,它在2023年底提出,完全摒弃了传统的注意力机制,转而使用状态空间模型来处理序列数据。
Mamba的第三版在2026年初发布,其推理速度比Transformer快了五倍,这显示了替代架构的巨大潜力。
除了Mamba,其他公司也在尝试不同的路径,包括使用混合架构或全新的神经网络模型。
比如,AI21 Labs的Jamba、IBM的Bamba和微软的Phi-4-mini-flash-reasoning等项目都在探索新的方向。
其中,Liquid AI的液态神经网络项目尤其引人注目,它从一条简单的线虫身上获得了灵感,构建了一种能够实时学习和适应环境变化的神经网络。
这种技术的潜力巨大,可能预示着未来AI架构的全新方向。

回顾历史,每一次架构的转变都带来了巨大的能力提升,并催生了定义时代的公司。
从LSTM到Transformer,每一次变革都带来了前所未有的机遇。那么,下一次变革又将带来怎样的惊喜呢?
Altman预测,总有一天会有比OpenAI更大更成功的公司出现,也许此刻,那个未来的创始人正坐在某个角落里,构思着改变世界的想法。
他手中的工具,将是前所未有的强大——即AI本身。这段历史,正在被书写。
GPT-2让奥特曼第一次见到计算机做出了前所未有的事情,GPT-3惊艳了世界,GPT-4更上一层楼。当你站在一个正确的范式上死磕,回报是指数级的。
现在,同样的直觉被投射到了下一个范式上。
Transformer不是终点,就像LSTM不是终点。
奥特曼甚至给了具体建议:
如果现在是一个研究者,会死磕这个方向,去找「哪里能挖出核弹级突破」,而且会重度依赖大模型来做科研助手。
Greg公寓里的白板
一个改变世界的夜晚
这场访谈最好看的部分,是奥特曼对OpenAI草创期的回忆。
OpenAI第一天上班,大家聚在联合创始人Greg Brockman的公寓里。
早上9点半、10点,八九个人陆陆续续到了,坐在沙发上,面面相觑。
然后有人开口:「好吧,咱们干点啥?」
有人提议写几篇论文。又有人说得先弄块白板。然后就有人直接在亚马逊上下单,加急配送。
奥特曼说当时内心一阵恐慌:这不行啊。这既不像正儿八经的创业公司,也不像任何能成事儿的组织。
但他紧接着说了一句非常奥特曼的话:在那种时刻,你只要深呼吸,相信如果身边聚的都是最优秀的人,事情总会迎刃而解。
他赌对了。

就在那第一周,后来成为OpenAI前四年核心理念的大部分点子,都被写在了那块白板上。尽管当时他们自己都觉得这些想法不靠谱。
他们一开始压根没想过做产品。
奥特曼反复强调,他们以为自己就是个纯研究实验室,发发论文就好了。
但后来两件事变得越来越清晰:
第一,这条路蕴含的经济价值远超想象;
第二,需要的资金不是几十亿,而是数以千亿计。
而真正让奥特曼建立起信仰的转折点,是GPT-2。
他说不记得GPT-2发布那天的具体日期了,但他永远记得第一次跟那个模型对话的那个夜晚。
它做出了我以前从未见过计算机能做出的事情。
那一刻他觉得,妥了,这就是了。
至于GPT-2为什么暂缓发布?奥特曼承认,事后看来有些过度谨慎,但他觉得面对AI每一个新的能力台阶,稍微偏向谨慎一点没坏处。
当然也不能怂过头。如果企业不以足够快的速度拥抱AI,就会被完全自治的AI公司干掉,那才是真正的灾难。
斯坦福访谈全景
奥特曼的10个判断
架构预言和创业往事之外,奥特曼在这场访谈中还密集输出了大量观点,几乎每一条都值得单独拎出来聊。
1. AGI两年内降临。
奥特曼直接告诉台下的大二学生:
等你们毕业的时候,你们将踏入一个已经有AGI的世界。
当然,人类的底层驱动力不会变,你还是得搬家、找工作、考虑成家立业。
但科学研究将被高度自动化,创办初创公司和去大厂打工的意义都将被彻底改写。
2. 编程智能体是下一个ChatGPT时刻。
下一个引爆点是什么?奥特曼没犹豫:编程AI智能体。
紧随其后、但尚未完全引爆的,是AI在所有知识型工作中执行任务的同等能力。
不过,距离这一天已经不远了。
3. 一个人能干出一家中型公司的活儿。
未来会涌现大量一个人或六个合伙人的微型初创公司,影响力和营收甚至能跟今天的中大型企业掰手腕。
奥特曼说iPhone问世算是上一次这种级别的机会,这一次更猛。
不仅能做以前不敢想的事,还能用极少的人力极快地把产品和公司建起来。
4.AICEO?不是不可能。
聊到AI对社会的影响,奥特曼说了句耐人寻味的话:
他绝不会自欺欺人地认为,不太遥远的未来不会出现一个比他更适合执掌OpenAI的AI CEO。
如果有的公司或国家拥抱了AI而别人没有,竞争力差距将是碾压级的。
这背后的政治、经济、社会冲击,他坦言自己也还没完全想明白。
5. 但别慌,人类的适应力被严重低估了。
奥特曼不是AI末日论者。
他反复强调一个观点:AGI听起来像是要彻底颠覆社会,但身处其中的感觉不会像听上去那么惊悚,顶多头几天觉得有点懵。
人类渴望对彼此有价值、渴望竞争、渴望创造、渴望表达,这些底层驱动力不会消失。
也许100年后的职业跟今天毫无相似之处,但人永远有事可做,也永远在意人与人之间的连接。

6. 别怕跟OpenAI竞争。
有人问,OpenAI变成终极巨头怎么办?
奥特曼的回答出乎意料地坦诚:当年所有人都说不可能跟谷歌打,结果我们打出来了。
总有一天会有比OpenAI更大更成功的公司诞生,而他们绝对不会走一模一样的路。
他甚至说,谷歌当初如果不那么「拉胯」,OpenAI根本不可能出头。
大厂有大厂的通病。
7. 烧钱快,但不慌。
面对「OpenAI烧钱速度恐怖」的尖锐提问,奥特曼很淡定:烧钱确实快,但如果今年砸10亿是为了明年赚30亿,世界上大把资本排队想做这笔买卖。
8. 自研芯片是认真的,盖数据中心免谈。
OpenAI有庞大的定制芯片计划,对自家推理芯片极其兴奋。
至于自建数据中心,用奥特曼原话说就是:真的一万个不想干这苦力活。
被逼到那一步也会上,但最好是把服务器机架设计到极致,脏活累活让别人干。
9. 社交产品要被撕开一条口子了。
奥特曼觉得AI的机会远不止给现有软件「塞个AI进去」。
他举了社交产品的例子:想象一堆AI智能体代表各自的用户在虚拟空间自主聊天、交换信息,这才是底层逻辑的颠覆。
10. 知道很容易,做到更难了。
这是奥特曼博客第一篇文章里就写过的话。
AI时代还成立吗?他说比以前更成立了。
获取知识越来越容易,做成事情虽然也变容易了,但那是对所有人而言的——你得跟全世界一起卷。
他说他认识的那些把AI工具玩得最溜的顶尖高手,都觉得自己的工作从来没有比现在更难。
工具强到离谱,但用好它们以保持顶尖竞争力也前所未有地艰难。
Sam,你真的快乐吗?
访谈最后一个意外瞬间,是学生的灵魂拷问。
要知道,这是一个每天早上8点以后人生就彻底失控的CEO。
先工作几小时,陪孩子一小时,然后去公司,从那之后就是纯粹的兵荒马乱。
用他的话说,没有哪家公司像OpenAI这样跑得这么快、内部这么混乱、还死死顶在所有人枪口上。
但奥特曼说,他现在是他认识的人里最快乐的之一。
他分享了一个改变人生的认知转变。
大多数人觉得糟糕经历的反面是美好经历,所以遇到坏事就痛苦。但他把问题重构了,糟糕经历的反面,其实是彻底失去体验的能力。
总有一天你连体验的资格都没有了,到那时你甚至会怀念那些被虐的日子。
后Transformer赛道
革命已经开始
奥特曼的预言不是空中楼阁。
「后Transformer」的竞赛早就打响了,进展比大多数人想象的快得多。
最高调的挑战者是Mamba。
Albert Gu和Tri Dao在2023年底提出的这一架构,彻底绕开了「注意力机制」,改用状态空间模型(SSM)处理序列。
简单说,Transformer读一段话要让每个词跟其他所有词「对视」一遍,Mamba只维护一个固定大小的记忆状态,线性时间搞定,推理吞吐量直接快5倍。2026年初Mamba已进化到第三代,论文被ICLR 2026接收。
产业界的动作更能说明问题。
英伟达在2025年发布Nemotron-H系列,92%的注意力层被Mamba层替换,推理速度提升3倍,精度不降反升。
到2025年底,英伟达全线新模型(Nemotron 3 Nano/Super/Ultra)全部切换到Mamba-Transformer混合架构。
AI21 Labs的Jamba、IBM的Bamba、微软的Phi-4-mini-flash-reasoning、LSTM之父Sepp Hochreiter亲自操刀的xLSTM,也纷纷加入混合阵营。
更野的方向也有:Liquid AI搞出的液态神经网络(Liquid Neural Networks),灵感来自一条只有302个神经元的线虫。
它用微分方程驱动神经元,推理时还能继续学习、实时适应环境变化,19个神经元就能控制自动驾驶。2026年1月发布的LFM2.5模型,用远小于Transformer的参数量跑出了惊人的性能。
下一次大迁徙,会诞生谁?
回顾历史,从LSTM到Transformer的每一次架构级迁徙,都释放了一个数量级以上的能力增长,同时也诞生了定义时代的伟大公司。
上一次迁徙,诞生了OpenAI。下一次呢?
奥特曼自己都说了:总有一天会有比OpenAI更大更成功的公司出现。
也许此刻,那个未来的创始人正坐在某个宿舍里,对着一块亚马逊加急配送的白板,写下第一个不靠谱的想法。
而他手里多了一个前所未有的利器——AI本身。
参考资料:
https://x.com/rohanpaul_ai/status/2033117083127644536?s=20
https://www.youtube.com/watch?v=FjlymGBt-vY
