从Token到词元:迈向全模态时代的新标准与交互入口
邱锡鹏创办的公司近期宣布已完成多亿元的天使轮融资
2026年3月24日,国家数据局首次在官方声明中将“词元”确立为Token的标准译名,并透露国内日均Token使用量已突破140万亿。尽管如此,这一数字仍主要反映文本时代的规模。
随着语音、视频和实时交互的广泛应用,自主调用工具并提供结果的Agent数量显著增加,Token的生成与消耗方式正在经历根本性的转变。
从离散文本转向连续感知,从低频批量输入转向高频流式输入,这些变化直接影响了下一代AI系统的性能上限和成本结构。
复旦大学邱锡鹏教授早在2021年便率先使用“词元”这一术语,推动了其在中文语境中的标准化应用。他认为,“词元”不仅避免了被简单理解为自然语言中的“词”,而且保留了其作为语言处理基础单位的本质属性。
当大模型从单一文本领域扩展到多模态,并从模型能力向Agent系统转变时,“词元”的意义已经超越了术语层面,成为下一代智能系统的核心架构方式。
在这一背景下,专注于统一Token结构、全模态与情境智能的企业正持续吸引资本的关注。
近日,模思智能(MOSI)宣布完成多亿元的天使轮融资,投资方包括IDG资本、元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本以及某一线产业投资方。
投资方看中的不仅是模思智能的产品能力,更重要的是其对未来技术路径的前瞻性布局。多维资本将担任新一轮独家财务顾问,助力模思智能探索通用智能时代的未来发展方向。
非共识路径:从语音到全模态,在统一Token结构中实现表达与计算
2023年“百模大战”期间,邱锡鹏便注意到,尽管市场上模型众多,但底层技术路径却高度一致。绝大多数资源涌入文本大模型赛道,导致基础研究的多样性逐渐减少。
这种同质化不仅限制了技术发展的可能性,也限制了探索新路径的空间。
在此背景下,模思智能并未继续专注于纯文本路线,而是选择了一条少有人走的道路:从语音入手,迈向全模态,在统一的Token结构中表达和计算不同模态的信息。
选择语音作为切入点的原因并不复杂。
相较于纯文本,音频的信息密度更高,自然包含语调、节奏、情绪等文本难以完全承载的信号;同时,音频也更容易与环境、动作和上下文形成连续输入流,更接近现实世界中的人机交互方式。
语音不仅是交互的入口,更是通向“情境理解”的起点。
当Token不再仅仅是文本中的离散符号,而是成为连续感知信息的离散化表达,模型要解决的问题也发生了转变:从“理解一句话”转向“理解一个情境”。
模思智能将这种能力定义为“情境智能”(Contextual Intelligence)——以持续感知、动态记忆与环境理解为基础,使AI能够在真实世界中实现自适应交互。
在这一框架下,Token不再仅仅是静态输入单元,而是构成情境的基本信号。
Agent则是情境智能在实际应用中的直接载体。
伴随以OpenClaw为代表的基础设施逐步成熟,行业竞争已从单一的“模型能力”比拼转向对交互入口与环境理解能力的争夺。语音、上下文与情境建模能力,已成为新的技术分水岭。
如果说邱锡鹏代表的是这一路线的学术源头,那么模思智能则是这一方向的产业化载体;而上海创智学院则提供了支撑技术快速转化的组织与资源平台。
MOSS之后,真正的布局才刚刚开始
模思智能的核心团队长期深耕预训练、大模型与多模态方向,并持续推进统一Token路线的技术演进。
2023年2月,国内首个类ChatGPT对话式大模型MOSS发布,打响了中国“百模大战”的第一枪。但在模思智能团队看来,更重要的是提前布局下一阶段的技术结构。
同年5月,团队推出SpeechGPT,在业内较早验证了“离散化端到端语音大模型”路径的可行性。
伴随对Token结构的统一,从语音到全模态的转变,模思智能逐步构建起了一体化的技术体系,为未来的发展奠定了坚实的基础。
2025年7月,在创智学院“首发八大AI成果”发布会上,邱锡鹏团队联合模思智能发布的MOSS-Audio被评价为“突破语音交互恐怖谷效应,为情境智能奠定基础”。
创智学院的孵化,使模思智能得以以远超传统学术创业的速度完成技术转化。
目前,公司已形成近百人的全栈技术体系,博士占比接近50%,核心成员主要来自复旦大学NLP体系(CS Ranking全球前列),并持续吸引来自多所顶尖高校的研究人才。
随着公司逐步走向产业化落地,团队引入多位具备阿里、字节、理想汽车等背景的关键成员,补齐工程化与商业化能力,为从1到N的规模化扩张奠定基础。
商业化层面,模思智能多模态大模型开放平台已进入全面公测阶段,提供一站式API服务,以高稳定性和高性价比支撑企业级调用需求。
目前,公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作,初步验证了技术落地能力与商业转化潜力。
从单点突破到能力闭环
模思智能更强调从基座模型到垂直应用的一体化能力构建,其商业增长飞轮将围绕“词元(Token)的生产、分发与应用”展开,从MaaS能力输出延伸至2B、2B2C与2C多层级场景,逐步形成技术与商业双轮驱动的公司。
国家数据局首次正式宣布“词元”译名,标志着大模型产业正从早期的野蛮生长阶段向更高程度的规范化发展。
这背后意味着,单纯依赖参数堆叠与算力外推的阶段正在逐步过去,未来模型能力的差距,可能越来越取决于架构创新、系统组织方式以及顶尖人才的密度。
模思智能试图回答的问题是:当大模型进入深水区,真正的护城河究竟是什么?
答案或许已不再仅是参数规模或算力投入本身,而在于是否能够更早识别并押注下一代智能的核心结构。
- 对模思智能而言,这种结构体现为:统一的Token表达、面向情境的持续理解能力,以及能够调用工具、交付结果、与用户建立长期关系的Agent系统。
- 当“词元”进入官方语言,真正值得关注的,或许已不只是一个术语被定名,而是谁能够率先定义:词元将如何被生产、组织与使用。
- 在某种程度上,这也正是在定义下一代智能系统的边界。
- 基于该Tokenizer训练的MOSS-TTS系列模型,则主要面向实际生产场景,在音色克隆相似度等指标上表现突出。
至此,模思智能已经成为国内少数完成“全模态基座模型能力闭环”的初创公司之一。
视频地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
这一系列成果背后,并不是若干彼此孤立的技术突破,而是同一个底层命题被不断验证后的自然延展:多模态信息可以通过统一的离散化方式映射到同一Token序列结构中,进而实现统一计算。
离散化带来的,不只是更高的压缩效率,更重要的是赋予不同模态以可组合性与可计算性——而这正是全模态智能与Agent系统真正落地的底层架构前提。
顶尖大模型产业化团队:具备从0到N的全栈能力
支撑模思智能技术路径的,是一支同时具备前沿研究深度与工程落地能力的核心团队。
首席科学家邱锡鹏,复旦大学教授,国家杰出青年科学基金获得者、上海创智学院全职导师,并荣获2024年CCF-ACM AI Award(当年全球唯一获奖人)。
他长期深耕自然语言处理与大模型方向,在端到端语音大模型与全模态基座模型等前沿领域持续保持技术领先,是国内大模型领域兼具学术高度与产业影响力的领军人物,多次入选全球前2%顶尖科学家榜单。
其著作《神经网络与深度学习》被广泛用于高校教学。
CEO李世民出自邱锡鹏门下硕博连读体系,以一作身份发表多篇CCF-A类论文,并深度参与科技部“新一代人工智能2030”重点研发项目,在拟人化人机交互方向实现多项关键技术突破。
对李世民而言,创业并非角色转换,而是其既有研究路径在产业侧的自然延伸。
值得注意的是,模思智能并非传统意义上的“教授带学生创业”,而是由上海创智学院与复旦大学联合孵化的标杆项目。
作为上海市主导设立的新型研发机构,创智学院为公司提供了覆盖算力、人才与产业资源的体系化支持,使其具备远高于常规学术创业项目的起点与迭代速度。
2025年7月,在创智学院“首发八大AI成果”发布会上,邱锡鹏团队联合模思智能发布的MOSS-Audio被评价为“突破语音交互恐怖谷效应,为情境智能奠定基础”。
△图源:上海创智学院官微
同年9月,在一周年成果发布会上,团队提出的规模化全流程大模型可解释框架再次入选七大创新成果,标志着中国在相关方向实现从跟跑到领跑的跃迁。CEO李世民表示:
创智学院的孵化,使我们能够以远超传统学术创业的速度完成技术转化。
公司目前已形成近百人的全栈技术体系,博士占比接近50%,核心成员主要来自复旦大学NLP体系(CS Ranking全球前列),并持续吸引来自多所顶尖高校的研究人才。
随着公司逐步走向产业化落地,团队引入多位具备阿里、字节、理想汽车等背景的关键成员,补齐工程化与商业化能力,为从1到N的规模化扩张奠定基础。
商业化层面,模思智能多模态大模型开放平台已进入全面公测阶段,提供一站式API服务,以高稳定性与高性价比支撑企业级调用需求。
目前,公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作,初步验证了技术落地能力与商业转化潜力。
模思智能更强调从基座模型到垂直应用的一体化能力构建,其商业增长飞轮将围绕“词元(Token)的生产、分发与应用”展开,从MaaS能力输出延伸至2B、2B2C与2C多层级场景,逐步形成技术与商业双轮驱动的公司。
谁在定义下一代智能
国家数据局首次官宣“词元”译名,在某种程度上标志着大模型产业正从早期野蛮生长走向更高程度的规范化。
这背后意味着,单纯依赖参数堆叠与算力外推的阶段正在逐步过去,未来模型能力的差距,可能越来越取决于架构创新、系统组织方式以及顶尖人才密度。
模思智能试图回答的,正是一个尚无定论的问题:当大模型进入深水区,真正的护城河究竟是什么?
答案或许已不再只是参数规模或算力投入本身,而在于是否能够更早识别并押注下一代智能的核心结构。
对模思智能而言,这种结构体现为:统一的Token表达、面向情境的持续理解能力,以及能够调用工具、交付结果、与用户建立长期关系的Agent系统。
当“词元”进入官方语言,真正值得关注的,或许已不只是一个术语被定名,而是谁能够率先定义:词元将如何被生产、组织与使用。
某种意义上,这也正是在定义下一代智能系统的边界。

一水