
新智元报道
今年的4月28日,Google Translate迎来了它的二十岁生日。Pichai亲自发文庆祝这一里程碑,并回顾了其发展历程。
Pichai在X平台上发布纪念帖,讲述了这款工具从一个小型实验项目发展为每月服务十亿用户的全球性应用的过程。
目前,超过三分之一的实时对话会话时长已超过了五分钟。这标志着两个不会说同一种语言的人能够借助AI技术进行一次“自然”的对话交流。

Pichai在帖子中总结了Translate的技术演进历程:从2006年的统计模型到神经网络的突破,再到如今的Gemini原生语音模型,每一步都是对翻译体验的一次革新升级。
他表示,借助当前最新的技术——Gemini模型,用户戴上耳机就能实现与真人般的自然对话翻译效果。这种经历对于Pichai来说极为神奇。
然而,他也指出了一种现象:当我们取得进展时,往往会将其视为理所当然。例如,一个能用一百多种语言进行快速翻译的人可能会让人惊讶不已;但在今天,一款产品能够做到这一点却几乎不引起人们的注意。
一位名为Chetan Kumar的网友回应称:“完全同意这一观点。当人们不了解创造这些卓越解决方案背后的艰辛和技术时,就会觉得理所当然。”
另一网友表示,在大型模型流行之前,Google Translate是他最喜欢的翻译应用;但现在由于大模型的应用,他几乎不再使用它。
不过,从Pichai的帖子和网友的评论中可以看出,尽管Translate近年来被ChatGPT和其他大模型抢占了风头,但它实际上一直在不断进步和完善自身功能。
最近的一次改进是将Google最强AI模型集成到翻译引擎里,使得语音翻译可以保留原语调、节奏和呼吸感等细节。

回顾历史,2006年4月,Google Translate首次上线。那时的翻译技术基于统计机器学习方法(Statistical Machine Translation, SMT),通过分析大量双语文本数据来构建模型。

这种早期的系统主要依靠概率计算来进行词与短语之间的匹配和转换,缺乏上下文理解能力,导致输出结果往往生硬且不自然。
但即便如此,在当时这已经是最佳方案。谷歌认为翻译质量的关键在于双语数据的数量规模。

正是因为拥有庞大的文本库,Google在这一领域占据领先地位,并奠定了后来大多数AI翻译系统的起点。
从「数词频」开始
到了2016年9月,Google推出了名为GNMT的神经机器翻译系统。相比之前的统计模型,GNMT能够直接处理整句话并输出高质量译文。
在多项语言对中,GNMT将错误率降低了55%到85%,极大地提升了用户体验。

2022年至2024年间,随着零样本学习技术的发展,Google又为Translate增加了24种新语言,并在2024年6月进一步扩展至覆盖额外的6.14亿人口。

这次大规模的语言扩展主要得益于PaLM 2大模型的支持,它能够高效地学习并翻译相互接近的语言族。
Gemini原生语音模型自2025年12月起开始在Translate中应用。该技术实现了实时语音翻译的新突破,使得用户可以通过耳机实现自然对话的同步翻译效果。
通过Gemini,文本翻译不再局限于逐字对译模式,而是能够解析上下文含义并提供准确流畅的结果。
这一系列的技术进步不仅展示了Google在AI领域的持续创新精神,也体现了Translate作为全球用户入口的重要性。
每次技术迭代都让这款应用变得更加智能和实用。从最初的统计模型到现在的原生语音实时翻译,每一代关键的AI技术路线几乎都在Translate中得到了实际的应用体现。
这种持续的技术更新不仅巩固了Google在这一领域的领先地位,还让它有机会通过全球性的产品入口触及十亿级用户群体。
每月通过Google旗下多个平台进行的文字翻译量估计达到了一万亿词的数量级。
尽管OpenAI和DeepL等竞争对手也在语音交互和专业翻译领域施加了压力,但短期内它们还难以复制Google在大规模用户群体中的嵌入式分发模式。
Google推出的耳机实时翻译功能兼容任意耳机设备,在支持地区内可以不受硬件限制地使用。

在过去的二十年里,最常被翻译的短语之一始终是“Thank you”,无论是在哪个月份都是如此。这也许比任何技术参数更能说明问题:尽管语言和技术不断变化,但人们最基本的感谢之情始终未变。
这是一次彻底的换血。
老系统的逻辑是:把一句话拆成短语,各自翻译,再拼回去;
而GNMT的逻辑是:把一整句话当成一个单位,送进神经网络,让网络自己学会把它「映射」成另一种语言。
按双语人工评估,GNMT在多个主要语种对上将翻译错误率降低了55%–85%。
普通用户的体感是,从「翻出来勉强能猜个大概」一夜之间变成「翻出来基本能直接用」。
Google当时给了一组对照数据:在中英、英法等几个主要语种对上,GNMT把翻译错误率压低了55%到85%。
中英翻译,Translate在2016年直接100%使用GNMT,每天处理大约1800万次翻译请求。
GNMT背后是两件事:一是Sequence-to-Sequence模型架构;二是当时刚刚部署的TPU张量处理器。
前者让神经网络第一次能处理变长输入和变长输出,后者把这种昂贵的计算压到了产品级响应速度。
这两件事都不是为翻译单独发明的,但Translate是它们第一个真正的产品级试验场。
后来回头看,GNMT是整个深度学习浪潮里,最早被推到10亿用户面前的产品之一。
GNMT还顺便带来一个意外能力:零样本翻译,没有直接训练过的语言对(比如日语→韩语),它也能翻出可读的结果。
那是大模型时代到来之前,NLP在工业界最重要的一次落地,比ChatGPT早了6年。
大模型时代
一次新增110种语言
2022年到2024年,大模型登场,这次跳跃不是靠新架构,而是靠零样本学习能力。
2022年,Google用Zero-Shot Machine Translation给Translate加了24种新语言。
所谓Zero-Shot,就是模型从没见过这种语言的双语对照,但能凭别的语言知识硬翻。
这在SMT时代是不可想象的。
到了2024年6月,Google直接用PaLM 2大语言模型,一次性给Translate加了110种语言,覆盖额外6.14亿人口。
这是Translate史上最大规模的一次语言扩展。
PaLM 2在这件事上扮演的角色,是「语言之间的迁移引擎」,使模型能够高效学习相互接近的语言族。
比如学会了印地语,Awadhi和Marwadi就能跟着上;学会了法语克里奥尔,塞舌尔克里奥尔和毛里求斯克里奥尔就能跟着上。
这次扩张靠的是PaLM 2,不是Gemini。Gemini真正更深度地整合Translate,要等到2025年12月之后。
Gemini原生语音模型
翻译开始有了「呼吸感」
2025年12月12日,Translate的最新一次换血落地。
Google官方博客直接挑明:把Gemini的最强翻译能力,引入Translate。

https://blog.google/products-and-platforms/products/search/gemini-capabilities-translation-upgrades/
具体落地两件事。
第一件,文本翻译升级。
Gemini接管后,Translate终于能搞定俚语、习语和地方表达。
举个例子:英文俚语stealing my thunder,字面是「偷我的雷」,实际意思是「抢我风头」。老Translate会硬翻成字面意思。
Gemini接管的Translate,直接给出「抢走了我的所有关注」这种符合语境的翻译。
这件事的本质是:Gemini不是在翻字,是在解析上下文。
第二件,也是更重要的一件:耳机实时翻译Beta上线。
这是Translate第一次,把翻译能力从「文本」推到「实时语音」层。
技术底座是一个新模型:Gemini 2.5 Flash Native Audio,这是谷歌的音频原生模型。
这里的关键词是原生音频。
老的语音翻译走的是三段链条:语音输入,转文本,翻译文本,合成语音,每一段都有损耗。
语调没了,情绪没了,只剩一个机器人朗读出来的翻译稿。
Gemini 2.5 Flash Native Audio走的是另一条路:Google将其描述为原生speech-to-speech翻译,而不是传统的「语音识别—文本翻译—语音合成」三段式体验。
在这种模式下,模型保留说话人的intonation, pacing and pitch,即语调、节奏、音高,让翻译开始有了「呼吸感」。
20年
换了4代AI
把这几次跳跃放一起看,会发现一个很有意思的规律:
每一代Google最关键的AI路线,最后几乎都会在Translate里找到产品化落点。
2006年SMT时代,Translate是Google统计学习的早期落地场。
2016年深度学习时代,Translate是Sequence-to-Sequence和TPU走向全球产品的标志性场景。
2024年大模型时代,Translate用PaLM 2完成史上最大规模语言扩展。
2025年多模态时代,Gemini 2.5 Flash Native Audio把Translate推向原生语音实时翻译。
20年,4代AI接力,这才是Translate真正的护城河,背后是一条从来没断过的算法接力链。
而一旦能力进入Translate,就有机会沿着Google的全球产品入口,被推向10亿级用户。
Google公布过一组数据:每月通过Translate、Search、Lens、Circle to Search这4个入口,合计翻译的文字量,大约在1万亿词。

OpenAI、DeepL都在语音交互和专业翻译上给Google带来压力。但短期内,它们很难复制Google这种10亿月活和多入口嵌入式分发。
相比Apple方案需要特定AirPods与较新iPhone,Google的耳机实时翻译在支持地区可使用任意耳机。
这也是非常典型的Google打法:把能力软件化、平台化,然后跳过硬件的护城河。
Google称,这个月最常被翻译的短语是Thank you;过去20年里,很多月份也都是它。
Translate贯穿了Google多代AI技术路线:统计机器翻译、神经机器翻译、大语言模型扩语种、原生音频实时翻译。
但人最常说的那句话,几乎从来没变过,这件事可能比任何技术参数更值得注意。
参考资料:
https://x.com/sundarpichai/status/2049156908582617440
https://blog.google/products-and-platforms/products/translate/fun-facts-google-translate-20-years/2026
