最近,量子位公众号 QbitAI 发布了一篇关于DeepSeek公司的报道。
该工程师名叫郭达雅,是V2、V3、R1等一系列模型的重要作者。
郭达雅在学术领域和竞赛中有着卓越的表现,被誉为“中山大学雷军”。
据郭达雅自述,他博士入学后的第三天就完成了毕业所需的论文发表要求。
他还在腾讯广告算法大赛中多次夺冠,并在微信大数据挑战赛中获得第一名。
郭达雅在真人秀《燃烧吧!天才程序员》中展现了顶尖的编程能力。
离职的消息传到国外网站后,也引起了网友们的热议。
自从郭达雅博士毕业后加入DeepSeek,他就参与了Coder、Math等专项模型的研发。
郭达雅究竟是什么样的天才少年?

他于2023年博士毕业后加入DeepSeek,专注于代码智能和大语言模型研究。
加入DeepSeek的主要原因是他的师姐向他介绍了公司的愿景,这与他的个人价值观相契合。
目前,郭达雅的个人主页仍显示为DeepSeek研究员。
郭达雅是DeepSeek多个模型的核心贡献者,包括V2、V3和R1,还有Math、Coder、Prover和V2-Prover。
从时间顺序来看,2024年1月,郭达雅推出了DeepSeek-Coder大模型。
次年2月,他发布了DeepSeek-Math,该模型以DeepSeek-Coder-Base-v1.5 7B为基础,增加了120B数学相关的token训练。
2024年5月,DeepSeek发布了DeepSeek-Prover,这是一个面向Lean 4定理证明的项目。

模型在Lean 4 miniF2F上的准确率达到46.3%,累计到52%,优于GPT-4的23.0%。

在FIMO基准测试中,DeepSeek-Prover解决了148题中的5题,而GPT-4则未能解决。
这些成果表明,DeepSeek的模型不仅能完成一般的数学推理,还能处理更复杂的逻辑证明。

在DeepSeek的研发过程中,郭达雅证明了不依赖人工标注的推理轨迹,仅通过纯强化学习就能提升大模型的推理能力。
DeepSeek-R1的相关论文后来发表在Nature杂志上,披露了R1的训练成本约为29.4万美元。
总的来说,郭达雅在DeepSeek的工作涵盖了多个项目和整个研发过程。

他对计算机和编程的兴趣从中学时期就开始了。
郭达雅在中学期间就对计算机科学产生了浓厚的兴趣,这成为他选择计算机专业的决定性因素。
他在高中时首次接触计算机编程,并被编程的严谨逻辑性和无限创造力深深吸引。
这段经历让他在高考后毫不犹豫地选择了计算机专业。

2014年,郭达雅被中山大学计算机学院录取,随后继续直博深造。
大四时,他入选中山大学与微软亚洲研究院联合培养博士生项目,师从印鉴教授和周明博士。

他的研究方向是自然语言处理。
读博期间,郭达雅的实习是在联培单位MSRA完成的。
他完成了CodeBert和GraphCodeBert的研究,并发表在EMNLP 2020 Findings和ICLR 2021上。
CodeBert开发了一个双模态预训练模型,填补了同时处理NL和PL混合输入的空白。
GraphCodeBert则在此基础上,首次将代码的数据流结构纳入预训练,让模型对代码的理解更深入。
毕业时,郭达雅的博士论文《基于预训练的程序理解与生成》获评2023年中山大学优秀博士学位论文。
从会议到博士论文,再到DeepSeek期间的工作,郭达雅的工作几乎一直围绕着编程展开。

在DeepSeek-V3发布后,他的导师印鉴教授寄语,希望他能成为“中山大学的雷军”。
郭达雅已在NeurIPS、ACL、EMNLP等国际顶级AI会议发表论文十余篇,谷歌学术引用量超过1300次。
在数据挖掘竞赛方面,郭达雅也长期活跃于一线赛场。
他连续两年拿下蚂蚁集团主办的ATEC科技精英赛冠军。
在2022年微信大数据挑战赛中,他带队夺冠,获得了30万元奖金。
郭达雅在腾讯广告算法大赛中多次夺冠,被誉为该赛事的名人堂选手。

在综艺节目《燃烧吧!天才程序员》中,郭达雅展现了顶尖的编程能力。

节目组将选手分为S、SS、SSS三个级别,SSS级的“巨佬”只有2名,郭达雅是其中之一。
郭达雅一出场便吸引了观众的目光,“巨佬来了”“神一样的存在”等评论频现。
虽然郭达雅在学术和竞赛中表现出色,但他还有不太“科研”的一面,那就是上综艺节目。
但现在,秦失其鹿,天下共逐之。
截至目前,郭达雅已在NeurIPS、ACL、EMNLP等国际顶级AI会议发表论文十余篇,谷歌学术引用量超1300次。
此外,在数据挖掘竞赛方面,郭达雅也长期活跃于一线赛场:
2021、2022年,他连续两年拿下蚂蚁集团主办的ATEC科技精英赛冠军;
2022年微信大数据挑战赛,3200支队伍同台竞技,他带队夺冠,成功将30万大奖收入囊中。

而郭达雅最具代表性的战绩,是在腾讯广告算法大赛中连续夺冠
作为DYG战队核心成员,他在2019年获得冠军,并于2020年实现卫冕,利用BERT算法拿下50万元大奖;2021年又成功夺冠。
也算是腾讯广告算法大赛名人堂选手了。
One More Thing
有意思的是,学术和竞赛全面开花的郭达雅,还有不太“科研”的一面——上综艺

在以程序员为主题的综艺真人秀《燃烧吧!天才程序员》中,郭达雅和另外15名选手一起展开了60小时的代码极限挑战。
节目组把选手分成了S、SS、SSS三个级别,SSS级的“巨佬”只有2名,郭达雅就是其中之一。
郭达雅一出场便引人瞩目,“巨佬来了”“神一样的存在”。
不仅强,而且头发还挺茂密。
但现在,秦失其鹿,天下共逐之…
谁又能得到郭达雅呢?
[1]https://www.reddit.com/r/LocalLLaMA/comments/1rzu7rc/deepseek_core_researcher_daya_guo_rumored_to_have/
[2]https://guoday.github.io/
[3]https://mp.weixin.qq.com/s/bYztba9PwPHePhwufd4L7Q
[4]https://sai.sysu.edu.cn/node/545
