
表面答案:百度的“ERNIE”——2019年的明星
如果按“谁最先搞出个能打的中文大模型并大声喊出来”这标准,百度ERNIE(知识增强的语义表示模型) 在 2019年3月 的发布,确实是多数人记忆中的“第一炮”,那时候,GPT-3还在娘胎里蹲着(2020年才出生),ERNIE已经能理解中文语境里的“苹果”是水果还是手机,还能帮你写诗、对对联,堪称当时最懂中文的AI大脑。
但注意了!这里有个关键细节:2019年的ERNIE 1.0,本质还是个“预训练模型”,和今天动辄千亿参数的“大语言模型”不算完全一回事,它更偏向理解语言,而非生成长文本,它确实为后来的文心一言铺了路,说是“初代目”也不为过。
暗线剧情:清华的“CPM”——2020年的技术宅
就在百度高调秀肌肉时,清华大学的唐杰教授团队默默整了个大活——CPM(Chinese Pre-trained Language Model),在 2020年10月 开源了当时全球最大的中文预训练模型(26亿参数),这哥们儿低调到什么程度?除了技术圈,几乎没人知道,但它确确实实是第一个严格意义上的“中文大参数模型”,纯技术流,不掺商业水分。
如果要争“技术第一”,清华CPM可能更硬核,但问题来了:它没做太多宣传,普通用户根本摸不着,属于“实验室里的绝世高手”,江湖有名却少人见识。
上古传说:更早的“大模型雏形”
如果再往前扒,2018年谷歌推出BERT模型后,国内公司就已经开始跟进类似技术了。
- 阿里在2018年内部研发了ALICE模型(没公开);
- 腾讯的混元系列早在2019年已有内部版本;
- 华为的盘古模型甚至从2020年就开始布局……
但这些都像是“闭门修炼”,没走到台前。“最早”的定义很微妙——是按技术突破时间?发布公告时间?还是公众可用的时间?
为什么“第一”这么难界定?
- 定义打架:啥叫“大模型”?参数过亿?能生成文本?还是得面向公众?标准不同,答案立马跑偏。
- 宣传策略:大公司喜欢抢“首发”名头,而高校更看重论文发表时间,两边节奏根本不在一个频道。
- 技术传承:大模型不是石头里蹦出来的,它建立在Transformer架构、BERT等前辈基础上,硬要追“最早”,可能得追溯到2017年那篇著名的Attention Is All You Need论文……
到底该选谁?
- 如果你看重“公众认知”:百度ERNIE是多数人心中的起点;
- 如果你坚持“技术参数”:清华CPM更符合“大模型”定义;
- 如果你是个“较真党”:抱歉,这个问题根本没有唯一答案,就像问“谁是中国第一个程序员”一样,取决于你如何定义“程序员”。
这是一场没有输家的竞赛
纠结“最早”不如关注“最好”,中国AI大模型的爆发,正是这些机构前赴后继的结果——百度点燃了战火,清华证明了技术可能,阿里、腾讯、字节等玩家陆续入场,才让今天的文心一言、通义千问、混元、豆包们能百花齐放。
最后说句扎心的:当年争“第一”的模型,放到今天可能连智能客服都卷不过,技术迭代的速度,比我们吃瓜的速度快多了!下次再有人问你“国内第一个大模型是谁”,不妨神秘一笑:“你问的是哪个维度的第一?”——瞬间逼格拉满。 基于公开资料梳理,如有更早的案例,欢迎评论区踢馆!)




