国产大模型大变局：从“百模大战”到“基模五强”

下载新华网客户端

2025-05-13 10:55:40

161.6万

新华网北京5月13日电（周宇龙）2024年“百模大战”的硝烟尚未散尽，国内AI基础大模型市场已悄然迎来新一轮洗牌。

随着DeepSeek以“GPT-4级别性能+十分之一的算力成本”的颠覆性技术突破，原有“大模型六小虎”（阶跃星辰、智谱AI、MiniMax、百川智能、月之暗面、零一万物）的格局被打破，市场加速收敛至新“基模五强”，即字节跳动、阿里、阶跃星辰、智谱AI、DeepSeek的竞争体系。

这场变革不仅标志着技术实力的分野，更预示着国内基础大模型市场迎来“新秩序”，产业竞争将从无序扩张转向智能上限突破与多模态融合的“新战场”。

从“百模并起”到“五强争锋”

2022年11月30日OpenAI发布ChatGPT，引发全球AI浪潮。同年12月，曾任微软全球副总裁的姜大昕博士向ChatGPT提问：“你多大了？”

ChatGPT回答：“我是在2019年被训练完成，今年是2022年，所以是3岁。”姜大昕再问：“你明年多大？”ChatGPT回答“4岁”。

这样的回答让姜大昕震惊了。这两个问题看似简单，但放在以前，是能让所有基于检索或规则的聊天机器人犯难的。最大的难点在于要理解明年是“今年+1”，然后再把数字代进去算一遍，这个减法的过程就是推理。ChatGPT的回答，则体现了远超以往的理解思考和数字推理能力。这让姜大昕意识到：人工智能的发展或将迎来新的关键转折点。

2023年4月，阶跃星辰在上海徐汇成立（以下简称“阶跃”）。几乎同期，百川智能、月之暗面、零一万物等企业相继成立，国内“百模大战”正式拉开序幕。

经过时间的淬炼与沉淀，业内共有6家公司脱颖而出：阶跃、智谱、MiniMax、百川智能、月之暗面与零一万物，业内并称为“大模型六小虎”。

2024年，“六小虎”堪称AI创业赛道最闪亮的星，被视作“中国的OpenAI”。但与此同时，日新月异的特点在人工智能领域体现得更为极致，以字节和阿里为代表，纷纷重回“创业状态”。

来到2025年1月15日，DeepSeek官方App正式上线，不到两周，DeepSeek日活用户便超越了豆包。2025年春节DeepSeek彻底破圈，不仅以“东方神秘力量”的姿态震惊了美国科创圈，同时也掀翻了国内大模型产业的牌桌。

一方面，DeepSeek对训练成本的极致优化，并没有让赛道内的玩家们减少投入，反而是头部企业通过“价格战”进一步加速了行业洗牌。

另一方面，各地人工智能产业相关政策密集出台，如今年年初，上海徐汇区发布《加快建成全国人工智能高地三年行动计划（2025-2027）》，提出10项重点行动。地方“算力券”“语料券”也开始向头部玩家倾斜，加速了资源集中，一场更为惨烈的“军备竞赛”由此展开。

在资源、人才和技术的三重壁垒之下，基础大模型赛道竞争格局迅速收敛，形成了字节、阿里、阶跃、智谱和DeepSeek的五强争锋，代表当前国内基础大模型综合实力的最高水平。

从资源技术到差异化优势

与此同时，海外市场同样呈现“五强争霸”格局：OpenAI、Anthropic、谷歌、x AI、Meta构成头部阵营。国元证券报告指出，大模型能力差距缩小，但技术密集投入仍是竞争关键。

这并非是偶然，“高密度的人才、高质量的数据、AI基础设施的系统能力仍然是基础大模型提升的必须要素。”阶跃的大模型专家表示。

事实上，大模型训练属于资本密集型赛道早已成为行业共识。从这个视角看去，新“基模五强”都拥有自己的长板，从而形成差异化优势。

字节是国内所有科技巨头中，大语言模型起步最晚的一家。但在2023年6月字节高层决定自己做AI之后，立刻成立了独立于原有组织架构的新AI组织Seed，专门负责大模型研发。同年冬天，张一鸣亲自带队重回创业状态，开始频繁约见AI研究者。

今年2月，被Google授予技术领域专家最高荣誉“Google Fellow”的吴永辉直接空降到字节，成为CEO-1级别的高管，担任大模型团队Seed基础研究负责人。

与字节相反，阿里是中国最早一批投身AI的科技巨头。在“用户为先、AI驱动”的大战略下，吴泳铭出任阿里CEO本身就是一个信号。

阿里Qwen（千问）开源模型家族的采用率极高，参考全球最大AI开源社区Hugging Face的数据，截至2025年2月，阿里云Qwen开源大模型的衍生模型数量已突破10万，稳居全球最大开源模型榜首。

阶跃可能是国内最低调的大模型创业公司，2023年4月成立于上海徐汇区，2024年12月完成B轮融资，总融资金额达数亿美元。核心投资方包括上海国有资本投资有限公司及其旗下基金，战略和财务投资人包括腾讯投资、五源资本、启明创投等。

据悉，阶跃目前研发人员占比超过80%，核心技术人员都在一线亲历了过去十年AI发展的历程，既有技术洞察，更有实战经验。

短短两年，阶跃已自主研发了五大类、全体系的基础大模型矩阵，是国内基座模型种类最全面的公司之一。企业累计发布了16款多模态大模型，并多次在LMSYS等国内外权威榜单中位列多模态领域的中国第一。

智谱成立于2019年6月，由清华大学计算机系知识工程实验室的技术成果转化而来，是国内第一批探索大模型的公司。其模型布局全面，一开始即押注G端和B端市场，导致其商业化落地较快，成为了国内首个启动IPO的大模型创业公司。

DeepSeek背靠知名量化资管巨头幻方量化，但却并没有一味地砸钱堆算力和数据，而是在架构设计和工程优化上进行系统性创新，实现了在资源受限情况下完成对标一流大语言模型性能的任务，改变了大语言模型依赖算力的固有路径。

北京通用人工智能研究院院长、北京大学智能学院院长朱松纯曾在接受采访时表示，过去，一种“大数据+大算力+大模型”的思维定式过度简化了AGI（通用人工智能）的复杂性。OpenAI、Google等科技巨头不断强调其算力方面的优势地位，塑造出了一道“难以逾越的鸿沟”，但DeepSeek的横空出世打破了这种垄断，同时以开源技术倒逼技术平权。

智能上限与多模态的“终极之战”

今年的《政府工作报告》中明确指出，“持续推进‘人工智能+’行动，将数字技术与制造优势、市场优势更好结合起来，支持大模型广泛应用。”

在相关领域，确实也有越来越多的大模型进入了垂类场景的应用，比如阶跃就已经与吉利汽车、OPPO、智元机器人等各赛道头部企业展开深度合作，全面推进AI技术的产业化落地。但他们也表示，想要达到真正的“人工智能+”和AGI，至少有两个技术要点需要突破：提升智能上限和多模态理解生成一体化。

大模型应用的繁荣，建立在基础模型的能力之上，所以基础大模型的智能上限决定了其价值的“天花板”。只有不断突破基础大模型的智能上限，大模型应用才能百花齐放，打通连接AGI的道路。

智能上限中，推理是很重要的能力，即是将长思维链的推理能力加入到基础大模型之中。在DeepSeek-R1发布之后，推理从趋势变成了大模型范式。

业界普遍认为，AGI的演进路线是模拟世界-探索世界-归纳世界。当理解与生成统一之后，就可以与具身智能结合，让模型与物理世界进行交互，自己收集环境数据，从而进一步建立世界模型。在世界模型的基础上，再加上复杂任务的规划、抽象概念归纳的能力，强化学习算法能力，以及超级对齐能力，就有可能实现AGI。

可以预见的是，新“基模五强”格局仅是阶段性产物。2025年下半年，随着技术突破与商业化压力加剧，行业或将迎来更残酷的“生死战”。谁能率先突破智能上限、打通多模态闭环，谁就能定义下一代AI范式。

（责任编辑周梦鸽）

精彩推荐