新华网北京5月13日电(周宇龙)2024年“百模大战”的硝烟尚未散尽,国内AI基础大模型市场已悄然迎来新一轮洗牌。
随着DeepSeek以“GPT-4级别性能+十分之一的算力成本”的颠覆性技术突破,原有“大模型六小虎”(阶跃星辰、智谱AI、MiniMax、百川智能、月之暗面、零一万物)的格局被打破,市场加速收敛至新“基模五强”,即字节跳动、阿里、阶跃星辰、智谱AI、DeepSeek的竞争体系。
这场变革不仅标志着技术实力的分野,更预示着国内基础大模型市场迎来“新秩序”,产业竞争将从无序扩张转向智能上限突破与多模态融合的“新战场”。
从“百模并起”到“五强争锋”
2022年11月30日OpenAI发布ChatGPT,引发全球AI浪潮。同年12月,曾任微软全球副总裁的姜大昕博士向ChatGPT提问:“你多大了?”
ChatGPT回答:“我是在2019年被训练完成,今年是2022年,所以是3岁。”姜大昕再问:“你明年多大?”ChatGPT回答“4岁”。
这样的回答让姜大昕震惊了。这两个问题看似简单,但放在以前,是能让所有基于检索或规则的聊天机器人犯难的。最大的难点在于要理解明年是“今年+1”,然后再把数字代进去算一遍,这个减法的过程就是推理。ChatGPT的回答,则体现了远超以往的理解思考和数字推理能力。这让姜大昕意识到:人工智能的发展或将迎来新的关键转折点。
2023年4月,阶跃星辰在上海徐汇成立(以下简称“阶跃”)。几乎同期,百川智能、月之暗面、零一万物等企业相继成立,国内“百模大战”正式拉开序幕。
经过时间的淬炼与沉淀,业内共有6家公司脱颖而出:阶跃、智谱、MiniMax、百川智能、月之暗面与零一万物,业内并称为“大模型六小虎”。
2024年,“六小虎”堪称AI创业赛道最闪亮的星,被视作“中国的OpenAI”。但与此同时,日新月异的特点在人工智能领域体现得更为极致,以字节和阿里为代表,纷纷重回“创业状态”。
来到2025年1月15日,DeepSeek官方App正式上线,不到两周,DeepSeek日活用户便超越了豆包。2025年春节DeepSeek彻底破圈,不仅以“东方神秘力量”的姿态震惊了美国科创圈,同时也掀翻了国内大模型产业的牌桌。
一方面,DeepSeek对训练成本的极致优化,并没有让赛道内的玩家们减少投入,反而是头部企业通过“价格战”进一步加速了行业洗牌。
另一方面,各地人工智能产业相关政策密集出台,如今年年初,上海徐汇区发布《加快建成全国人工智能高地三年行动计划(2025-2027)》,提出10项重点行动。地方“算力券”“语料券”也开始向头部玩家倾斜,加速了资源集中,一场更为惨烈的“军备竞赛”由此展开。
在资源、人才和技术的三重壁垒之下,基础大模型赛道竞争格局迅速收敛,形成了字节、阿里、阶跃、智谱和DeepSeek的五强争锋,代表当前国内基础大模型综合实力的最高水平。
从资源技术到差异化优势
与此同时,海外市场同样呈现“五强争霸”格局:OpenAI、Anthropic、谷歌、x AI、Meta构成头部阵营。国元证券报告指出,大模型能力差距缩小,但技术密集投入仍是竞争关键。
这并非是偶然,“高密度的人才、高质量的数据、AI基础设施的系统能力仍然是基础大模型提升的必须要素。”阶跃的大模型专家表示。
事实上,大模型训练属于资本密集型赛道早已成为行业共识。从这个视角看去,新“基模五强”都拥有自己的长板,从而形成差异化优势。
字节是国内所有科技巨头中,大语言模型起步最晚的一家。但在2023年6月字节高层决定自己做AI之后,立刻成立了独立于原有组织架构的新AI组织Seed,专门负责大模型研发。同年冬天,张一鸣亲自带队重回创业状态,开始频繁约见AI研究者。
今年2月,被Google授予技术领域专家最高荣誉“Google Fellow”的吴永辉直接空降到字节,成为CEO-1级别的高管,担任大模型团队Seed基础研究负责人。
与字节相反,阿里是中国最早一批投身AI的科技巨头。在“用户为先、AI驱动”的大战略下,吴泳铭出任阿里CEO本身就是一个信号。
阿里Qwen(千问)开源模型家族的采用率极高,参考全球最大AI开源社区Hugging Face的数据,截至2025年2月,阿里云Qwen开源大模型的衍生模型数量已突破10万,稳居全球最大开源模型榜首。
阶跃可能是国内最低调的大模型创业公司,2023年4月成立于上海徐汇区,2024年12月完成B轮融资,总融资金额达数亿美元。核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。
据悉,阶跃目前研发人员占比超过80%,核心技术人员都在一线亲历了过去十年AI发展的历程,既有技术洞察,更有实战经验。
短短两年,阶跃已自主研发了五大类、全体系的基础大模型矩阵,是国内基座模型种类最全面的公司之一。企业累计发布了16款多模态大模型,并多次在LMSYS等国内外权威榜单中位列多模态领域的中国第一。
智谱成立于2019年6月,由清华大学计算机系知识工程实验室的技术成果转化而来,是国内第一批探索大模型的公司。其模型布局全面,一开始即押注G端和B端市场,导致其商业化落地较快,成为了国内首个启动IPO的大模型创业公司。
DeepSeek背靠知名量化资管巨头幻方量化,但却并没有一味地砸钱堆算力和数据,而是在架构设计和工程优化上进行系统性创新,实现了在资源受限情况下完成对标一流大语言模型性能的任务,改变了大语言模型依赖算力的固有路径。
北京通用人工智能研究院院长、北京大学智能学院院长朱松纯曾在接受采访时表示,过去,一种“大数据+大算力+大模型”的思维定式过度简化了AGI(通用人工智能)的复杂性。OpenAI、Google等科技巨头不断强调其算力方面的优势地位,塑造出了一道“难以逾越的鸿沟”,但DeepSeek的横空出世打破了这种垄断,同时以开源技术倒逼技术平权。
智能上限与多模态的“终极之战”
今年的《政府工作报告》中明确指出,“持续推进‘人工智能+’行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。”
在相关领域,确实也有越来越多的大模型进入了垂类场景的应用,比如阶跃就已经与吉利汽车、OPPO、智元机器人等各赛道头部企业展开深度合作,全面推进AI技术的产业化落地。但他们也表示,想要达到真正的“人工智能+”和AGI,至少有两个技术要点需要突破:提升智能上限和多模态理解生成一体化。
大模型应用的繁荣,建立在基础模型的能力之上,所以基础大模型的智能上限决定了其价值的“天花板”。只有不断突破基础大模型的智能上限,大模型应用才能百花齐放,打通连接AGI的道路。
智能上限中,推理是很重要的能力,即是将长思维链的推理能力加入到基础大模型之中。在DeepSeek-R1发布之后,推理从趋势变成了大模型范式。
业界普遍认为,AGI的演进路线是模拟世界-探索世界-归纳世界。当理解与生成统一之后,就可以与具身智能结合,让模型与物理世界进行交互,自己收集环境数据,从而进一步建立世界模型。在世界模型的基础上,再加上复杂任务的规划、抽象概念归纳的能力,强化学习算法能力,以及超级对齐能力,就有可能实现AGI。
可以预见的是,新“基模五强”格局仅是阶段性产物。2025年下半年,随着技术突破与商业化压力加剧,行业或将迎来更残酷的“生死战”。谁能率先突破智能上限、打通多模态闭环,谁就能定义下一代AI范式。