在科技的浪潮中,人形机器人正逐渐从科幻走向现实,成为人工智能领域备受瞩目的焦点。而具身智能作为其核心驱动力,正推动着机器人从简单的工具向具备自主认知与决策能力的智能体转变。
具身智能:人形机器人的核心驱动力
具身智能是一种强调身体在认知过程中重要作用的人工智能范式。它认为智能不仅仅是大脑的信息处理能力,还与身体的感知、运动和与环境的交互密不可分。人形机器人正是具身智能的典型体现,其通过模拟人类的身体结构和运动方式,与环境进行物理交互,从而实现对世界的理解和任务的执行。
目前,人形机器人厂商多采用中央控制器作为机器人的 “大脑”,但这种配置在高级认知和信息处理方面能力有限。然而,随着技术的发展,机器人大小脑分离的趋势逐渐显现。未来,大脑将专注于算力增强,以应对复杂的认知任务,如自然语言理解、场景分析和决策规划;而小脑则专注于运动控制,实现精准、流畅的动作执行。
人形机器人的发展现状
机器人大脑的探索
在算力模组方面,主流厂商提供了不同配置的方案。以宇树、众擎为例,其基础算力模组采用英特尔 Core i5 及 N97 作为 CPU,能够完成遥控走路、跑步、跳跃等基础动作,满足极客开发者、院校培训和创业者等群体的初步需求,起售价在 10 万元以内。对于需要二次开发的高配版本,厂商则主要基于英伟达 Jetson Orin 平台进行开发,价格会有数倍的提升。2024 年英伟达 GTC 大会上发布的 Jetson Thor 更是为机器人算力提升带来了新的机遇,波士顿动力已率先将其应用于机器人开发。
本体厂商大模型的群雄逐鹿
2025 年,国内外厂商在大模型领域展开了激烈竞争。银河通用及美国 FigureAI 推出了 VLA 大模型,智元发布了首个通用具身基座模型,提出了 Vision - Language - Latent - Action (ViLLA) 架构,该架构由 VLM + MoE 组成,为机器人提供了更强大的感知、理解和决策能力。英伟达在 GTC 大会上发布的通用机器人基座大模型 GR00T N1,其灵感源自人类认知处理,采用双系统架构的视觉 - 语言 - 动作(VLA)模型,进一步推动了机器人本体厂商在大模型研发上的创新与突破。
具身智能应用的展望
智能等级的划分与现状
小鹏汽车董事长、CEO 何小鹏在 2025 年提出了机器人智能等级的划分:从 L1 级(完全由人控制)、L2 级(基础辅助智能)、L3 级(具身智能和训练监督)、L4 级(自成长智能)到 L5 级(完全自主智能)。当前,人形机器人产业正朝着 L3 级迈进,这一阶段的机器人能够在大量场景中独立运行,但在复杂情况下仍需人工监督。何小鹏预计,到 2026 年,具备 L3 初阶能力的人形机器人将进入适度规模的商业化量产阶段,这将为机器人在工业、物流、服务等领域的广泛应用奠定基础。
L4 级具智能身的应用与挑战
预计在未来 3 - 5 年内,L4 级具身智能有望落地,其应用场景主要集中在 B 端。在制造业中,L4 级机器人可以实现自主生产流程优化,根据实时生产数据调整生产参数,提高生产效率和质量。在医疗领域,L4 级机器人可以在手术辅助、康复护理等方面发挥重要作用,通过学习大量的医疗数据和病例,为医生提供精准的手术建议和康复方案。然而,L4 级具身智能的实现面临着诸多挑战,如数据安全与隐私保护、算法的可靠性和稳定性、人机协作的协调性等。本体厂商作为主要玩家,需要在技术研发、人才培养、市场推广等方面投入大量资源,以应对这些挑战并推动 L4 级具身智能的应用与发展。
L5 级具身智能的愿景
随着 L5 级具身智能的到来,机器人将具备完全自主智能,其核心能力将从理解世界做任务向理解人性作伴侣转变。在家庭场景中,L5 级机器人可以成为家庭成员的智能助手和情感伴侣,能够理解家庭成员的情感需求,提供个性化的服务和陪伴。在教育领域,L5 级机器人可以作为智能教师,根据学生的学习进度和特点,制定个性化的教学方案,激发学生的学习兴趣和创造力。互联网大厂凭借其独特数据优势将在 L5 级具身智能竞赛中取得更多优势。这些大厂拥有海量的用户数据和丰富的应用场景,可以通过数据驱动的机器学习和人工智能技术,不断优化机器人的智能算法和模型,提升机器人对人性的理解和适应能力。同时,互联网大厂还可以利用其强大的生态资源和技术平台,与硬件厂商、科研机构等合作,共同推动 L5 级具身智能的发展和应用。
遥操作与运动捕捉技术的价值
短期价值:加速具身智能系统商业化进程
遥操作与运动捕捉技术在短期维度上可加速具身智能系统的商业化进程。在工业领域,通过遥操作技术,操作人员可以在远程控制机器人完成危险环境下的作业任务,如核反应堆维护、深海探索等,降低了人力成本和安全风险。在影视制作和游戏开发中,运动捕捉技术可以实现高效的角色动作捕捉和动画制作,提高制作效率和质量,为相关产业带来新的商业机会和经济效益。
长期价值:演进为具身智能生态基础设施级技术
从长期来看,遥操作与运动捕捉技术将演进为具身智能生态的基础设施级技术,持续赋能物理交互能力的进化迭代。随着技术的不断成熟和创新,遥操作技术将实现更加自然、精准的人机交互,使机器人能够更好地理解和响应人类的指令和意图。运动捕捉技术将不断拓展其应用范围和精度,为机器人提供更丰富的动作数据和感知信息,助力机器人在复杂环境下的自主运动和任务执行能力的提升,从而推动整个身具智能生态的可持续发展。
具身智能的发展正引领人形机器人迈向新的高度,从机器人大脑的早期探索到本体厂商大模型的群雄逐鹿,从 L4 及 L5 具身智能应用的展望到遥操作与运动捕捉技术的战略价值,每一个环节都在为机器人产业的未来发展描绘出更加绚丽的画卷。然而,技术的突破和应用的拓展也面临着诸多挑战,需要政府、企业、科研机构和社会各界的共同努力与合作。我们期待在不久的将来,具身智能人形机器人能够在各个领域发挥其巨大潜力,为人类创造更加美好的生活和工作方式,开启智能时代的新篇章。(中国电信研究院战略发展研究所 李娟)