新华网北京9月4日电(朱家齐) 何谓学习?人类通过与环境交互来进行学习。而在人工智能领域,强化学习则是最接近人的学习方式。主体就像蹒跚学步的孩子,迈出每一步都在根据现实世界的反馈,不断调整自己的姿态,在跌倒中慢慢学会行走。
今天,随着AlphaGo的胜利,无人驾驶出租车的推出,以及人工智能体在国际数学奥林匹克竞赛(IMO)中取得银牌......人工智能的飞速发展在改变人们生活的同时,也一次又一次地印证着我们对于学习的认知。然而,鉴于当前智能体在环境感知和执行响应方面普遍存在能力不足,如何通过学习过程实现多智能体的高效协同,让人工智能技术从理论走向实践,已成为推动人工智能大规模应用的关键挑战。
近日,由北京大学人工智能研究院杨耀东课题组牵头,北京大学工学院、计算机学院和伦敦国王学院协作完成的研究成果——“大规模多智能体系统的高效强化学习”在人工智能顶级学术期刊《自然·机器智能》上发表。该成果首次在多智能体系统中实现了高效的去中心化协同决策,显著提升了人工智能方法在大规模多智能体系统中的扩展性和适用性。
以强化学习探索智能体合作
“大规模多智能体系统的高效强化学习”,从字面意思理解便是将AlphaGo使用的强化学习技术从单一智能体扩展到多智能体系统。“这也意味着我们现在能够同时控制多个智能体,例如在交通信号灯、电网以及无人驾驶车辆等场景中的应用。这些系统都涉及大量智能体的协同运作。而这项工作的社会效应在于,它是首次由华人主导的多智能体强化学习应用,打破了此前该领域被西方机构垄断的局面。”论文通讯作者,北京大学人工智能研究院杨耀东研究员介绍道。
作为一种高效的学习范式,强化学习广泛应用于人工智能领域,并在游戏领域诞生了许多著名应用,如星际争霸人工智能AlphaStar、王者荣耀中的AI对手,以及AlphaGo等。而通过基于人类反馈的强化学习过程进行训练的Chat-GPT的爆火,则进一步证明了强化学习的重要性,以及该技术在人工智能发展中的核心地位。
“研究多智能体系统中的强化学习,是一个复杂的问题,因为当多个智能体共同学习时,它们之间会产生合作、竞争和博弈等复杂的交互作用。我们的目标是探索在多智能体环境中,如何使每个智能体都能有效地学习并形成策略。”杨耀东表示,相较于以往的研究中往往只能处理少数几个智能体,研究团队将其扩展到成百上千个智能体的真实场景中。随之产生的挑战在于,由于智能体数量的增加,它们之间的交互关系呈指数级增长,导致所谓的“维数灾难”。“为了解决这个问题,我们设计了多智能体系统的内部表征结构,使得多智能体问题可以有效地扩展,为大规模智能体系统的强化学习提供了新的解决方案。”
据了解,该算法在不损失决策性能的情况下,大幅降低了交互成本,从而提升了算法在大规模系统中的扩展能力。论文第一作者,北京大学人工智能研究院博士生马成栋介绍:“该算法通过解耦系统的全局动态特性,使每个智能体能够独立学习局部动态特性和去中心化策略,将复杂的大规模多智能体决策问题转化为更易解决的优化问题。”多项测试结果显示,该方法能够高效扩展到包含成百上千个智能体的复杂系统中,推动了大规模人工智能算法应用的发展。
人工智能协同,难在一个“多”字
随着人工智能的发展,越来越多的AI系统被应用于各种领域,这些系统往往不是孤立的存在,在真实复杂的环境中,如何“和谐”相处?如何在包括数百个智能体的大规模多智能体环境下,以不依赖全局信息的方式让每个智能体实现高效的去中心化协同决策,成为人工智能“进阶”应用的关键。
杨耀东介绍,研究的亮点在于提出了一种在通信网络不全局可通信的条件下解决问题的方法,通过利用网络结构连接大量智能体,采用了一种类似于“六度分隔”理论的方法(即任何两个陌生人之间,通过认识的人相互联系,不超过六个人就能相识),通过少数中间节点就能连接到更广泛的网络。
“通俗的讲就是‘世界模型’,预判你的预判。”杨耀东还表示,以局部的方式捕获全局信息,从而辅助决策过程。这种方法不仅解决了在通信受限的情况下如何实现有效协同的问题,还为理解和优化去中心化系统中的信息传播和决策提供了新的视角。
“因为每个控制单位之间和控制单位与环境之间的交互成本是非常高昂的,且这种交互具有一定的安全风险(比如在大型电网系统中),这些系统中也经常存在客观的通信限制(如通信距离太远,全局通信有隐私泄露风险,通信能耗限制等)导致控制单位之间难以实现全局的信息交换,这些挑战都阻碍了人工智能决策算法在大规模系统中的扩展和应用。在这样的背景下,迫切需要一种算法能够助力大规模多智能体系统实现高效的,低交互成本的,去中心化的决策能力,这就是本研究成果所攻克的难关。”杨耀东说。
据介绍,该研究成果目前已在智慧交通和智慧能源领域得到了应用。“电网的智能化相对简单,因为它的设置参数可以由人来决定,而自动驾驶则涉及到更多智能体之间的交互和社会问题。通过有效解耦,智能电网管理、自动驾驶和出行效率在保持性能的同时,分别实现了约30%的能源利用率提升和50%的能耗降低,显著提高了全局效能。”杨耀东表示,尽管自动驾驶目前面临诸多挑战,但智能化趋势将极大提高交通效率并降低事故率。同时,利用异构智能体可以较好的让不同的智能体之间进行协同工作,这也将是未来智能化发展与普及中的重要环节。