AIGC正在改变世界,自从 ChatGPT 对话机器人的横空出世后,一石激起千层浪,人工智能也正在从感知理解走向生成创造,这是一个关键里程碑。ChatGPT上线后很快风行一时,短短4个月时间里,国内至少30个研发机构与企业纷纷推出自有品牌的大模型与相关产品。生成式AI大模型完成了从0到1的飞跃,是信息技术革命发展到特定历史阶段的产物,并且已成为未来发展趋势,推动AI迈向通用人工智能。
然而,马斯克却公开表示ChatGPT“好得可怕”(scary good),危险的强人工智能或许已离不我们不远。今年4月,马斯克、《人类简史》作者Yuval Noah Harari、纽约大学教授马库斯等1000多名人工智能专家和行业大佬在公开信中呼吁:“ChatGPT等AI研究室需暂停研发6个月!”给出的理由是“只有当我们确信它们的影响是积极的,并且它们的风险是可控的时候,才能开发更强大的人工智能系统。”
喜忧参半,大模型飞速发展的同时也面临着诸多风险隐忧,数据隐私泄露、安全漏洞、数据滥用、数据垄断、不公平性、公域数据即将耗尽等已然成为大模型的主要“隐患”。香港科技大学讲座教授、加拿大工程院及加拿大皇家学院两院院士杨强及其团队正在尝试通过联邦学习和大模型结合的方式,解构大模型下的数据生态与安全之困。
分散的小模型协作,或将解构大模型发展之困
4月18日,OpenAI CEO Sam Altman在讨论大模型发展的趋势的时候认为,让模型变得更大将不会进一步带来新进展。他说,“我认为我们正处于将模型做大这一时代的尽头。我们将以其他方式使它们变得更好。”未来模型参数应该向更小的方向发展,或者以多个小模型协作的方式工作。
“让大模型变小”已经成为众多研究者非常感兴趣的一条路,大家先后做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。
今年4月,隐私计算联邦学习开源平台FATE(Federated AI Technology Enabler)正式发布联邦大模型FATE-LLM功能模块,同样是“小模型协作”的思路,FATE-LLM则是通过将联邦学习和大模型结合,在各参与方的敏感数据不出本地域的前提下,根据各方实际数据量进行算力投入,联合进行大模型训练。
基于此技术方案,多个机构可以通过FATE内置的预训练模型进行横向联邦,利用各自隐私数据进行联邦大模型微调,从而提升自身大模型应用的效果。联邦大模型不仅主要解决的是大模型训练阶段的隐私保护问题,未来还将研究在使用大模型的过程中如何保护用户的隐私。
这种用小模型联动大模型的方式,也很好地诠释了小模型协作的精髓。联邦学习作为一种分布式机器学习新范式,其“数据不动模型动,数据可用不可见”的特点有助于各参与方在保护各自数据安全与用户隐私的前提下,进行AI协作,打破数据孤岛。
也正是因为联邦学习的这一属性,为未来大模型的发展提供新的思路:联邦学习与大模型结合,或将有助于构建安全合规的数据生态大陆。
近期联邦大模型对现有大模型的支持已经在实操层面上有了很多新进展,FATE开源社区TSC Maintainer、开发专委会核心成员范涛表示:“目前的FATE-LLM可以提供对主流大模型的支持,4月发布了联邦大模型FATE-LLM对GPT-2等大模型的支持,5月发布了对清华GLM大模型的支持。”
联邦大模型,也需要面对“原生困境”
和大模型面临的隐忧类似,即便是以大化小,联邦大模型从根本地解决了大模型面临的一些问题,但是联邦大模型依然有着自己要解决的“原生困境”。
公平性是否能够得到保障?数据隐私性是否能够有效保护?规模大小不一的异构模型集如何统一调配训练?这些也给联邦大模型的研究者们提出了难题。从2018年开始,杨强教授和其团队始终致力于联邦学习的研究,如今,面对联邦大模型可能遇到的技术难题,杨强教授认为,想要在多个维度实现“既要,又要”(既要安全可信,又要高效可用),那么就必须在“平衡”上做文章。
杨强教授认为,“未来,人工智能模型一定会成为我们贴身的人工智能助理,这就要求人工智能对个人的需求有更强的适配能力和更好的理解能力,这个时候,就会用到私域数据,包括个人的生理的数据、物联网数据以及一些和个人非常强相关的数据。联邦大模型针对这个问题可以做到很好的平衡:一方面数据是分布的,另一方面,这些大大小小的模型有的是分布式的,有的是个人化的、定制化的,他们一起对联邦大模型总体产生性能的提升、效率的提升以及安全隐私的保护。”
然而,即便是“为解决数据隐私问题而生”的联邦大模型,自身依然有要面对的安全性难题,对此,微众银行人工智能首席科学家范力欣认为:“针对数据窃取,我们通过加密数据来进行防御;针对模型窃取则是通过水印机制来进行制约。目前我们已经有一套技术方案能够支撑和有效地管理、追踪整个模型的全生命周期的合法使用,这同样对模型的知识产权进行了很好的保护。另外,针对数据攻击、数据投毒这一部分行为,我们通过进行模型锁定、参数锁定和数据样本锁定的方式去防御数据投毒。”
但在诸多的大模型发展的隐忧中,不仅仅有私域数据的隐私保护问题,还有样本分布不均衡导致模型本身的公平性问题,这该如何解决? 范力欣表示,样本分布不均衡导致模型不公平性的问题在大模型之前或者联邦学习之前已经提出来了,这个问题的基本的解决方案是有整体思路的:在训练模型时我们不仅仅是提升模型性能,而是对公平性、可解释性、鲁棒性等一系列跟伦理相关的目标都作为优化的约束条件或者优化的多目标一起来参与学习训练。
这种思路在理论上提出了“多目标联邦学习优化”的“可信联邦学习”技术框架。在实际应用中,需要用相应的算法去一一衡量这些不同目标之间的平衡。
范力欣说:“我们模型性能要好,这是一个基本要求,但同时我们要保证它的公平性、可解释性要做到可度量的,并且跟模型性能一起来进行优化。比如我们联合多家机构承担的国家科技部科技创新2030-‘新一代人工智能’重大项目里面就应用了这样的解决方案,效果显著。”
联邦大模型从诞生开始就备受瞩目,未来将助力重塑金融、零售、工业等多行业的数字化形态。相关应用场景包括在金融领域的智能客服、内容风控、金融资讯情感分析、文本意图识别、营销场景智能创意生成和优化等。尽管机构自身拥有的数据量和算力可能不足,却仍然可以通过发挥大模型的优势,安全合规地提升客服、营销、风控的效果。
人工智能正在经历从计算、感知到认知的发展阶段。联邦学习、可信联邦学习以及联邦学习大模型,在保证安全、高效的要求下,进一步满足了可解释性和普惠性等人工智能伦理的核心命题,将看似为难的“既要,又要”,变成了可以将之平衡的解决方案,这也将为人工智能生态的良性可持续发展提供助力。(新华网 曹素妨)