在学界的持续攻坚与产业界的不断探索应用中,中国已成为全球联邦学习研究领域重要的引领者。近期发布的《2022联邦学习全球研究与应用趋势报告》显示,中国不仅杰出论文发布数量与相关专利申请量领跑全球,更是国际上热门开源框架的重要输出方和相关学者的主要聚集地。

随着数字经济的发展和繁荣,越来越多的行业、研究机构和企业都在相关领域加大投入,也使得联邦学习这一研究分支成为当今全球人工智能产学两界最受关注的领域之一。截至目前,国内被引用次数最高的一篇联邦学习研究论文的第一作者是微众银行首席人工智能官杨强。

同时,杨强教授及其团队还对联邦学习的理论进行了持续的丰富和拓展,提出了“可信联邦学习”概念,探索解决近年来隐私计算和联邦学习发展和应用中面临的安全、效率、性能三者均衡的问题。这标志着世界范围内的联邦学习研究进入了第二阶段,不仅可以完成大规模分布式的联合建模项目,还可以对项目进行分析、认证,确保其安全性和高效性,并成倍放大数据、模型和参与者的规模。近期,其团队取得的多项重要研究成果已相继被国际顶级学术期刊发布。

近日,动点科技有幸对话了这位顶级学者,与之共同探讨了上述最新研究成果的重要意义和价值以及科研背后的启示。

为联邦学习模型打上防伪水印

尽管隐私计算与联邦学习在数据安全应用中的优势突出,但正如区块链技术有着去中心化、安全和高性能的“不可能三角”,隐私计算和联邦学习在流通中也存在安全、效率、性能之间难以兼顾的问题。

如何平衡安全、效率、性能三大要素成为业界关注的焦点,杨强教授及其团队的研究也基于此分步展开:首先,在其联合上海交通大学发布的研究论文《联邦学习中隐私与模型性能没有免费午餐定理》中,肯定了安全、效率、性能是需要且可以进行平衡的;由此引申出,是否可以有更聪明的算法可以同时提到模型的安全性、准确率和效能,其后续与中山大学共同撰写的研究论文《FedCG:联邦条件对抗生成网络》就正面回答了这一问题,每一个参与方都可以建立一个镜像模型,让镜像模型之间相互沟通,就大大的降低了隐私泄露的可能性,同时效率和效果都有可观的提升。

然而联邦学习不仅仅是一个训练模型,而是从数据的收集、选择到模型的训练、治理乃至交换、综合的全过程,如何针对模型的制作者、购买者、危险系数、特征等进行所属权验证是一个世界性的难题。对此,杨强教授和团队给出了全生命周期的联邦学习的模型治理方案。其团队近期的研究成果之一——“FedIPR是首个联邦学习模型版权验证框架其核心就是给模型打上水印,从而实现模型的知识产权保护和可监管、可审计。

“举例来说,如果要保护一张照片的知识产权,我们会在这张照片里加入一些肉眼不可见的像素,这些像素只有通过软件才能分析出来,它会告诉我们谁是照片的创造者,这种像素被称为照片水印或者图像水印。”

与之类似地,为了保护联邦学习模型的版权,杨强教授及其团队发明了一种名为“模型水印”的算法——在模型里面加入一些“指纹”(这些“指纹”用密钥锁住,平时不可见),通过特定的软件即可追溯模型的生产者、生产环节及交易流程。

FedIPR框架下,只要是通过联邦学习建立的模型,其各个环节的参与者各自的水印都可以被录入模型之中,互不干扰,且不会降低模型整体的质量。

这创新性地解决了模型所有权验证在联邦学习中的两大挑战:一是多水印冲突问题。特别是对于基于特征的水印,对于不同的客户是否可以有一个通用的解决方案来嵌入他们的私人指定水印。二是性能问题。水印的稳健性决定了模型水印能否适用于联邦学习模型的各种训练策略,以及能否抵御各种去除水印的攻击。

微众银行AI团队和上海交通大学联合发表论文《FedIPR:联邦学习模型所属权验证》展示了相关实验结果,阐述了FedIPR在主任务可用性水印显著性以及稳健性方面的卓越性能,证明了基于后门和特征的水印都能提供良好的联邦学习模型所有权验证。

个性化联邦学习——下一座高峰

谈起过往研究联邦学习的经历,杨强道出科研人的使命是“顶天立地”:所谓“顶天”就是做世界上第一个吃螃蟹的人,能够发现一些新的挑战和问题,并通过理论和算法加以解决;而“立地”则是将高端技术落地于本地实际应用场景之中。

而杨强教授及其团队在研究联邦学习的过程中也树立了多个里程碑。

早在2019年,微众银行就将其自研的全球第一个联邦学习工业级开源框架Federated AI Technology Enabler(FATE)捐赠给了Linux基金会,并持续丰富和补充联邦学习开源产品版图,扩大以FATE开源生态为核心的联邦学习生态。

如今,FATE的最新版本已实现端到端安全生命周期管理、FedCG防火墙式安全网络,在即将发布的版本中,更加入了互联互通、软件治理、模型追踪等新功能,这可以将联邦学习的应用范畴扩展至更多行业和更多场景,如医院、科学实验室、制药厂、供应链上下游的联合建模之中。

算法和技术创新之外,微众银行的联邦学习研究团队还积极营造了一个生态系统,使包括技术提供方在内的各参与方共同建立联邦学习的国际标准,助力联邦学习渗透到其他领域。

如今,几乎每一所高校都有联邦学习的研究和开发团队,数据库、软件工程等领域的顶级学术会议也开始发表联邦学习的研究论文,联邦学习在国内得到了实质性的长足发展。

此外,微众银行还积极将前沿技术应用在自身的业务实践中。在营销、运营、资管、风控、客服、KYC等多个场景中,都有联邦学习的身影。联邦学习在提升风险管理、市场营销、客户服务等领域智能化水平方面起到了重要作用。

近来,杨强团队又有了致力于引领全球联邦学习研究的新方向——个性化联邦学习。这引入了一种新的机器学习方法——迁移学习,其核心是使机器像人一样具备举一反三的类比能力。

例如,在多家医院联合建模的场景中,有些医院的数据是表格化的病人体检数据,有些则是影像学检查的图像数据,数据的分布形式不同,而通过个性化的联邦学习,将迁移学习的技术与联邦学习相结合,就可以对上述两类数据联合建模。完成联合建模后,医疗影像的数据将补充体检数据的不足,达到更精准的诊断。

理论上,人类的所有行为都可以被数字化,但当下尚且处于数字化进程的初始阶段。在杨强畅想的终极数字世界中,作为联邦学习的两大参与者,在金融、医药、出行等诸多产业的AI大模型中,人与机器可以更加和谐紧密地沟通、协作、结合,共同抵御隐私泄露、数据安全等种种风险,促成完整的联邦学习系统。