随着实体经济数字化转型进入深水区,数据安全日渐成为关系国家安全与发展和人民群众切身利益的重要议题,同时也是人工智能领域“隐私计算”的重要研究范畴。

IDC报告指出,在数据融合应用和客户隐私保护双重需求驱动下,作为实现数据不动价值动的关键技术,隐私计算的应用可以保证参与方的数据不出本地,在保护数据安全的同时实现多源数据的跨域合作,对破解数据保护与融合应用难题提供了可行性思路。在业务实践中,隐私计算的核心技术——联邦学习正成为解决数据安全与开放共享之间矛盾的重要技术路径。

“不出门”的数据使用方法

人类社会加快数字化的进程中产生了大量数据,通过机器学习技术可以自动化地挖掘数据中蕴藏的宝藏。经过大量数据训练出来的机器学习模型已经应用在新药研发、人像识别、推荐算法、自然语言等各类多模态学习场景中,并深刻改变着我们的世界。

在应用中,模型的精度、泛化能力等至关重要,而这些都依赖机器对大量数据的学习。机器学习将以往的数据训练成一个模型,再将输入的新数据进行预测。而受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束,多个数据来源方无法直接交换数据,形成“数据孤岛”现象,制约着人工智能模型能力的进一步提高。联邦学习的诞生即是为了解决这一两难问题。

2016年,谷歌正式将联邦学习这一新技术配置引入人工智能领域。2021年,联邦学习首次被纳入Gartner隐私计算技术成熟度曲线。

中国信通院报告显示,联邦学习本质上是一种分布式机器学习框架其做到了在保障数据隐私安全及合法合规的基础上,进行数据使用和机器学习建模,实现了“可用不可见”的数据应用模式

联邦学习的核心思想是在多个数据源共同参与模型训练时,不需要进行原始数据流转,仅通过交互模型中间参数进行模型联合训练,原始数据可以不出本地。作为分布式的机器学习范式,联邦学习可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,实现AI协作。同时,其可以使用数据不断改进训练模型,实现持续学习;有效避免了数据歧视的问题,也降低了分析数据的硬件设备门槛。

联邦学习、多方安全计算、可信执行环境被认为是目前隐私计算领域三大主流技术,作为隐私计算市场的一部分,联邦学习的未来还有很大想象空间。

但隐私计算刚步入商业化落地的第二年,联邦学习的商业化也才刚刚起步。在很多项目实操中,联邦学习通常只作为整体解决方案的一个模块,并不能形成单独定价。

冰鉴科技研究院认为,联邦学习服务商为机构定制化开发部署系统的成本高、毛利相对较低;而按照业务量或运营效果向客户收取费用则有望获得长期可持续的收入,这也是联邦学习或隐私计算技术未来主流的商业化方向。

中国联邦学习领衔亚太

市场研究机构KBV预言,全球联邦学习市场规模,预计到2028年达到1.987亿美元,在预测期间内将以11.1%的年复合成长率增长。

目前,中美两国的联邦学习研究进展高度领先于全球其他国家。数据显示,高被引论文之中有六成以上是来源于中美两国。顶会杰出论文之中有45.5%来自美国、31.8%来自中国。此外,全球联邦学习开源框架也主要出自中国和美国。

谷歌研究团队提出的算法框架最初用于解决个人终端设备在本地更新模型的问题,主要针对C端,以横向学习为主。

2018年,在人工智能领域顶尖学者杨强教授的带领下,微众银行的研究团队率先将联邦学习引入国内,并提出了面向B端的纵向联邦学习。在后续研究过程中,杨强教授的团队对联邦学习的理论进行了持续的丰富和拓展,并提出了“可信联邦学习”概念,探索解决联邦学习发展和应用中面临的安全、效率、性能三者均衡的问题。

此外,蚂蚁集团、平安科技、同盾科技、京东数科又接连开辟了共享智能、知识联邦、联邦智能和异步联邦学习等相关研究方向。

2022年~2028年,亚太地区的联邦学习市场年复合增长率将达到11.7%。中国市场在2021年按国家划分的亚太地区联邦学习市场占主导地位,并将在未来几年继续成为主导市场。

截至今年9月,全球专利受理数量以中国地区最多,约占全球受理总量的六成。专利申请数量前三名机构全部是中国机构。

而《个人隐私保护法》、《数据安全法》的实施对人工智能的典型数据处理提出新的要求,同时也促进了联邦学习市场的发展。

三种模式金融适用场景

当下,联邦学习已成为一种解决合作中数据隐私与数据共享矛盾的新路径,国内的联邦学习也正式拉开产业化大幕,被大规模应用于金融、安防、医疗、在线推荐系统等领域。

金融领域的数据更要求管理严格,更加注重数据的私密性,这也使得联邦学习成为解决以上问题的重要手段。在金融领域,联邦学习主要被应用在反洗钱、风控信贷、客户价值预测等方面。

按照数据特征与分布方式的不同,联邦学习可以分为横向联邦学习、纵向联邦学习、联邦迁移学习三类,并依据数据集和数据特征的重叠度应用于不同的金融场景之中。

横向联邦学习适用于机构间用户重叠少,但用户特征重叠多的情况,可在特征趋同的情况下对不同样本进行联合互补,用更大的样本数据提升现有模型的精度。

例如,通过横向联邦学习,不同地区的各个金融机构无需建立物理模型即可共享通用反洗钱模型。参与模型的银行越多,模型性能就越高,可以有效解决该领域样本少,数据质量低的问题。特别是针对中小金融机构而言,在不共享用户数据的前提下,通过与联合大型金融机构或联合多家金融机构,可以共同建立横向联邦反洗钱模型提高侦测能力。

纵向联邦学习的特点是ID重叠度高,但特征重叠度低。比如对同一个样本的不同特征进行联合互补,用更多的特征数据,补全对某一客户样本的画像。

例如在信贷风控场景中,对于个人,可在双方数据不出本地的前提下,对客户的申请信息、合同信息、个人征信、身份、学历、消费、电信、航旅、公安司法、第三方黑灰名单等数据价值进行充分挖掘,利用联邦学习建立了一套应用于零售客群和产品的申请信用评分与欺诈评分;对于企业,在确保数据提供方数据安全以及隐私保护的情况下,能够为银行融汇企业经营数据、税务数据、工商数据、支付数据等多源信息,丰富建模特征体系,共同提升模型的有效性。

联邦迁移学习是一类样本统一的模型,可以迁移到另外一批数据上。它适用于两个数据集的重叠较少、不仅样本不同且特征空间也有很大差异的场景。

例如,在金融领域的反洗钱、大额信贷业务等场景或是在业务启动阶段,普遍存在金融样本有限问题,难以采用通用的机器学习算法建模。利用源领域的大量数据训练好一个模型,通过迁移学习,将数据、模型和任务都迁移到目标领域的小数据中,可以得到一个鲁棒性较好的新模型。

小结

在源源不断的数据驱动下,金融行业不断前进、发展的过程中,各种新的案例、特征、表达方式也不断产生,由此也催生了永不停歇的机器学习的模型训练需求。如何让机器在利用多个数据源进行联邦学习的基础上又能不断迭代更新、承前启后?这成为了人工智能在金融领域应用的一大新的痛点。杨强教授认为,未来可能会产生一种名为“终生联邦学习”的算法来应对这样的挑战。

此外,在金融风控领域,模型的可解释性、规则简单性是监管层非常关注的问题,这也会给技术的应用带来较大障碍。在这种情况下,联邦学习相关的监管政策和技术标准还有待完善。