在数据的价值与安全性被认可与重视的背景下,如何在保证数据充分流通的同时不泄露用户隐私、合规合法地使用数据成为了一个重要的课题。而隐私计算的定义就是在数据提供方不泄露原始数据的前提下,对数据进行分析、计算的一系列信息技术,确保数据在流通和融合的过程中可用不可见、可算不可识。与上述需求不谋而合。

国内的隐私计算起步较晚,经过几十年的验证、研发以及充分的技术普及和市场教育,2016 年,国内开始出现垂直的隐私计算厂商。

2020 年,国内的隐私计算产品开始 POC 测试。2021 年,隐私计算进入应用商业化的元年,进入实施部署阶段的产品比例达到 48%。

也正是在这两年里,中国隐私计算行业的投融资事件数持续增加,累计超 30 笔。IDC 报告显示,2021 年中国隐私计算市场规模突破了 8.6 亿元人民币,未来有望实现 110% 以上的市场增长。除了富数科技、趣链科技、同盾科技、星云等传统大数据、区块链、AI 及安全厂商以外,大型互联网企业、电信运营商、银行等金融机构也加入隐私计算技术研发的行列。截至目前,国内已有 88 家企业陆续发布隐私计算技术产品,每年发布产品数量已超 100 件。

隐私计算囊括了多方安全计算、联邦学习、可信执行环境等三大类技术,在产业需求的推动下正积极开展跨平台互联互通、可信硬件研发、软硬一体机产品创新,在政策支撑下,其应用落地也逐渐丰富。目前,隐私计算技术的落地场景主要包括金融风控、精准营销、政务服务、保险定价、医疗健康等领域。其中,金融领域应用最广,公共服务领域应用占比强势提升。

过去几年中,医疗行业数字化获得了长足发展,众多医院和医疗机构积累了大量医疗数据,为隐私计算的落地提供了很好土壤。而医疗数据又具有极强的隐私属性,对隐私保护和数据安全的需求更为强烈。医疗数据的流通,一方面可以推动智慧诊疗、医保自动化、新药研发等产业的发展,另一方面也可以促进现代化医学研究、公共卫生防疫以及临床医疗应用等生物科学技术的一些进步。基于此,生物医疗或将成为隐私计算应用的下一个市场竞争点与爆发点。

 医疗数据流通与保护需求激增

医疗数据广泛存在并应用于日常生活的各个环节:比如通过大数据分析用药成分、寻找合理用药的最佳组合;通过基因测序、快速筛查与预测疾病、进行基因缺陷组的分析;远程诊疗、智能穿戴等场景。一旦医疗数据遭到篡改或破坏,将对医疗机构的声誉造成负面影响并危害医患双方的隐私安全。

近些年,医疗领域信息泄露及滥用、盗用事件频发。数据保护已成为持续稳定的市场需求,而非短暂的监管应对行为。

20204月,世卫组织曾发表声明,疫情期间遭受到网络攻击同比增长了5倍,全球23.7%的 APT 攻击都跟医疗安全事故相关。中国首次超过了美国和韩国,成为了全球APT攻击的首要目标。抗疫期间,国内一些医疗AI检测新冠技术实验室原代码就被黑客窃取并出售。同时,远程诊疗逐渐在疫情期间被接受,互联网医院在线上进行数据的传播,加剧了诊断数据、诊断信息暴露的风险

政策方面,去年 7 月,《信息安全技术 健康医疗数据安全指南》国家标准开始实施;《全国医疗机构网络信息安全管理办法》即将出台。今年 2 月,国家卫健委发布了建立统一的电子健康档案、电子病历、公共卫生等一系列信息标准体系,逐步实现互联互通、信息共享和信息同步。机构间医疗数据融合需求强烈,数据流通也是释放数据要素价值的重要环节。

法规方面,现行的《数据安全法》和《个人信息保护法》明确了相关主体的义务,去年实施的国家标准《信息技术健康医疗数据指南》。

隐私计算技术有望在保护医疗数据安全的前提下实现合规流通和价值。至今,医疗健康已占据隐私计算 11% 的应用场景,医疗领域的隐私计算产品已能支持较大规模应用的实施。

在具体实践中,医疗机构、基因测序机构、科研机构等作为数据提供方,医疗机构、科研机构、制药机构作为数据使用方,通过隐私计算实现机构间数据互联互通,进行跨机构的精准防疫、药物开发、辅助诊断、基因分析、临床医学研究等应用。

隐私计算在医疗领域的典型应用场景主要有医疗机构间的数据共享和跨机构跨域的医疗数据开放两大类。前者属于医疗机构、制药企业、基因测序机构、科研机构之间的横向场景,以增加样本数量进行建模;后者则纳入了保险公司、运营商、政务系统、互联网等外部数据,以增加样本特征进行建模。

临床医学等多个医疗场景落地中

目前,国内外的应用实践案例也基本围绕临床医学研究、基因分析、疫情防控等场景展开。联合风控、联合营销、医保付费预测等场景也在解锁中。

比如,欧盟开展 “机器学习分类账编排的药物发现” 项目构建了一个具备分布式架构和联合学习功能的平台,可利用多家顶级药企数据创建更精准的 AI 模型,以确定药物开发最有效的化合物。

英国的 OpenSAFELY 软件平台部署在英国两家最大电子健康记录提供商的安全数据中心内,通过分析电子健康记录数据,在 COVID-19 大流行期间,该平台通过隐私增强技术分析了 2400 万患者的记录,准确识别出与新冠相关的危险因素。

澳大利亚的 Presagen 公司致力于连接全球的医疗数据,可通过联邦 AI 算法帮助筛选试管婴儿的胚胎,显著提高评估胚胎活力的准确度。

国内,深圳国家基因库和华大区块链共同开发的新冠病毒基因组分析平台基于区块链和多方安全计算的新冠病毒基因组分析工具,助力数据共享和疫情防控。

城市级实践案例全国首个基于隐私计算的城市级医疗应用已在厦门落地。厦门健康医疗大数据应用的开放实践已经实现了对 COPD(慢性阻塞性肺病)、糖尿病、NIPT(无创产前检测)关联儿童的疾病、妊娠高血压、人群健康报告等课题的研究,辅助提升了人工智能模型的准确性、鲁棒性,提高担子病例结构化的准确性和效率,辅助基层医生完成高质量病例书写,提供检验检查、疾病诊断、用药等推荐,提升基层医生的诊疗水平以及市民在社区医院首次就诊的意愿度。

企业创新实践中,基于自身的资源与技术积累,隐私计算领域的创业公司主要采取平台型技术产品和行业垂直应用两种定位。此外,综合科技企业、区块链企业、人工智能企业等多种类型的技术公司也在纷纷入局。

例如成立于行业早期的翼方健数,至今已在医疗、医保和医药+生物信息等细分赛道中担当 “排头兵”。在医疗领域,翼方健数的核心产品包括医院使用的科研平台、智慧病案管理的系列解决方案、药厂使用的药研平台、保险公司使用的医保平台以及用于公共卫生领域的疾控平台。

大数据隐私计算平台中的后起之秀锘崴科技在成立的第三年就完成亿元级 B 轮融资,在医疗领域,锘崴科技已推出包括监管系统、数据节点管理、数据应用开发系统等在内的可视化产品和多中心隐私数据分析及建模、多中心目标条件隐私查询、带有隐私保护的医疗临床数据库等应用场景的解决方案。

此外,作为持续投入与布局隐私计算的大型科技集团之一,近年来蚂蚁开始以其全球领先的专利技术积累提供隐私计算基础设施服务。在医疗领域,蚂蚁集团主要以多方安全联合规则等解决方案服务于医保理赔、医院数字化运营以及卫健临床辅助决策等场景。

性能与安全性阻碍规模化应用

当前,监管规则、性能瓶颈、安全标准、互联互通等仍然构成通用隐私计算规模化落地的难点。而在医疗领域的应用中,这些难点也细化为一些更具体的挑战,限制着隐私计算应用在医疗场景的推广。

首先,应用场景和需求不够明确。金融场景、征信监管要求和需求更强烈,场景相对更明确。而医疗数据包含病例、医嘱、CT 影像、基因等多种类型,复杂程度高,还需进行基因分析、影像勾画、非结构化数据处理、统计分析等多种处理方法。

其次,配套法规还不健全。这需要不断健全医疗大数据相关的法律法规,给出更多监管指导意见,进一步解决个人医疗数据的隐私保护和隐私泄露问题,建立行业合作机制,开放共享。

第三,性能需进一步提升。针对海量医疗数据,隐私计算采用的密文需突破计算和网络性能的限制。医疗领域联合计算参与方数量更多、数据量更大,对多节点的并发计算能力以及计算精度要求更高新药研发、辅助诊断等场景甚至要求零误差。

最后,技术标准有待完善。在确保健康医疗大数据收集环节的广泛多样真实互联后,还应将采集数据标准和规范进行统一和完善,对大数据技术和管理进行规范化、标准化。

随着医院之间医疗信息的互联互通建设,医学专家对数据不出域开展联合科研需求的增加,将加速医疗机构对隐私计算的投入。中国信通院云大所高级工程师白玉真认为,未来应加大隐私计算在以下几方面的探索。

  • 探索丰富医疗应用场景。通过隐私计算技术工具将数据融合价值最大化,丰富医疗数据应用场景,可以电子病历结构化相对统一的医联体以及医疗大数据中心为抓手,从科研场景入手,降低用户授权门槛。
  • 性能提升促进规模应用。针对医疗数据的多样性,结合特定场景提升计算性能,通过通用算法的流程优化、系统架构、硬件加速等手段提升规模应用。
  • 多方技术融合加速应用落地。隐私计算之下多方安全计算、联邦学习、可信执行环境等多种分支技术之间的融合及其与区块链等其他领域技术的融合可拓展应用的边界。
  • 制定面向医疗场景的标准。针对医疗场景的特殊性,编制面向特定场景的相关标准,促进产品的规范和研发,辅以成熟的检测工具,将有效促进产品的规范和应用落地。