-
隐私计算顶级赛事iDASH2021揭榜 蚂蚁集团获“两冠”创下新纪录
在2021年iDASH国际隐私计算竞赛中,蚂蚁链摩斯团队斩获同态加密、联邦学习两项国际冠军。这是自2014年iDASH举办以来,首次来自中国的参赛队夺得上述赛道冠军,蚂蚁链摩斯也成为首支同时拿下两项冠军的中国队伍……
一、iDASH大赛背景及介绍
iDASH 由美国国立卫生研究院(NIH)主办,每年举行一次,是目前国际上在隐私计算和数据隐私保护领域最高规格的竞赛。历年参赛队伍中不乏麻省理工、斯坦福和谷歌等世界名校或科技巨头。今年iDASH竞赛共有来自全球十多个国家和地区的八十多支队伍参加,包括IBM、三星、蚂蚁、腾讯等国内外大型科技公司。
iDASH 每年会设置2至4个赛道,分别限定采用不同的隐私计算技术来解决问题。赛事组委会对各参赛队提交的方案及其代码进行评审,筛选出符合赛题场景、安全等各方面要求的方案,并测试性能、精度等指标进行排名。
二、iDASH2021大赛揭秘
今年比赛设置了同态加密、联邦学习和区块链三大赛道,其中,同态加密与联邦学习两大赛道参赛队伍众多,竞争尤为激烈。
同态加密赛道的赛题是对新冠病毒变种进行安全分类。赛题要求参赛队伍训练出一个新冠变种分类模型,并采用同态加密技术对2000个新冠基因样本在加密状态下进行分类,并输出样本的变种类型,按分类准确率和耗时对各队伍进行排名。比赛要求在分类过程中,数据方待分类的基因样本和模型方的分类模型都不暴露。这一题目同时比拼模型设计和加密分类方案设计两方面的能力。
图1 新冠变种基因突变示例
该赛题实质上是一个字符串分类问题:每个基因样本是一个4种碱基组成的序列,表示为一个4个字母组成的字符串;由于基因变异会造成数个基因片段的增加、删除或修改,每个基因样本都不同,长度也不一;同一变种的样本间差异相对小些。对于这一分类问题,大多参赛队伍沿用逻辑回归、深度学习、NLP等机器学习的分类方法。
图2 基因序列及k-mer示例
与其他队伍不同,摩斯创新地提出基于典型基因片段提取和匹配的一种新分类方法,并设计了同态的布隆过滤器结合同态加密的SIMD技术来提升密态下的分类性能:
-
模型训练: 统计各变种最具有代表性的Top n个k-mer(即长度为k的子串)作为分类模型。这里借鉴了树模型的信息增益比和gini index作为Top n排序的指标。
-
明文分类方法: 根据一个变种top n k-mer在一个样本出现的数量作为该样本分类为该变种的分数。这一分类方法简单且准确率高,但是用同态加密实现高效分类并不简单。
-
同态加密下分类 :分类实质是一个安全求交集大小的问题,即求top n k-mer集合与样本k-mer集合的交集大小。
比赛要求:模型方输出分类分数的密文给数据方解密,数据方解密直接得到分数,不允许数据方根据解密结果进一步处理来得到分数。这一要求使得比赛难度更大,现有的安全求交集方案要么不可用,要么性能太差。
摩斯创新地设计了同态加密的布隆过滤器,只需要加法同态就能实现求交集大小,避免了使用较慢的同态运算。缺点是得到的是交集大小近似值,但不影响分类准确度。为了进一步提升性能,摩斯方案还进一步利用了同态加密的SIMD特性,同时对2000个样本进行分类。
最终摩斯方案不到1秒钟就完成2000个样本的100%正确分类,分类速度达到第2名的5倍且分类准确率更高。
联邦学习赛道的赛题是对一种心肌病进行安全建模。赛题要求参赛队伍利用两个分别是831个样本和882个样本、均为1874个特征的水平分割样本集,对转甲状腺素蛋白淀粉样变心肌病在差分隐私安全模型下构建模型,然后对测试集进行明文预测。建模过程中要求对所有中间结果和输出结果加噪声保护达到差分隐私安全。比赛对建模的耗时和测试集的预测准确度进行综合评价。
我们对数据集进行明文测试,发现数据集中存在效果特别强的特征。与多数参赛团队采用线性模型不同,我们采用树模型来充分利用强势特征的效果,同时尽量简化模型使每次加噪时获得尽量多的预算。我们在两个数据集上分别明文建一个3层的CART树,将两棵树合起来组成一个随机森林,预测准确度可以达到0.84。所有特征只有0和1两种取值,所以从根结点出发的路径上每个特征只出现一次,且这两棵树中只出现了3个特征。
我们对每个数据集独立地构造差分隐私安全的CART树:
-
根结点 :将大部分预算投入到用指数机制从1874个特征中选出3个特征,将第一个选出的特征作为根结点的划分特征
-
第二层和第三层 :用指数机制选出第二层各点的特征,第三层用余下的特征
-
叶子 :用指数机制选出叶子标签
对每个CART树的构建过程不需要交互,将两个CART树合并部署到任何一方或第三方均可获得差分隐私保护的完整模型。我们给出一种建模和部署方式用于测试。
最终摩斯方案在保持相当高的预测准确度的同时只需要0.09秒完成建模,建模性能是其他两个并列第一方案的3倍和350倍。
三、摩斯产品发展背景与现状
值得一提的是,蚂蚁链摩斯在2019年首次参加iDASH比赛时,曾获得多方安全计算组冠军和可信执行环境组季军。国际权威赛事上多次获奖与蚂蚁链摩斯在隐私计算技术与应用领域的深厚积累密不可分,显示出蚂蚁链摩斯的隐私计算综合技术实力已经达到世界领先水平。
摩斯产品目前已发展出企业版、PC版、一体机版等多种版本。PC版为用户提供快捷轻量的免费隐私计算服务能力,而软硬件结合的一体机版提供硬件加速和硬件增强安全能力。摩斯产品目前已应用于金融、科研、政务等10多个行业的上百家机构,服务于信贷风险分析、政务数据安全开放、多方联合科研等业务场景,是国内最早大规模商用的隐私计算产品。
-
欢迎各位伙伴交流产品及联系合作 (可钉钉联系@箬兮)
-
内部钉钉交流群: 摩斯产品应用 探究社 (群号:35544266)
钉钉群二维码