iDASH2021隐私计算大赛——摩斯夺冠揭秘

简介: 隐私计算顶级赛事iDASH2021揭榜 蚂蚁集团获“两冠”创下新纪录      在2021年iDASH国际隐私计算竞赛中,蚂蚁链摩斯团队斩获同态加密、联邦学习两项国际冠军。这是自2014年iDASH举办以来,首次来自中国的参赛队夺得上述赛道冠军,蚂蚁链摩斯也成为首支同时拿下两项冠军的中国队伍……一、iDASH大赛背景及介绍      iDASH 由美国国立卫生研究院(NIH)主办,每年举行一次,是
  • 隐私计算顶级赛事iDASH2021揭榜 蚂蚁集团获“两冠”创下新纪录

      在2021年iDASH国际隐私计算竞赛中,蚂蚁链摩斯团队斩获同态加密、联邦学习两项国际冠军。这是自2014年iDASH举办以来,首次来自中国的参赛队夺得上述赛道冠军,蚂蚁链摩斯也成为首支同时拿下两项冠军的中国队伍……

一、iDASH大赛背景及介绍

      iDASH 由美国国立卫生研究院(NIH)主办,每年举行一次,是目前国际上在隐私计算和数据隐私保护领域最高规格的竞赛。历年参赛队伍中不乏麻省理工、斯坦福和谷歌等世界名校或科技巨头。今年iDASH竞赛共有来自全球十多个国家和地区的八十多支队伍参加,包括IBM、三星、蚂蚁、腾讯等国内外大型科技公司。

       iDASH 每年会设置2至4个赛道,分别限定采用不同的隐私计算技术来解决问题。赛事组委会对各参赛队提交的方案及其代码进行评审,筛选出符合赛题场景、安全等各方面要求的方案,并测试性能、精度等指标进行排名。

二、iDASH2021大赛揭秘

        今年比赛设置了同态加密、联邦学习和区块链三大赛道,其中,同态加密与联邦学习两大赛道参赛队伍众多,竞争尤为激烈。

        同态加密赛道的赛题是对新冠病毒变种进行安全分类。赛题要求参赛队伍训练出一个新冠变种分类模型,并采用同态加密技术对2000个新冠基因样本在加密状态下进行分类,并输出样本的变种类型,按分类准确率和耗时对各队伍进行排名。比赛要求在分类过程中,数据方待分类的基因样本和模型方的分类模型都不暴露。这一题目同时比拼模型设计和加密分类方案设计两方面的能力。

图1 新冠变种基因突变示例

该赛题实质上是一个字符串分类问题:每个基因样本是一个4种碱基组成的序列,表示为一个4个字母组成的字符串;由于基因变异会造成数个基因片段的增加、删除或修改,每个基因样本都不同,长度也不一;同一变种的样本间差异相对小些。对于这一分类问题,大多参赛队伍沿用逻辑回归、深度学习、NLP等机器学习的分类方法。

 

图2 基因序列及k-mer示例

与其他队伍不同,摩斯创新地提出基于典型基因片段提取和匹配的一种新分类方法,并设计了同态的布隆过滤器结合同态加密的SIMD技术来提升密态下的分类性能:

  • 模型训练: 统计各变种最具有代表性的Top n个k-mer(即长度为k的子串)作为分类模型。这里借鉴了树模型的信息增益比和gini index作为Top n排序的指标。
  • 明文分类方法: 根据一个变种top n k-mer在一个样本出现的数量作为该样本分类为该变种的分数。这一分类方法简单且准确率高,但是用同态加密实现高效分类并不简单。
  • 同态加密下分类 :分类实质是一个安全求交集大小的问题,即求top n k-mer集合与样本k-mer集合的交集大小。

     比赛要求:模型方输出分类分数的密文给数据方解密,数据方解密直接得到分数,不允许数据方根据解密结果进一步处理来得到分数。这一要求使得比赛难度更大,现有的安全求交集方案要么不可用,要么性能太差。

     摩斯创新地设计了同态加密的布隆过滤器,只需要加法同态就能实现求交集大小,避免了使用较慢的同态运算。缺点是得到的是交集大小近似值,但不影响分类准确度。为了进一步提升性能,摩斯方案还进一步利用了同态加密的SIMD特性,同时对2000个样本进行分类。

最终摩斯方案不到1秒钟就完成2000个样本的100%正确分类,分类速度达到第2名的5倍且分类准确率更高。

联邦学习赛道的赛题是对一种心肌病进行安全建模。赛题要求参赛队伍利用两个分别是831个样本和882个样本、均为1874个特征的水平分割样本集,对转甲状腺素蛋白淀粉样变心肌病在差分隐私安全模型下构建模型,然后对测试集进行明文预测。建模过程中要求对所有中间结果和输出结果加噪声保护达到差分隐私安全。比赛对建模的耗时和测试集的预测准确度进行综合评价。

我们对数据集进行明文测试,发现数据集中存在效果特别强的特征。与多数参赛团队采用线性模型不同,我们采用树模型来充分利用强势特征的效果,同时尽量简化模型使每次加噪时获得尽量多的预算。我们在两个数据集上分别明文建一个3层的CART树,将两棵树合起来组成一个随机森林,预测准确度可以达到0.84。所有特征只有0和1两种取值,所以从根结点出发的路径上每个特征只出现一次,且这两棵树中只出现了3个特征。

                             

我们对每个数据集独立地构造差分隐私安全的CART树:

  • 根结点 :将大部分预算投入到用指数机制从1874个特征中选出3个特征,将第一个选出的特征作为根结点的划分特征
  • 第二层和第三层 :用指数机制选出第二层各点的特征,第三层用余下的特征
  • 叶子 :用指数机制选出叶子标签

                            

       对每个CART树的构建过程不需要交互,将两个CART树合并部署到任何一方或第三方均可获得差分隐私保护的完整模型。我们给出一种建模和部署方式用于测试。

                       

最终摩斯方案在保持相当高的预测准确度的同时只需要0.09秒完成建模,建模性能是其他两个并列第一方案的3倍和350倍。

三、摩斯产品发展背景与现状

     值得一提的是,蚂蚁链摩斯在2019年首次参加iDASH比赛时,曾获得多方安全计算组冠军和可信执行环境组季军。国际权威赛事上多次获奖与蚂蚁链摩斯在隐私计算技术与应用领域的深厚积累密不可分,显示出蚂蚁链摩斯的隐私计算综合技术实力已经达到世界领先水平。 

      摩斯产品目前已发展出企业版、PC版、一体机版等多种版本。PC版为用户提供快捷轻量的免费隐私计算服务能力,而软硬件结合的一体机版提供硬件加速和硬件增强安全能力。摩斯产品目前已应用于金融、科研、政务等10多个行业的上百家机构,服务于信贷风险分析、政务数据安全开放、多方联合科研等业务场景,是国内最早大规模商用的隐私计算产品。

  • 欢迎各位伙伴交流产品及联系合作 (可钉钉联系@箬兮)

  • 内部钉钉交流群: 摩斯产品应用 探究社 (群号:35544266)

 

            钉钉群二维码

相关文章
|
数据采集 缓存 安全
隐语小课|非平衡隐私集合求交(Unbalanced PSI)协议介绍
隐语小课|非平衡隐私集合求交(Unbalanced PSI)协议介绍
1407 0
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
1381 2
|
域名解析 小程序 Linux
CentOS 域名配置解析(购买-备案-配置-访问,二级域名配置)
CentOS 域名配置解析(购买-备案-配置-访问,二级域名配置)
683 0
|
机器学习/深度学习 安全 算法
技术焦点篇|Cheetah猎豹及其在隐语中的实现
技术焦点篇|Cheetah猎豹及其在隐语中的实现
1479 1
|
10月前
|
机器学习/深度学习 移动开发 测试技术
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
578 13
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
《零样本学习:突破瓶颈,开启智能新征程》
零样本学习是人工智能的前沿研究方向,旨在让机器在无特定类别样本的情况下通过推理识别新类别。其主要挑战包括数据匮乏、知识表示不准确、模型泛化能力不足及语义理解困难。解决方案涉及知识图谱、强化学习、迁移学习、多模态融合和生成式模型等技术。未来,随着技术进步,零样本学习有望实现突破并在各领域广泛应用。
355 10
|
Go 数据安全/隐私保护 UED
优化Go语言中的网络连接:设置代理超时参数
优化Go语言中的网络连接:设置代理超时参数
|
人工智能 安全 物联网
什么是分布式防火墙?
【8月更文挑战第23天】
619 0
什么是分布式防火墙?
|
JavaScript 前端开发 API
深入浅出:使用Node.js打造简易Web API
【8月更文挑战第31天】本文旨在通过一个简单实例,引导读者快速入门Node.js并创建自己的Web API。我们将从零开始,一步步搭建起服务端应用,涉及环境搭建、基本语法、路由处理等关键知识点,最后以代码实例加深理解。无论你是前端开发者还是后端新手,这篇文章都能让你轻松上手,体验后端开发的乐趣。