近期,复旦大学韩伟力教授带领的数据安全与治理课题组和蚂蚁技术团队合作研究的论文《Private, Efficient, and Accurate: Protecting Models Trained by Multi-party Learning with Differential Privacy》被IEEE Symposium on Security and Privacy 2023录用,论文第一作者为博士生阮雯强。IEEE S&P创始于1980年,是安全领域的旗舰会议,与ACM CCS、USENIX Security、NDSS并列为信息安全领域四大顶级会议,收录研究机构以及科技企业在计算机安全和隐私研究领域最前沿、最顶级的研究成果,同时也是CCF推荐的A类会议。
论文研究主题为安全多方学习(基于安全多方计算的机器学习),它是实现隐私计算的主流技术路径之一,旨在为数据要素流通提供一种可证明安全的技术解决方案。鉴于当前数据安全的相关法律法规对政府和企业的数据安全机制提出了更为严格的要求,预期安全多方学习有着更为广泛的应用场景和更高的实践价值。
通过课题组研究发现,尽管安全多方学习机制底层的安全多方计算协议为计算过程提供了严格的安全性保障,经由安全多方学习训练得到的模型依然无法抵抗那些仅依赖模型访问的攻击手段,例如成员推理攻击。另一方面,尽管差分隐私技术能够帮助抵御成员推理攻击,其所要求的大量随机噪声会给模型带来较大的精度损失。同时,底层的安全多方计算协议会为学习过程带来大量的通信开销。因此,如何在安全多方学习过程中针对模型平衡其隐私保障、效率以及精度是一个亟待解决的难题。
如下图所示,该项研究在隐私计算领域提出安全高效新方案。它通过提出一个安全差分隐私随机梯度下降协议以及两项对效率与精度的优化方法解决上述问题。
首先,提出一个安全差分隐私随机梯度下降协议以在基于秘密共享的安全多方学习框架中实现差分隐私随机梯度下降算法。差分隐私随机梯度下降算法中的两个关键操作为通过计算平方根倒数对梯度的L2范数进行裁剪、向裁剪后的梯度添加随机高斯噪声。为了安全地实现差分隐私随机梯度下降算法,设计了一个基于秘密共享协议的平方根倒数计算协议并证明其误差上界以安全地裁剪梯度。同时,利用Dwork等人于2006年提出的随机高斯噪声生成协议安全地生成高斯噪声。结合上述方法,设计了一个安全差分隐私随机梯度下降协议。
随后,为了降低差分隐私带来的精度损失并提升安全多方学习的效率,从安全多方学习训练过程的角度提出了两项优化方法:
(1)用于简化模型结构的数据无关特征提取方法,利用数据无关的特征提取器,如预训练模型、启发式规则等,预先提取数据特征,从而在不影响差分隐私保障的前提下简化模型结构,达到降低差分隐私精度损失以及提高安全多方学习效率的目的;
(2)基于本地数据的全局模型初始化方法,用于加速模型训练过程的收敛。令每个参与方先使用自身本地数据训练一个本地模型,随后使用安全多方计算协议聚合参与方的本地模型以对全局模型进行初始化。随后在全局数据集上继续提升该全局模型的精度,加快训练过程的收敛。
最终,在两个开源安全多方学习框架(TF-Encrypted和Queqiao)上实现了上述协议与优化方法。在多个数据集上的实验结果验证了上述协议与方法的效率与有效性。例如,在局域网环境下,当Epsilon=2时,可以在7分钟内基于CIFAR-10数据集训练一个精度达到88%的分类模型。上述结果远远优于当前最新的安全多方学习框架CryptGPU(其需要花费超过16个小时基于CIFAR-10数据集训练一个精度达到88%的无差分隐私保护的神经网络模型)。