Opacus一款用于训练具有差分隐私的PyTorch模型的高速库-阿里云开发者社区

Opacus一款用于训练具有差分隐私的PyTorch模型的高速库

2023-04-18 794

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Opacus一款用于训练具有差分隐私的PyTorch模型的高速库

原作者：Davide Testuggine、Ilya Mironov，均为 Facebook AI 应用研究科学家

原文链接：https://ai.facebook.com/blog/...

Opacus是一个能够训练PyTorch模型的差分隐私的库。它支持在客户端上以最小的代码改动进行训练，对训练性能影响不大，并允许客户端在线跟踪任何给定时刻的隐私预算支出。这个代码版本是针对两个目标受众：ML从业者会发现这是一个温和的介绍，以训练一个具有微分隐私的模型，因为它需要最小的代码变化。差分隐私科学家会发现这很容易进行实验和修整，让他们专注于重要的事情。

Opacus是一种新的高速库，用于使用差分隐私（DP）训练PyTorch模型，该库比现有的最新方法更具可扩展性。差异隐私是用于量化敏感数据匿名化的严格数学框架。它通常用于分析中，并且对机器学习（ML）社区的兴趣日益浓厚。随着Opacus的发布，我们希望为研究人员和工程师提供一条更轻松的途径，以在ML中采用差异隐私，并加速该领域的DP研究。

Opacus提供：

速度：通过利用PyTorch中的Autograd挂钩，Opacus可以计算成批的每个样本的梯度，与依赖微批处理的现有DP库相比，可将数量级的速度提速。
安全：Opacus使用密码安全的伪随机数生成器
对其安全性至关重要的代码。这在GPU上高速处理了整批参数。
灵活性：多亏了PyTorch，工程师和研究人员可以通过将我们的代码与PyTorch代码和纯Python代码进行混合和匹配来快速创建他们的想法的原型。
生产力：Opacus随附教程，辅助功能，这些功能甚至可以在你开始培训之前就警告不兼容的图层以及自动重构机制。
交互性：Opacus会跟踪你在任何给定时间点花费了多少隐私预算（DP中的核心数学概念），从而能够提早停止和实时监控。

Opacus通过引入PrivacyEngine抽象定义了一个轻量级的API，该抽象既可以跟踪你的隐私预算，也可以处理模型的渐变。你无需直接调用它即可运行，因为它已连接到标准PyTorch优化器。它在后台运行，使使用Opacus进行培训就像在培训代码的开头添加以下代码行一样容易：

model = Net()
optimizer = torch.optim.SGD(model.parameters(), lr=0.05)
privacy_engine = PrivacyEngine(
 model,
batch_size=32,
sample_size=len(train_loader.dataset),
alphas=range(2,32),
noise_multiplier=1.3,
max_grad_norm=1.0,
)
privacy_engine.attach(optimizer)
That's it! Now it's business as usual

训练后，生成的工件是标准的PyTorch模型，没有额外的步骤或部署私有模型的障碍：如果你今天可以部署模型，则可以在使用DP对其进行了训练之后进行部署，而无需更改任何代码。

Opacus库还包括经过预先训练和微调的模型，针对大型模型的教程以及为隐私研究实验而设计的基础结构。

使用Opacus实现高速隐私培训

我们与Opacus的目标是保留每个训练样本的隐私，同时限制对最终模型准确性的影响。

Opacus通过修改标准的PyTorch优化器来做到这一点，以便在训练过程中实施（和测量）DP。

更具体地说，我们的方法集中在差分私有随机梯度下降（DP-SGD）上。

该算法背后的核心思想是，我们可以通过干预模型用来更新权重的参数梯度（而不是直接获取数据）来保护训练数据集的隐私。通过在每次迭代中将噪声添加到梯度中，我们可以防止模型记住其训练示例，同时仍可进行汇总学习。（无偏的）噪声自然会在训练过程中看到的许多批次中抵消。

但是，增加噪声需要微妙的平衡：过多的噪声会破坏信号，而过少的噪声将无法保证隐私。为了确定合适的比例，我们看一下梯度的范数。限制每个样本对梯度的贡献很重要，因为离群值比大多数样本具有更大的梯度。我们需要确保这些异常值的私密性，尤其是因为它们极有可能被模型记住。为此，我们在一个小批处理中计算每个样本的梯度。我们分别裁剪梯度，将其累积回单个梯度张量，然后将噪声添加到总和中。

这种基于样本的计算是构建Opacus的最大障碍之一。与PyTorch的典型操作相比，它更具挑战性，自动毕业计算整个批次的梯度张量，因为这对于所有其他ML用例都是有意义的，并且可以优化性能。为了克服这个问题，我们使用了高效技术训练标准神经网络时获得所有所需的梯度向量。对于模型参数，我们单独返回给定批次中每个示例的损失梯度。

这是Opacus工作流程的图表，我们在其中计算每个样本的梯度。

通过在运行各层时跟踪一些中间数量，我们可以使用适合内存的任何批次大小进行训练，从而使我们的方法比其他软件包中使用的替代微批次方法快一个数量级。

隐私保护机器学习的重要性

安全社区鼓励安全关键代码的开发人员使用少量经过仔细审查和专业维护的库。通过允许应用程序开发人员专注于他们最了解的事情：构建出色的产品，这种“不自行加密”的原则有助于最大程度地减少攻击面。随着ML的应用和研究不断加速，对于ML研究人员而言，重要的是使用易于使用的工具来获得数学上严格的隐私保证，而不会拖慢培训过程。

我们希望通过开发Opacus等PyTorch工具，使对此类隐私保护资源的访问民主化。我们正在使用PyTorch更快，更灵活的平台弥合安全社区和一般ML工程师之间的鸿沟。

建筑社区

在过去的几年中，隐私保护机器学习（PPML）社区得到了快速发展。我们为Opacus周围已经形成的生态系统感到兴奋，我们的主要贡献者之一是OpenMined，这是一个由数千名开发人员组成的社区，他们正在构建以隐私为中心的应用。并利用许多PyTorch构建块为PySyft和PyGrid提供基础，以实现差异化隐私和联合学习。作为合作的一部分，Opacus将成为OpenMined库（例如PySyft）的依赖项。我们期待继续我们的合作，并进一步扩大社区。

Opacus是Facebook AI促进工作进步的更广泛努力的一部分安全发展计算技术用于机器学习和负责任的人工智能。总体而言，这是将来将其领域转向构建隐私优先系统的重要踏脚石。