随着云上 AI 技术的迅速发展,企业正在加速将其融入产品和运营中,因此如何在云上保护用户的敏感数据和模型变得尤为重要。用户数据和模型的丢失可能导致知识产权的损失,影响企业的竞争优势和收入,丧失用户信任将对企业形象和客户关系造成长期影响。面对上述严峻的亟待解决的 AI 模型数据安全问题,龙蜥社区理事长单位阿里云是如何从 AI Infra 中的操作系统层面来解决?在龙蜥社区又是如何保障机密计算安全能力,并提供开箱即用的机密计算软件栈。龙蜥社区机密计算 SIG Owner、阿里云智能集团高级技术专家张佳在 2024 云栖大会 AI Infra 核心技术专场上,分享了《Confidential AI 技术最佳实践》。内容见下:
(图/张佳)
阿里云 Confidential AI 将机密计算技术集成到模型服务平台中,使用了一种创新的方法,通过可信执行环境确保敏感数据和模型在完全隔离和加密的内存环境中进行处理,实现了一种覆盖系统级大模型数据全生命周期安全可信的端到端通用框架和范式。阿里云 Confidential AI 填补了 AI 安全领域中系统层安全能力的空白,最大程度地保证 AI 数据和模型安全,为 AI 系统的整体安全提供强大保障。
Confidential AI 背后的核心技术是机密计算,而机密计算的本质是一种运用硬件安全解决解决用户信任问题的工具。那么信任问题有何而来?
云计算平台服务商运用传统的虚拟化安全隔离技术防止恶意租户对云平台的攻击以及通过横向移动对其他租户数据和模型的攻击,这满足了云平台服务商的安全需求,但没有完全满足提供数据和模型的租户的安全需求。由于 AI 时代下模型和数据的价值很高,大幅度强化了租户对数据隐私保护的意识,因此租户希望能够在自己无法直接控制的云计算平台上,以仿若“远程保险箱”的方式,在可信执行环境中运行 AI 工作负载,确保模型和数据不会泄漏到可信执行环境之外,其中也包括了云计算平台,本质上是为了降低对平台的信任成本和安全依赖。
具体在大模型场景下的典型数据安全问题,主要包括以下几点:
- 模型数据泄露:大模型所在系统的安全问题可能导致高度机密和敏感的训练数据(如个人隐私数据和企业数据)以及高价值的模型参数信息泄露。
- 平台信任问题:模型提供者会因与平台提供者的所有权不同而产生的信任问题,导致不敢使用平台提供者提供的计算平台。
- 模型共享安全:传统安全技术无法有效分离模型和数据的所有权与使用权,所有者不能将模型数据授予其他多个实体使用,无法更好地控制数据的使用方式、最大化数据的价值和利用率以及促进跨组织的合作与共享。
- 用户隐私安全:企业用户无意间输入的包含企业机密信息的 prompt被泄露给 AIGC 类应用。
为了有效解决上述典型数据安全问题,阿里云全面应用 Confidential AI,利用机密计算软硬结合技术,从系统级安全角度为模型数据提供端到端的加密防护,大幅降低敏感数据和模型的泄露风险。
Confidential AI 能够无缝适配主流的 AI 推理框架,业务无需修改任何代码,就能轻松为用户部署安全可信的端到端模型部署、训练和推理框架。同时,利用机密计算远程证明服务,能够向用户证明执行环境、软件、数据和数据未经篡改。
Confidential AI 使用异构 TEE 技术,在确保 CPU 执行环境安全可信的同时,还能够验证 GPU TEE 并与之在物理总线之上建立端到端的安全信道,确保 CPU-GPU 之间的数据机密性和完整性。
阿里云的异构服务器实例还支持在同一节点上混跑普通 VM+GPU 工作负载和机密虚拟机 CVM+GPU TEE 工作负载,满足对安全可信水位有不同要求的用户群体。
阿里云在机密计算领域的产品化成果得益于其长期在上游机密容器社区、国内龙蜥社区机密计算 SIG 等开源组织开发、合作和推广机密计算技术,与海光、蚂蚁、南湖实验室等公司、组织和研究机构在开源技术上保持紧密合作,共同推广机密计算技术在国内的应用。
在国际上,阿里云以初创成员身份与业内多家头部公司合作共建的 CNCF Sandbox项目 Confidential Containers(简称 CoCo),至今已持续参与 2 年多的时间。阿里云在 CoCo 社区有 2 名 TC 成员,3 名核心子项目 Maintainers,开源贡献长期保持社区 top 2。主要贡献的远程证明和容器镜像安全等相关组件和特性已随 CoCo 正式版本发布。
阿里云 Confidential AI 使用了其在 CoCo 社区开发和贡献的核心组件,形成对 CoCo 社区开源技术的实质性商业化采纳与用例,成为 CoCo 项目晋升为 CNCF Incubation 项目的重要助力。
在国内,阿里云作为龙蜥社区理事长单位,持续深度运营龙蜥云原生机密计算 SIG ,联合主要芯片厂商以及蚂蚁共同推广机密计算技术在国内的应用。云原生机密计算 SIG 致力于与机密计算相关的开源项目进行合作共建,帮助这些开源项目更快更好地适配到 Anolis OS 上,为用户提供开箱即用的机密计算软件栈。云原生机密计算 SIG 围绕 SIG 下的核心项目构建云原生机密计算开源技术栈,降低机密计算的使用门槛,推动云原生场景下的机密计算技术的发展。现如今已经自底向上构筑出全栈机密计算安全能力。
其中部分核心项目包括:
- RATS-RS:基于 RATS 模型和架构,用安全语言 Rust 编写的跨 TEE 平台Attested TLS 库。
- Shelter:将应用运行在基于 TEE 的可信沙箱化工具。
- Intel SGX SDK & PSW & DCAP:Intel SGX & TDX Attestation SDK,Anolis OS 是Intel 在国内唯一官方适配的国产操作系统。
- OAAS:龙蜥社区第三方远程证明服务,支持主流 CPU TEE,后续支持 GPU TEE Attestation。
- Confidential AI:阿里云 Confidential AI 商业产品的开源版本,支持国产化 TEE 以及 GPU TEE,预计年底发布。
在产品维度,阿里云 Confidential AI 已被全面应用到相关 IaaS 和 PaaS 产品中。IaaS 形态的产品如 EGS 和 ACS 允许用户高度定制、控制和部署自己的 AI 框架和应用到基于机密计算的 CPU/GPU 可信执行执行环境中;PaaS 形态的产品如 PAI EAS 允许用户以一键部署和开箱即用的方式使用PAI机密计算推理服务 EAS(serverless)。
在合规领域,阿里云联合中科院软件所、南湖实验室、中国电子信息产业发展研究院等多家具有雄厚实力和业界影响力的研究机构,正式发布《机密计算保障人工智能系统安全研究报告》。
该报告提出了“AI 安全从系统层硬件开始”的核心理念,揭示了机密计算在保障 AI 安全,尤其是 AI 系统安全方面的重要价值。同时,报告还揭示了基于机密计算技术的 Confidential AI 将成为一个全面的 AI 安全解决方案和范式,确保模型服务框架中的敏感数据和模型在其生命周期中得到全面的保护。通过应用 Confidential AI,可以最大程度地保证数据的安全性和完整性,确保数据要素的可信流通。该报告的正文内容会于 12 月在阿里云安全合规官网上提供下载。
阿里云在商业化落地 Confidential AI 的过程中,率先支持英特尔 TDX 机密计算平台技术。英特尔 TDX 可确保数据完整性、机密性和真实性,增强虚拟化环境的保护能力和信任度,用户应用无缝升级为机密计算。此外,基于 TDX 构建的 Confidential AI 算力设施,将主机操作系统软件、系统固件和 I/O 设备传输链路等排除在用户大模型应用信任边界之外。用户可以借助远程认证来验证远端执行环境的可信度,大幅度降低用户对不可控计算基础设施的信任成本和安全依赖,满足用户对现代化 AI Infra 的安全可信要求。
结语:阿里云在 Confidential AI 上的商业化实践为企事业单位应用 AI 技术提供重要参考,将有助于企事业单位从系统层防范 AI 安全风险,规避因丧失用户信任而对企业形象和客户关系造成的负面影响。此外,Confidential AI 的应用能够有效促进机密计算技术在 AI 领域的推广应用,推动机密计算技术成为大规模部署机器学习场景下的重要解决方案和应用场景案例的重要技术。
欢迎大家加入龙蜥社区云原生机密计算 SIG(钉钉群号: 42822683),一起交流。
相关链接:
—— 完 ——