带你读《云原生机密计算最佳实践白皮书》——部署TensorFlow Serving在线推理服务(1)

简介: 带你读《云原生机密计算最佳实践白皮书》——部署TensorFlow Serving在线推理服务(1)

Intel Confifidential Computing Zoo: Intel机

密计算开源解决方案


项目位置链接

https://github.com/intel/confidential-computing-zoo


技术自身介绍


问题&挑战

目前,机密计算还处于早期阶段,用户对SGX和TDX技术的了解和使用还需要进一步的加深和推广,对特定应用场景下如何结合Intel TEE技术以及其他安全技术打造全链路的机密计算方案缺少相应的设计参考


解决方案

为了帮助用户快速了解和使用Intel TEE技术,便捷快速地设计和开发出相关机密计算安全解决方案,Intel发起并开源了Confifidential Computing Zoo(CCZoo), CCZoo集合了不同的安全技术栈,提供了基于不同应用场景下的各种典型端到端的安全解决方案的参考案例,这些参考案例贴近实际的商业案例,让用户增加在机密计算方案设计和实现的体验,同时,引导用户结合相应的参考案例,快速设计和实现出自己特定的机密计算方案。此外,CCZoo还会选择在不同公有云,例如阿里云ECS,部署和验证已发布的端到端的机密计算方案,为用户提供相关的云上部署特有的配置参考信息,帮助用户方案快速上云。


技术介绍

CCZoo当前提供了6个类别的机密计算场景和1个孵化期项目集,具体分类如下图所示。为了方便部署,大部分的方案采用了容器化的集成。在不同的机密计算场景下,CCZoo选择使用了不同的安全技术组件模块,主要包括:Runtime Security、LibOS、Remote Attestation、KMS、TLS。用户可以通过对不同参考案例的部署增加对不同安全组件的使用和选择。

image.png

• Runtime Security: 当前主要使用Intel SGX,基于应用程序级别的隔离,对用户的应用和数据进行保护。

• LibOS: Gramine和Occlum。通过LibOS运行现有应用程序,只需进行细微修改或无需修改,即可在Intel SGX Enclave中运行。

• Remote Attestation: 提供了具体RA-TLS能力集成的gRPC框架,方便用户将远程认证的功能需要集成到自有框架中。

• KMS: 提供了集成远程认证加密钥管理的功能模块。

• TLS: 集成了RA-TLS功能,并启用了证书验证机制。

CCZoo将会跟Anolis Cloud Native Confifidential Computing(CNCC) SIG展开合作,将CCZoo中不同机密计算场景下的方案,结合Anolis的技术框架进行实现和部署,如下图所示。

1685104971629.png

应用场景

CCZoo中多场景下的机密计算方案可以帮助CNCC SIG 进一步丰富用户基于Anolis的安全方案使用场景,为用户提供了最佳实践。同时,CCZoo也会基于方案级别,对Anolis进行全栈式的测试和验证,从用户实际使用的角度,来验证Anolis的可靠性和功能性。


部署TensorFlow Serving在线推理服务


概述


本文介绍在Intel® SGX使能的平台,基于Anolis OS部署TensorFlow Serving在线推理服务的技术架构和使用流程。


背景信息


TensorFlow Serving是Google开源的机器学习平台TensorFlow生态的一部分,它的功能是将训练好的模型运行起来,提供接口给其他服务调用,以便使用模型进行推理预测。 阿里云ECS部分安全增强型实例基于Intel® SGX(Software Guard Extension)技术,提供了SGX加密计算能力,打造了基于硬件级别的更高安全等级的可信机密环境,保障关键代码和数据的机密性与完整性不受恶意软件的破坏。

将TensorFlow Serving在线推理场景部署在阿里云安全增强型实例可信机密环境中,可以保证数据传输的安全性、数据盘的安全性、数据使用的安全性、以及AI在线推理应用程序的完整性。 本实践为开发者使用Anolis OS提供了参考实现,您可以了解以下内容:

• 对基于SGX加密技术实现的端到端的全数据生命周期安全方案有整体了解。

• 对于使用TensorFlow Serving的开发者,可直接参照本实践部署和开发脚本。

• 为使用安全增强型实例的SGX开发者提供可行性参考框架和脚本,您可根据本实践步骤快速了解安全增强型实例以及环境搭建部署流程,轻松上手使用。

技术架构

本实践技术架构如下所示。

1685080310729.png

本实践涉及三个角色:客户端、Anolis OS SGX端、远程请求端。

客户端客户端机器会将训练完的模型以及用来建立安全连接的TLS证书进行加密,并将这些加密文件上传到Anolis OS SGX端环境中。同时,客户端机器还将部署密钥提供服务,主要用来对 SGX端进行认证,确保运

行在云上的TensorFlow Serving推理服务应用的完整性及SGX环境的可行性。验证通过后,会将密钥发送给在

OS SGX中运行的TensorFlow Serving推理服务。

Anolis OS SGX端:Anolis OS SGX端提供SGX机密计算环境,TensorFlow Serving推理服务运行在SGX环境中。当推理服务启动时,会向客户端发送远程认证请求,证明当前SGX环境的可行性和AI推理服务的完整性。验证成功后,推理服务会拿到客户端发送的密钥,并对加密的模型和TLS证书进行解密,至此,运行在SGX环境中的推理服务成功运行,并等待远程访问请求。

远程请求端:第三方使用者通过网络安全传输,将数据发送到运行在SGX机密计算环境中的推理服务。推理完成后,得到返回结果。

说明:本实践将客户端和远程请求端部署在同一台机器,Anolis OS SGX端部署在另外一台机器。

本实践使用到的其他组件如下:

LibOS:Gramine是一款轻量级LibOS,结合Intel® SGX加密保护技术,提供了内核能力定制,运行资源消耗少,具备非常好的ABI兼容性,极大降低了原生应用移植到SGX环境的成本,做到了应用程序不修改或者极少的修改便能运行在SGX环境中。本实践使用Gramine封装TensorFlow Serving推理服务,将推理服务简单便捷地运行在SGX实例中。更多信息,请参见Gramine。

AI推理服务:TensorFlow Serving是Google开源的机器学习平台TensorFlow生态的一部分,它的功能是将训练好的模型运行起来,提供接口给其他服务调用,以便使用模型进行推理预测。更多信息,请参见Tensor

Flow。

Docker容器引擎:为了方便部署推理服务,本实践采用将推理服务运行在Container中的方式,利用Docker的命令方式运行推理服务。

本实践技术架构说明如下:

• Intel证书缓存服务PCCS(ProvisioningCertifificate Caching Service)。如技术架构中①所示,Anolis OS SGX端需要向Intel PCCS获取PCK(Provisioning Certifification Key)证书,Intel SGX会有一个密钥用于Enclave的签名,该密钥对于处理器或者平台是唯一的,密钥的公开部分就是PCK公钥。另外客户端也会向PCCS获取一些信息,比如TCB信息、Quote Enclave认证的信息、CRL信息等用于对SGX Enclave的认证。

• 搭建好Anolis OS SGX端后,可以将本地加密的模型文件以及TLS证书通过网络传输放到云盘中备用,如技术架构中②所示。

• 通过LibOS Gramine启动TensorFlow Serving推理服务时,会加载加密的模型文件,如技术架构中③所示。

• Gramine本身集成了远程认证的功能,在识别到有加密文件加载时,会转向配置好的远程IP服务发送认证请求,如技术架构中④所示。本实践在实现时,以一台阿里云实例模拟客户端,同时也作为远程访问端,另一台实例作为SGX环境。

• 在客户端的密钥提供服务对Anolis OS SGX端中的Enclave Quote认证成功后,会将模型加密的密钥发送给Gramine,如技术架构中⑤所示。由于此时Gramine是运行在Enclave中,因此Gramine拿到密钥对模型解密的过程是安全的。• 通过LibOS Gramine启动TensorFlow Serving推理服务时,会加载加密的模型文件,如技术架构中③所示。

• 在模型解密后,TensorFlow Serving便可以正常运行,并等待远端的访问请求。为了建立通信安全连接通道,远程访问端有TLS的公钥,在建立连接后,会对TensorFlow Serving中的TLS证书进行校验。如技术架构中⑥所示。

• 当TensorFlow Serving对远程请求端的数据推理完成后,便会通过建立的安全通道将推理结果返回给请求端,如技术架构中⑦所示。



《云原生机密计算最佳实践白皮书》——07解决方案——Intel Confidential Computing Zoo: Intel机密计算开源解决方案——部署TensorFlow Serving在线推理服务(2) https://developer.aliyun.com/article/1230818?groupCode=aliyun_linux


相关文章
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
626 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
8月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
1606 39
|
运维 Cloud Native 云计算
云原生技术:探索未来计算的无限可能
【10月更文挑战第8天】 云原生技术,作为云计算领域的一次革新性突破,正引领着企业数字化转型的新浪潮。它不仅重塑了应用的构建、部署和运行方式,还通过极致的弹性、敏捷性和可扩展性,解锁了未来计算的无限潜力。本文将深入浅出地解析云原生技术的核心理念、关键技术组件及其在不同行业中的实际应用案例,展现其如何赋能业务创新,加速企业的云化之旅。
246 7
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
ACK One注册集群已正式支持ACS(容器计算服务)算力,为企业的容器化工作负载提供更多选择和更强大的计算能力。
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
474 10
|
Cloud Native 安全 Serverless
云原生应用实战:基于阿里云Serverless的API服务开发与部署
随着云计算的发展,Serverless架构日益流行。阿里云函数计算(Function Compute)作为Serverless服务,让开发者无需管理服务器即可运行代码,按需付费,简化开发运维流程。本文从零开始,介绍如何使用阿里云函数计算开发简单的API服务,并探讨其核心优势与最佳实践。通过Python示例,演示创建、部署及优化API的过程,涵盖环境准备、代码实现、性能优化和安全管理等内容,帮助读者快速上手Serverless开发。
|
人工智能 Cloud Native 多模数据库
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
373 1
|
运维 Cloud Native Serverless
Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”
2024年12月24日,阿里云Serverless Argo Workflows大规模计算工作流平台荣获由中国信息通信研究院颁发的「云原生技术创新案例」奖。
|
Kubernetes Cloud Native Docker
云原生之旅:从传统架构到容器化服务的演变
随着技术的快速发展,云计算已经从简单的虚拟化服务演进到了更加灵活和高效的云原生时代。本文将带你了解云原生的概念、优势以及如何通过容器化技术实现应用的快速部署和扩展。我们将以一个简单的Python Web应用为例,展示如何利用Docker容器进行打包和部署,进而探索Kubernetes如何管理这些容器,确保服务的高可用性和弹性伸缩。
|
机器学习/深度学习 数据采集 数据可视化
TensorFlow,一款由谷歌开发的开源深度学习框架,详细讲解了使用 TensorFlow 构建深度学习模型的步骤
本文介绍了 TensorFlow,一款由谷歌开发的开源深度学习框架,详细讲解了使用 TensorFlow 构建深度学习模型的步骤,包括数据准备、模型定义、损失函数与优化器选择、模型训练与评估、模型保存与部署,并展示了构建全连接神经网络的具体示例。此外,还探讨了 TensorFlow 的高级特性,如自动微分、模型可视化和分布式训练,以及其在未来的发展前景。
1158 5

热门文章

最新文章