带你读《云原生机密计算最佳实践白皮书》——部署TensorFlow Serving在线推理服务(1)

简介: 带你读《云原生机密计算最佳实践白皮书》——部署TensorFlow Serving在线推理服务(1)

Intel Confifidential Computing Zoo: Intel机

密计算开源解决方案


项目位置链接

https://github.com/intel/confidential-computing-zoo


技术自身介绍


问题&挑战

目前,机密计算还处于早期阶段,用户对SGX和TDX技术的了解和使用还需要进一步的加深和推广,对特定应用场景下如何结合Intel TEE技术以及其他安全技术打造全链路的机密计算方案缺少相应的设计参考


解决方案

为了帮助用户快速了解和使用Intel TEE技术,便捷快速地设计和开发出相关机密计算安全解决方案,Intel发起并开源了Confifidential Computing Zoo(CCZoo), CCZoo集合了不同的安全技术栈,提供了基于不同应用场景下的各种典型端到端的安全解决方案的参考案例,这些参考案例贴近实际的商业案例,让用户增加在机密计算方案设计和实现的体验,同时,引导用户结合相应的参考案例,快速设计和实现出自己特定的机密计算方案。此外,CCZoo还会选择在不同公有云,例如阿里云ECS,部署和验证已发布的端到端的机密计算方案,为用户提供相关的云上部署特有的配置参考信息,帮助用户方案快速上云。


技术介绍

CCZoo当前提供了6个类别的机密计算场景和1个孵化期项目集,具体分类如下图所示。为了方便部署,大部分的方案采用了容器化的集成。在不同的机密计算场景下,CCZoo选择使用了不同的安全技术组件模块,主要包括:Runtime Security、LibOS、Remote Attestation、KMS、TLS。用户可以通过对不同参考案例的部署增加对不同安全组件的使用和选择。

image.png

• Runtime Security: 当前主要使用Intel SGX,基于应用程序级别的隔离,对用户的应用和数据进行保护。

• LibOS: Gramine和Occlum。通过LibOS运行现有应用程序,只需进行细微修改或无需修改,即可在Intel SGX Enclave中运行。

• Remote Attestation: 提供了具体RA-TLS能力集成的gRPC框架,方便用户将远程认证的功能需要集成到自有框架中。

• KMS: 提供了集成远程认证加密钥管理的功能模块。

• TLS: 集成了RA-TLS功能,并启用了证书验证机制。

CCZoo将会跟Anolis Cloud Native Confifidential Computing(CNCC) SIG展开合作,将CCZoo中不同机密计算场景下的方案,结合Anolis的技术框架进行实现和部署,如下图所示。

1685104971629.png

应用场景

CCZoo中多场景下的机密计算方案可以帮助CNCC SIG 进一步丰富用户基于Anolis的安全方案使用场景,为用户提供了最佳实践。同时,CCZoo也会基于方案级别,对Anolis进行全栈式的测试和验证,从用户实际使用的角度,来验证Anolis的可靠性和功能性。


部署TensorFlow Serving在线推理服务


概述


本文介绍在Intel® SGX使能的平台,基于Anolis OS部署TensorFlow Serving在线推理服务的技术架构和使用流程。


背景信息


TensorFlow Serving是Google开源的机器学习平台TensorFlow生态的一部分,它的功能是将训练好的模型运行起来,提供接口给其他服务调用,以便使用模型进行推理预测。 阿里云ECS部分安全增强型实例基于Intel® SGX(Software Guard Extension)技术,提供了SGX加密计算能力,打造了基于硬件级别的更高安全等级的可信机密环境,保障关键代码和数据的机密性与完整性不受恶意软件的破坏。

将TensorFlow Serving在线推理场景部署在阿里云安全增强型实例可信机密环境中,可以保证数据传输的安全性、数据盘的安全性、数据使用的安全性、以及AI在线推理应用程序的完整性。 本实践为开发者使用Anolis OS提供了参考实现,您可以了解以下内容:

• 对基于SGX加密技术实现的端到端的全数据生命周期安全方案有整体了解。

• 对于使用TensorFlow Serving的开发者,可直接参照本实践部署和开发脚本。

• 为使用安全增强型实例的SGX开发者提供可行性参考框架和脚本,您可根据本实践步骤快速了解安全增强型实例以及环境搭建部署流程,轻松上手使用。

技术架构

本实践技术架构如下所示。

1685080310729.png

本实践涉及三个角色:客户端、Anolis OS SGX端、远程请求端。

客户端客户端机器会将训练完的模型以及用来建立安全连接的TLS证书进行加密,并将这些加密文件上传到Anolis OS SGX端环境中。同时,客户端机器还将部署密钥提供服务,主要用来对 SGX端进行认证,确保运

行在云上的TensorFlow Serving推理服务应用的完整性及SGX环境的可行性。验证通过后,会将密钥发送给在

OS SGX中运行的TensorFlow Serving推理服务。

Anolis OS SGX端:Anolis OS SGX端提供SGX机密计算环境,TensorFlow Serving推理服务运行在SGX环境中。当推理服务启动时,会向客户端发送远程认证请求,证明当前SGX环境的可行性和AI推理服务的完整性。验证成功后,推理服务会拿到客户端发送的密钥,并对加密的模型和TLS证书进行解密,至此,运行在SGX环境中的推理服务成功运行,并等待远程访问请求。

远程请求端:第三方使用者通过网络安全传输,将数据发送到运行在SGX机密计算环境中的推理服务。推理完成后,得到返回结果。

说明:本实践将客户端和远程请求端部署在同一台机器,Anolis OS SGX端部署在另外一台机器。

本实践使用到的其他组件如下:

LibOS:Gramine是一款轻量级LibOS,结合Intel® SGX加密保护技术,提供了内核能力定制,运行资源消耗少,具备非常好的ABI兼容性,极大降低了原生应用移植到SGX环境的成本,做到了应用程序不修改或者极少的修改便能运行在SGX环境中。本实践使用Gramine封装TensorFlow Serving推理服务,将推理服务简单便捷地运行在SGX实例中。更多信息,请参见Gramine。

AI推理服务:TensorFlow Serving是Google开源的机器学习平台TensorFlow生态的一部分,它的功能是将训练好的模型运行起来,提供接口给其他服务调用,以便使用模型进行推理预测。更多信息,请参见Tensor

Flow。

Docker容器引擎:为了方便部署推理服务,本实践采用将推理服务运行在Container中的方式,利用Docker的命令方式运行推理服务。

本实践技术架构说明如下:

• Intel证书缓存服务PCCS(ProvisioningCertifificate Caching Service)。如技术架构中①所示,Anolis OS SGX端需要向Intel PCCS获取PCK(Provisioning Certifification Key)证书,Intel SGX会有一个密钥用于Enclave的签名,该密钥对于处理器或者平台是唯一的,密钥的公开部分就是PCK公钥。另外客户端也会向PCCS获取一些信息,比如TCB信息、Quote Enclave认证的信息、CRL信息等用于对SGX Enclave的认证。

• 搭建好Anolis OS SGX端后,可以将本地加密的模型文件以及TLS证书通过网络传输放到云盘中备用,如技术架构中②所示。

• 通过LibOS Gramine启动TensorFlow Serving推理服务时,会加载加密的模型文件,如技术架构中③所示。

• Gramine本身集成了远程认证的功能,在识别到有加密文件加载时,会转向配置好的远程IP服务发送认证请求,如技术架构中④所示。本实践在实现时,以一台阿里云实例模拟客户端,同时也作为远程访问端,另一台实例作为SGX环境。

• 在客户端的密钥提供服务对Anolis OS SGX端中的Enclave Quote认证成功后,会将模型加密的密钥发送给Gramine,如技术架构中⑤所示。由于此时Gramine是运行在Enclave中,因此Gramine拿到密钥对模型解密的过程是安全的。• 通过LibOS Gramine启动TensorFlow Serving推理服务时,会加载加密的模型文件,如技术架构中③所示。

• 在模型解密后,TensorFlow Serving便可以正常运行,并等待远端的访问请求。为了建立通信安全连接通道,远程访问端有TLS的公钥,在建立连接后,会对TensorFlow Serving中的TLS证书进行校验。如技术架构中⑥所示。

• 当TensorFlow Serving对远程请求端的数据推理完成后,便会通过建立的安全通道将推理结果返回给请求端,如技术架构中⑦所示。



《云原生机密计算最佳实践白皮书》——07解决方案——Intel Confidential Computing Zoo: Intel机密计算开源解决方案——部署TensorFlow Serving在线推理服务(2) https://developer.aliyun.com/article/1230818?groupCode=aliyun_linux


相关实践学习
CentOS 7迁移Anolis OS 7
龙蜥操作系统Anolis OS的体验。Anolis OS 7生态上和依赖管理上保持跟CentOS 7.x兼容,一键式迁移脚本centos2anolis.py。本文为您介绍如何通过AOMS迁移工具实现CentOS 7.x到Anolis OS 7的迁移。
相关文章
|
15天前
|
Kubernetes Cloud Native Ubuntu
庆祝 .NET 9 正式版发布与 Dapr 从 CNCF 毕业:构建高效云原生应用的最佳实践
2024年11月13日,.NET 9 正式版发布,Dapr 从 CNCF 毕业,标志着云原生技术的成熟。本文介绍如何使用 .NET 9 Aspire、Dapr 1.14.4、Kubernetes 1.31.0/Containerd 1.7.14、Ubuntu Server 24.04 LTS 和 Podman 5.3.0-rc3 构建高效、可靠的云原生应用。涵盖环境准备、应用开发、Dapr 集成、容器化和 Kubernetes 部署等内容。
41 5
|
28天前
|
监控 Cloud Native 持续交付
云原生架构下微服务的最佳实践与挑战####
【10月更文挑战第20天】 本文深入探讨了云原生架构在现代软件开发中的应用,特别是针对微服务设计模式的最优实践与面临的主要挑战。通过分析容器化、持续集成/持续部署(CI/CD)、服务网格等关键技术,阐述了如何高效构建、部署及运维微服务系统。同时,文章也指出了在云原生转型过程中常见的难题,如服务间的复杂通信、安全性问题以及监控与可观测性的实现,为开发者和企业提供了宝贵的策略指导和解决方案建议。 ####
46 5
|
28天前
|
Kubernetes Cloud Native 持续交付
云原生架构下的微服务设计原则与最佳实践##
在数字化转型的浪潮中,云原生技术以其高效、灵活和可扩展的特性成为企业IT架构转型的首选。本文深入探讨了云原生架构的核心理念,聚焦于微服务设计的关键原则与实施策略,旨在为开发者提供一套系统性的方法论,以应对复杂多变的业务需求和技术挑战。通过分析真实案例,揭示了如何有效利用容器化、持续集成/持续部署(CI/CD)、服务网格等关键技术,构建高性能、易维护的云原生应用。文章还强调了文化与组织变革在云原生转型过程中的重要性,为企业顺利过渡到云原生时代提供了宝贵的见解。 ##
|
1月前
|
人工智能 Cloud Native 安全
从云原生到 AI 原生,网关的发展趋势和最佳实践
本文整理自阿里云智能集团资深技术专家,云原生产品线中间件负责人谢吉宝(唐三)在云栖大会的精彩分享。讲师深入浅出的分享了软件架构演进过程中,网关所扮演的各类角色,AI 应用的流量新特征对软件架构和网关所提出的新诉求,以及基于阿里自身实践所带来的开源贡献和商业能力。
176 11
|
1月前
|
存储 运维 监控
云原生应用的可观察性:理解、实现与最佳实践
【10月更文挑战第10天】随着云原生技术的发展,可观察性成为确保应用性能和稳定性的重要因素。本文探讨了云原生应用可观察性的概念、实现方法及最佳实践,包括监控、日志记录和分布式追踪的核心组件,以及如何通过选择合适的工具和策略来提升应用的可观察性。
|
2月前
|
Cloud Native 关系型数据库 Serverless
基于阿里云函数计算(FC)x 云原生 API 网关构建生产级别 LLM Chat 应用方案最佳实践
本文带大家了解一下如何使用阿里云Serverless计算产品函数计算构建生产级别的LLM Chat应用。该最佳实践会指导大家基于开源WebChat组件LobeChat和阿里云函数计算(FC)构建企业生产级别LLM Chat应用。实现同一个WebChat中既可以支持自定义的Agent,也支持基于Ollama部署的开源模型场景。
442 16
|
3月前
|
开发者 算法 虚拟化
惊爆!Uno Platform 调试与性能分析终极攻略,从工具运用到代码优化,带你攻克开发难题成就完美应用
【8月更文挑战第31天】在 Uno Platform 中,调试可通过 Visual Studio 设置断点和逐步执行代码实现,同时浏览器开发者工具有助于 Web 版本调试。性能分析则利用 Visual Studio 的性能分析器检查 CPU 和内存使用情况,还可通过记录时间戳进行简单分析。优化性能涉及代码逻辑优化、资源管理和用户界面简化,综合利用平台提供的工具和技术,确保应用高效稳定运行。
84 0
|
3月前
|
前端开发 开发者 设计模式
揭秘Uno Platform状态管理之道:INotifyPropertyChanged、依赖注入、MVVM大对决,帮你找到最佳策略!
【8月更文挑战第31天】本文对比分析了 Uno Platform 中的关键状态管理策略,包括内置的 INotifyPropertyChanged、依赖注入及 MVVM 框架。INotifyPropertyChanged 方案简单易用,适合小型项目;依赖注入则更灵活,支持状态共享与持久化,适用于复杂场景;MVVM 框架通过分离视图、视图模型和模型,使状态管理更清晰,适合大型项目。开发者可根据项目需求和技术栈选择合适的状态管理方案,以实现高效管理。
45 0
|
4月前
|
TensorFlow 算法框架/工具 C++
构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署
构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署
|
3月前
|
运维 Kubernetes Cloud Native
Kubernetes云原生问题之在托管Kubernetes服务中云服务商和用户的运维责任划分如何解决
Kubernetes云原生问题之在托管Kubernetes服务中云服务商和用户的运维责任划分如何解决
40 0
下一篇
无影云桌面