基于 PolarDB 开源生态的可信安全数据库一体机

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 本文整理自莲子数据硬件系统首席架构师许长魁,在 2022 阿里巴巴开源开放周上的分享。本篇内容主要分为三个部分: 1. 项目背景 2. 研究进展 3. 未来规划。

本文整理自莲子数据硬件系统首席架构师许长魁,在 2022 阿里巴巴开源开放周上的分享。

本篇内容主要分为三个部分: 1. 项目背景 2. 研究进展 3. 未来规划。



一、项目背景:行业发展现状与项目研发驱动

莲子数据PolarDB 数据库一体机的立项得益于阿里云 PolarDB 开源计划的激励。PolarDB for Posgre SQL版本与莲子数据产品有着非常好的兼容性,保证了数据库一体机的软硬件适配工作得以顺利开展。数据库一体机主要包含三个方面的六大特点,即开放与异构、高效与节能、可信与安全。

1. 开放与异构

随着数据维度的扩张,业务对于算力也提出了更高要求。而随着摩尔定律的放缓,所有类别的处理器想要借助先进制程达到性能提升的技术路线难度也越来越大,但是 AI 自动驾驶和高性能计算对于计算性能的要求却越来越高。由此可见,单一的计算架构已经很难满足如今多元化的需求,而这一方面催生了存算分离的架构,另一方面也推动了异构计算的高速发展。



国内外的企业和研究机构对超域异构计算此类新一代的计算体系均进行了技术与产业布局。国外方面,英特尔和ARM均提出了“XPU”的概念,但侧重点略有不同。Intel 主要利用不同的架构处理不同类型的数据,根据处理速度或者带宽的要求进行优化。ARM则强调了全面计算的理念,对XPU的定义更多侧重于开放的数据融合计算平台,强调了对于数据流的处理、跨域计算以及多元的算力扩展。



NVIDIA 在超域异构计算方面主推的是NVLink 以及基于NVLink的NVSwitch芯片,用于 CPU、GPU 以及 GPU 集群之间的高速通信。

国内方面,阿里云作为国内超域异构计算的代表建设了基于CIPU的计算体系。与国外厂商不同的是,CIPU是一种云原生的全新计算体系架构,CIPU向下云化管理数据中心的硬件,加速了计算、存储和网络资源的调度,向上能够接入飞天云操作系统。相比于其他芯片公司,阿里云在实现 CIPU 与云操作系统的深度融合上具备了先天优势。一方面,它具备对底层基础设施资源的虚拟化管理能力,另一方面能够承载飞天对此类资源的编排和调度需求,并且具备存储、网络、计算、安全等硬件的加速能力。

从异构计算的国内外相关布局可以看出,异构计算的本质是将不同架构的处理芯片整合到一个系统上进行工作,具体实施上包含两个方面的含义。其一是板级的集成方式,将CPU、GPU、FPGA等置于一个板上进行组合;其二是芯片及封装级的集成方式。两个内涵分别涉及到数据总线技术和电子封装技术。



数据总线技术上,PCIe总线经过几十年的发展,已经进入5.0时代,拓展到计算存储加速的方方面面,6.0 已处于推广阶段,7.0标准也正在制定中。CXL 又是基于 PCIe5.0 发展而来的一套服务于高性能计算机和数据中心领域的超高速互联新标准,主要用于 CPU 和加速芯片比如GPU、 FPGA等之间的通信能力,能够显着改善多路 CPU和加速卡之间的通信能力,从而保证更低的延迟和内存一致性。2022 年最新提出的UCIe 互联标准,其目的是解决Chiplet 之间互联的行业标准问题。UCIe、PCIe 与 CXL进行协同,指明了 UCIe在封装内的Chiplet方向和封装外的Off Package 应用方向。

从本质上来说, CXL 基于PCIe发展而来,UCIe的提出也离不开 PCIe 和 CXL 总线的应用铺垫。但是 UCIe 的出现能够统一机柜内互联的物理标准,将 In Package 和 Off Package 统一到整体的框架中,也即一体机硬件研发的架构演进方向。

封装内互联也是 UCIe发挥的另一主场。Chiplet是未来混合异构芯片系统的重要单元,与之相似的另一概念为 system-in-package,即SIP封装。SIP封装是将芯片的最小系统进行系统级的二次封装,除了异构的芯片之外,还包含了一些必要的外设和内存单元,以上均为封装内互联的范畴。



我们的工作主要聚焦于板级和机柜空间数据互联的技术方案,期望打造开放的异构数据交换平台。


2.可信与安全

网络安全的风险源于图灵机原理缺少攻防的理念,这是先天性的不足。并且在设计计算系统时,也无法穷尽所有逻辑组合,必定会存在逻辑不全的缺陷。因此,需要通过安全可信的计算,在实时运算的同时进行免疫的安全防护,使得存在的缺陷不被攻击者所利用,从而达到预期的计算目标。



可信计算是 1999 年由 IBM、Intel 和 Microsoft 等牵头成立的国际 TCPA组织,后改名称为 Trusted Computing Group (TCG) 组织。该组织于 12 年发布了 TPM 2.0 标准,能够兼容中国的加密算法。后续在Intel 的不断推动下,它也成为了欧盟电信运营商设备采购的必要条件。



我国的可信计算从 1992 年开始立项, 06 年发布了可信计算平台的密码技术方案和可信计算密码智能平台功能与接口规范。先后经过了 1.0 阶段和 2.0 阶段,目前已经发展到 3.0 阶段。



与此同时,近五年在立法和规章的角度也进一步增强了对于可信安全计算的强制性要求。因此,我们认为可信计算需要以双模、软硬一体的方式融入到数据服务中,以提高可信度、安全度和隐私度。



3. 高效与节能


对于数据中心而言,能源成本已经占据了数据中心总成本的一半。因此,减少碳排放既是企业的社会责任,也是提高经济效益的手段。数据中心的高质量发展首先要着眼于提升能效,同时还要兼顾可扩展性、可靠性、安全性等方面的问题。因此,它的建设是一个庞大的系统工程。



节能方面,ARM处理器与X86 相比表现出了明显优势,在同等能耗水平下,ARM处理器仍能够提供相当的算力水平,这一点从此前蝉联四次全球冠军的富岳超算系统上也能够得以体现。亚马逊的 Graviton和阿里云的倚天 710 中也能看到基于 ARM 架构实现节能降碳的设计思路。

数据中心作为支撑企业业务的核心资产,其建设成本和运营质量直接关联企业的资金投入产出比。数据中心的绿色节能化趋势不仅仅是有益于社会和环境层面,对于数据中心企业而言也具备重要的意义。绿色节能化意味着数据中心基础设施的建设更加灵活,运营将更少地依赖传统电网,相关 IT 设备的能耗水平更低,自动化和智能化将体现在运营的各个环节。这些趋势都将为企业带来强大的市场竞争力,并且在长期维度上降低企业拥有数据中心的总拥有成本。数据中心的节能解决方案可以分为建设模式节能、制冷系统节能、供配电系统节能、 ICT 的设备节能以及 AI 应用等技术创新。我们的设计主要为设备节能技术路线。



二、研究进展:PolarDB数据库一体机项目详述

莲子数据的数据库一体机采用基于众核架构的ARM CPU ,遵循arm v8指令集,搭配ECC内存能够胜任企业应用级别的稳定性要求,且仅有 5 瓦的功耗,单颗 CPU 能够提供高达 38GFlops/瓦的计算能力,性能功耗比是行业平均水平的 3-8 倍。我们可以利用四颗 CPU 进行平行计算,虽然 4 颗 CPU 只能达到其他产品的一颗 CPU 的算力水平,但仅有 20 瓦功耗,而同类产品达到相同算力可能需要近百瓦的功耗。



在数据互联特性上, CPU 间采用了基于 PCIe 的数据总线,也开发了 Dynamic Data Transmission Over PCIE 的异构互联机制,实现了板级设备的高速数据传输。典型机型中,在不到 2U 的空间中集成了 8 个高密度的计算机节点单元,外加相当于万兆交换机的网机互联模块的高速通讯能力。该配置非常适用于云、边、端一体化计算的工业场景中。

传统的数据交换路径以 CPU 为中心, PCIe 的数据交换和以太网的数据交换互相分离,数据交换存在很多绕路行为。而数据互联方案采用了非 CPU 中心化的数据交换路径, 数据传输路径延迟降低50%,TCP/IP 的延迟降低90%。



在存储外设方面,我们基于 PolarDB 的存算分离架构,采用了SAN存储器来进行数据的分离存储,并且对数据读写的路径和空间均进行了优化,增强了数据校验的机制,同时也优化了缓存策略,以满足 QoS 的需求。此外,也优化了在线全局重删的功能,根据读写频度重新选择重删区域,不影响业务的访问性能,删除重复数据前会进行二次比对,避免数据丢失。通过存储系统内置的数据压缩功能模块,对数据进行压缩处理时前端业务系统无感知。上述配置缓解了存储系统的空间增长问题,降低了成本,也从另一方面降低了存储系统的能耗指标。

在可信安全方面,我们通过两部分构建了可信根和可信软件基。系统通过对应用透明的主动可信监控机制来保障应用的可信运行,不修改原应用,而是通过制定策略进行主动实时防护,对业务的性能影响非常小。



基于以上软硬件布局,我们实现了基于可信计算的数据库设备的主动防护。利用可信芯片实现硬件隔离,将安全保护与宿主系统分离,防止安全机制被旁路。同时利用了 USB、PCIE 等标准化的可信根实现了即插即用。可信根通过可信总线与三节点一体机进行通信,利用可信软件基实现芯片级和内存级的可信度量,硬件层的度量实现真正的免疫高级未知攻击的功能。同时,在可信防护中也采用了轻量级的加密技术,减少了密码的运算开销,降低了性能损耗,能够有效应对野外设备性能受限状况下的加密保护场景。



针对可能存在的篡改,可以通过主机的安全防护实现用户、程序、文件、服务、注册表等的访问控制。针对未知危害,可以通过建立核心程序防护来严禁未知程序的执行,从而实现对于未知程序的主动免疫。



基于以上三方面的能力,我们也进行了 ARM 架构的数据库一体机硬件条件下可信安全 PolarDB 的HTAP性能测试。鉴于 CPU 的平行计算特性,我们在测试中选取了最严苛的条件——每个节点单颗 CPU 在 5 瓦超低的功耗性能下,测试了三节点 PolarDB 的性能,操作系统搭载龙蜥 7.9 ,测试工具使用 Benchmark SQL 5.0 和 dbgen,分别进行了 TPCC 测试和 TPCH测试。



TPCC 测试结果显示,测试过程性能输出较为平稳。对比同一硬件条件下的 PG 单机版, PolarDB 采用了分布式架构,由于一致性问题,其性能略低。虽然绝对数值看似不高,但本系统的功耗和成本远低于其他X86 的同类架构。因此,在常规应用中已经能够满足技术要求,尤其适合在边缘计算等工业或苛刻场景下的应用。



TPCH 测试结果显示,随着跨机并行数的增加,TPCH 性能几乎呈线性提升状态,直到并行数达到 CPU 的核心数。在并行数超过 CPU 的核心数之后,性能会有所下降。但是对比同一硬件条件下的 GTDB,在并行度一致的情况下,两者性能相当。



三、未来规划:围绕PolarDB生态的发展规划

在未来的工作中,莲子数据会紧紧围绕 PolarDB 的生态完善使用体验,同时积极拓展场景应用,充分发挥开放异构、节能高效和可信安全的特性。结合 5G 云边端协同的趋势,充分发挥人工智能和专家系统的优势,建立基于 AI 的数据观测机制和系统诊断机制,为专网场景和工业现场等相关需求而努力。



借助阿里云的开放平台,我们希望能够和同行携手共建开放合作的 PolarDB 大生态。感谢诸多合作伙伴为项目的持续优化作出的努力,同时也希望感兴趣的同行能够参与其中共同进步。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
1月前
|
存储 SQL 安全
应用案例|开源 PolarDB-X 在互联网安全场景的应用实践
中盾集团采用PolarDB-X云原生分布式数据库开源版本,有效解决了大数据量处理、复杂查询以及历史数据维护等难题,实现了业务的高效扩展与优化。
|
1月前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
26天前
惊世骇俗!开源 PolarDB-X 部署安装大冒险,全程心跳与惊喜不断!
【9月更文挑战第8天】作为技术爱好者的我,近期成功完成了开源 PolarDB-X 的部署安装。尽管过程中遇到不少挑战,但通过精心准备环境、下载安装包、配置参数及启动服务等步骤,最终顺利实现部署。本文将详细介绍部署全过程及可能遇到的问题,为您的 PolarDB-X 探索之旅提供参考与启发,希望能让大家在技术海洋里畅游得更加顺利!
52 2
|
29天前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB开源项目未来展望:技术趋势与社区发展方向
【9月更文挑战第5天】随着云计算技术的发展,阿里云推出的云原生分布式数据库PolarDB受到广泛关注。本文探讨PolarDB的未来展望,包括云原生与容器化集成、HTAP及实时分析能力提升、智能化运维与自动化管理等技术趋势;并通过加强全球开源社区合作、拓展行业解决方案及完善开发者生态等措施推动社区发展,目标成为全球领先的云原生数据库之一,为企业提供高效、可靠的服务。
64 5
|
28天前
|
关系型数据库 MySQL 分布式数据库
PolarDB开源社区动态:最新版本功能亮点与更新解读
【9月更文挑战第6天】随着云计算技术的发展,分布式数据库系统成为企业数据处理的核心。阿里云的云原生数据库PolarDB自开源以来备受关注,近日发布的最新版本在内核稳定性、性能、分布式CDC架构及基于时间点的恢复等方面均有显著提升,并新增了MySQL一键导入功能。本文将解读这些新特性并提供示例代码,帮助企业更好地利用PolarDB处理实时数据同步和离线分析任务,提升数据安全性。未来,PolarDB将继续创新,为企业提供更高效的数据处理服务。
80 3
|
2月前
|
安全 关系型数据库 数据库
FastAPI数据库操作秘籍:如何通过高效且安全的数据库访问策略,使你的Web应用飞速运转并保持数据完整性?
【8月更文挑战第31天】在构建现代Web应用时,数据库操作至关重要。FastAPI不仅简化了API创建,还提供了高效数据库交互的方法。本文探讨如何在FastAPI中实现快速、安全的数据处理。FastAPI支持多种数据库,如SQLite、PostgreSQL和MySQL;选择合适的数据库可显著提升性能。通过安装相应驱动并配置连接参数,结合ORM库(如Tortoise-ORM或SQLAlchemy),可以简化数据库操作。使用索引、批量操作及异步处理等最佳实践可进一步提高效率。同时,确保使用参数化查询防止SQL注入,并从环境变量中读取敏感信息以增强安全性。
76 1
|
2月前
|
关系型数据库 分布式数据库 数据库
安全可靠的国产自研数据库PolarDB V2.0,让数据库开发像“搭积木”一样简单!
安全可靠的国产自研数据库PolarDB V2.0,让数据库开发像“搭积木”一样简单!
|
2月前
|
存储 安全 关系型数据库
"揭秘!如何设计数据库架构,让信息系统心脏强健无比?一场关于数据效率、安全与可扩展性的深度探索"
【8月更文挑战第19天】数据库架构是信息系统的核心,关乎数据存储效率与安全及应用性能和扩展性。优秀设计需综合考量业务需求、数据模型选择、查询优化、事务处理、安全性和扩展性。首先,深刻理解业务需求,如电商系统需高效处理并增长商品、订单等数据。其次,基于需求选择合适的数据模型,如关系型或非关系型数据库。再者,优化查询性能与索引策略以平衡读写负载。同时,考虑事务处理和并发控制以保证数据一致性和完整性。最后,加强安全性措施和备份恢复策略以防数据风险。通过这些步骤,可以构建稳健高效的数据库架构,支持系统的稳定运行。
29 0
|
21天前
|
关系型数据库 MySQL Serverless
探索PolarDB MySQL版:Serverless数据库的灵活性与性能
本文介绍了个人开发者对阿里云PolarDB MySQL版,特别是其Serverless特性的详细评测体验。评测涵盖了产品初体验、性能观测、Serverless特性深度评测及成本效益分析等方面。尽管试用过程中遇到一些小问题,但总体而言,PolarDB MySQL版表现出色,提供了高性能、高可用性和灵活的资源管理,是个人开发者和企业用户的优秀选择。
|
2月前
|
关系型数据库 MySQL 分布式数据库
PolarDB 与传统数据库的性能对比分析
【8月更文第27天】随着云计算技术的发展,越来越多的企业开始将数据管理和存储迁移到云端。阿里云的 PolarDB 作为一款兼容 MySQL 和 PostgreSQL 的关系型数据库服务,提供了高性能、高可用和弹性伸缩的能力。本文将从不同角度对比 PolarDB 与本地部署的传统数据库(如 MySQL、PostgreSQL)在性能上的差异。
81 1

热门文章

最新文章

相关产品

  • 云原生数据库 PolarDB
  • 下一篇
    无影云桌面