近日,ACM SIGMOD 2022在美国费城召开,阿里云数据库团队5篇论文入选,覆盖云原生、智能化、安全可信等数据库前沿研究方向。其中2篇为阿里云和达摩院的独立研究,体现了阿里云在数据库领域的自研成果达到了世界先进水平,得到了业界的广泛认可。
ACM SIGMOD数据管理国际会议是由美国计算机协会(ACM) 数据管理专业委员会(SIGMOD)发起,是数据库领域具有最高学术地位的国际性学术会议,其收录论文代表了数据库相关技术的最高水平,也是未来技术发展的重要风向标。
阿里云数据库团队的独立研究论文《Remus: Efficient Live Migration for Distributed Databases with Snapshot Isolation》提出了一种新的分布式数据库shard在线热迁移技术,可以做到迁移shard的同时,对前端应用性能影响极小,完全零中断,对应用的吞吐和延时影响极小,适用于通用分布式数据库产品,如云原生数据库PolarDB分布式版本PolarDB-X、云原生数据仓库AnalyticDB等。Remus核心想法是利用保证分布式事务timestamp order的协议,提出了一个高效的单向同步DUAL执行模型,从而支持轻量级的数据ownership无缝平滑切换。同时结合MVCC和OCC提出了在单向DUAL模型下保证快照隔离的并发控制协议MOCC。在高并发负载(TPC-C和YCSB)以及混合负载(HTAP和实时数据分析)下,Remus相比之前的最好的方法,实现了完全零中断,对于受迁移影响的短事务可以减少10倍以上的延时增加;对于批处理长事务,可以提高30多倍的吞吐,为shared-nothing架构在云上实现极致按需弹性同时保证严格的SLA提供了基础支撑。
另一篇入选自研论文《ESDB: Processing Extremely Skewed Workloads in Real-time》提出了一种面向多租户的分布式实时负载均衡技术--动态二级散列算法,通过探测各租户的实时流量,动态调整分布式数据库的分片策略,对热点租户进行二级散列,集群无需扩容,而将激增流量实时分配到集群负载更低的节点上,避免激增流量带来的阻塞和延迟,并保障散列前后的读写一致性。同时,为了提升集群吞吐,引入了物理复制降低索引构建成本,引入RBO、联合索引和高低频索引设计大幅降低查询相应时间,引入各级熔断和连接池管理降低大卖家和慢查询带来的稳定性影响。ESDB成功解决了阿里巴巴核心交易多年困扰的热点大卖家和黑马商家造成的峰值延迟、查询性能和稳定性风险,支撑阿里巴巴核心交易及大促五年以上,技术已迁移到云原生数据仓库AnalyticDB,为更多阿里云客户提供高性能、低成本的分布式多维查询和分析能力。
阿里云自成立以来就十分重视数据库前沿技术研究,并为此成立专门的研究机构——达摩院数据库与存储实验室,通过达摩院的前沿技术研究加持阿里云原生数据库产品技术。据了解,2022年度阿里云数据库团队共有15篇论文被数据库三大国际顶级会议SIGMOD、VLDB、ICDE收录。
阿里云数据库产品事业部和达摩院数据库与存储实验室负责人李飞飞表示:“达摩院的一些研究成果已经通过通过阿里云数据库对外输出,不断为客户带来价值,同时也有源自于客户应用场景的实际问题不断输出到学术界,推动达摩院不断在前沿技术研究领域获得突破。达摩院加持阿里云数据库,将产品、商业、生态形成了完整闭环,未来可期。”
公开资料显示,阿里云拥有国内最强大和丰富的云数据库产品家族,自主研发了云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB、云原生多模数据库Lindorm等云原生数据库产品技术,可以为企业提供一站式全链路数据管理与服务。2020年和2021年,阿里云作为中国唯一的科技厂商连续两年成功进入Gartner全球数据库领导者象限。目前已服务互联网、政府、零售、金融、电信、制造、物流等多个领域的15万客户。IDC最新数据显示,阿里云位居中国关系型数据库市场第一。