内含福利|阿里云数据库再获学术顶会认可,一文全览VLDB最新亮点

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 一年一度的数据库领域顶级会议VLDB 2019于当地时间8月26日-8月30日在洛杉矶圆满落幕。在本届大会上,阿里云数据库产品团队浓墨登场,不仅有多篇论文入选Research Track和Industrial Track,为了进一步加深产学研学术交流,阿里云还在大会期间举办了“阿里之夜”交流

一年一度的数据库领域顶级会议VLDB 2019于当地时间8月26日-8月30日在洛杉矶圆满落幕。在本届大会上,阿里云数据库产品团队浓墨登场,不仅有多篇论文入选Research Track和Industrial Track,为了进一步加深产学研学术交流,阿里云还在大会期间举办了“阿里之夜”交流晚宴。

0001.jpg
0002.jpg

8月29日晚,超200名论文作者、行业专家、来自MIT、CMU等高校的学术界资深教授、学者和产业界人士共赴“阿里之夜——Alibaba Night Networking Event“,活动空前爆满。在轻松氛围中,参会者共同探讨全球数据库生态,并就阿里云目前在数据库和大数据方面的最新技术进展进行交流与研讨,开启了一场智慧碰撞的盛宴。

99999.JPG

在VLDB大会上,阿里巴巴集团副总裁、阿里云数据库事业部总裁、达摩院数据库首席科学家李飞飞进行题为《Cloud Native Database System at Alibaba: Opportunities and Challenges》的主题演讲。李飞飞分享了云原生数据库在阿里发展的心路历程,并表示:“云原生数据库天然拥有云计算的弹性能力,不仅具备开源数据库的易用、开放特点,而且拥有传统数据库的管理和处理性能等优势“。

他还详细介绍了阿里云自研数据库的两款明星产品:OLTP数据库——POLARDB基于共享存储的Scale-up 架构和基于分片的scale-out分布式架构,以及OLAP数据库——AnalyticDB的MPP架构、极具特色的全索引和行列混存结构,以及在海量数据场景下极致性能。

领跑数据时代 技术实力再获权威认可

VLDB大会全称International Conference on Very Large Data Bases,是数据库及相关领域研究者、供应商、参与者、应用开发者所广泛关注的主要国际学术会议,也是公认的数据库领域三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,反映了当前数据库研究的前沿方向、工业界的最新技术以及各国的研发水平。在发表论文难度和受关注程度上,与SIGMOD可谓并驾齐驱。

根据大会官方公布,今年VLDB共接收了128篇Research Paper、22篇Industrial Paper和48个Demo。从投稿数量与录用率来看,Research Paper投稿677篇,录用率18.9%,Industry Paper为72/30.6%,**只有具有极高创新性的论文才有机会被VLDB录用。
**
作为阿里巴巴IT基础设施的重要组成部分,阿里云数据库在工程实践和技术创新上一直走在领域前列,相关研究成果已多次入选国际数据库顶级会议(SIGMOD、VLDB、ICDE等)。本次VLDB大会,阿里云数据库共有3篇论文被收录,下面小编将对入选的论文佳作进行汇总赏析,萃取精华之精华,以飨读者。

No.1

论文题目:《S3: A Scalable In-memory Skip-List Index for Key-Value Store》

亮点:阿里云携手浙江大学的最新联合研究成果入选Industrial Track

作者:浙江大学Jingtian Zhang、Sai Wu、Zeyuan Tan、Gang Chen,阿里云数据库产品事业部成柱石、曹伟、高玉嵩、酆晓杰

附送论文下载链接:http://www.vldb.org/pvldb/vol12/p2183-zhang.pdf

或关注 “阿里巴巴数据库技术”公众号,回复“VLDB”,即可获取论文PDF

本文贡献

  1. 针对 Skip List 这种被广泛使用的索引结构,对其在高并发场景下的性能表现进行了详实的测试验证,建立数据模型分析在垂直下降和水平移动两个不同方向上的 cost-model,确立 Skip List 在当前实现下的性能上限。
  2. 基于上述模型分析,设计实现了 S3:A Scalable In-memory Skip-List Index,通过分层的方法把整个结构分为两部分:Top layer 利用 cache-sensitive 的数据结构来索引 bottom layer 的部分节点(guard entries),以大幅降低现有 Skip-List 在垂直下降过程中的性能损耗;Bottom layer 维护一个低层高的 Semi-ordered Skip-List,由多个 guard entries 分隔开,各 entries 之间有序、内部无序,以进一步提升其在插入方面的优势。
  3. 考虑到 guard entryies 选择的非确定性,结合实际场景中业务 workload 变化比较平滑,引入 Neural Model 来指导其selection,以达到更优的优化效果。

VLDB评委点评

“Many previous in-memory indexes, although showing significantly better performance than skip-list, have not been integrated with the real systems and thus, there is no clue about how they will work with other system modules. S3, on the other hand, can be easily integrated with the disk part of RocksDB and LevelDB, because it maintains the same interface.

The top layer is cache-oblivious, while the bottom layer can speed up the lookup operations of skip-list.

It’s an interesting idea to use a neural model, LSTM, to tune the index, i.e., optimizing guard entry selection and using some rules to optimize multi-thread access.

Extensive experiments for comparison of the proposed method with different in-memory indexes have been conducted and the result shows benefit, not to mention that it is implemented in a real system RocksDB.”

No.2

论文题目:《iBTune: Individualized Buffer Tuning for Large-scale Cloud Databases》

亮点:阿里巴巴在数据库智能化方向的重要里程碑,入选Research Track

作者:阿里云谭剑、铁赢、飞刀、艾奥、祺星、池院、洪林、石悦、鸣嵩、张瑞

附送论文下载链接:http://www.vldb.org/pvldb/vol12/p1221-tan.pdf
或关注 “阿里巴巴数据库技术”公众号,回复“VLDB”,即可获取论文PDF

本文贡献

基于数据驱动和机器学习算法的数据库参数优化是近年来数据库智能优化的一个热点方向,但也面临着很大的技术挑战。要解决的问题是在大规模数据库场景下,如何对百万级别运行不同业务的数据库实例完成自动配置,同时权衡性能和成本,在满足SLA的前提下资源成本最低,该技术对于CSP(Cloud Service Provider)有重要价值。

学术界近一两年在该方向有一些研究(比如CMU的OtterTune),但该算法依赖于一些人工先验经验且在大规模场景下不具备可扩展性。据了解, 其他云厂商Azure SQL Database以及AWS该方向都有投入,目前尚未看到相关论文或产品发布。

从18年初开始,阿里云开始数据库智能参数优化的探索,从问题定义,关键算法设计,算法评估及改进,到最终端到端自动化流程落地,多个团队通力合作完成了技术突破且实现了大规模落地。

这项工作不仅在数据库智能参数优化理论方面提出了创新想法,而且目前已经在阿里集团~10000实例上实现了规模化落地,累计节省~12%内存资源,是目前业界唯一一家真正实现数据库智能参数优化大规模落地的公司。

经过算法探索和端到端自动Buffer Pool优化流程建设,FY2019集团内全网最终优化 ~10000 个实例,将整体内存使用量从 217T内存缩减到 190T内存,节省 12.44%内存资源(27TB)。

论文深度解读请戳⬇️:

[前沿 | VLDB 2019论文解读:阿里巴巴大规模数据库智能参数优化的创新与实践
](https://mp.weixin.qq.com/s/KHHvr39lt2KL8FVFp9y25w)

VLDB评委点评

Lessons learned from tuning many database instances in a production system offer interesting insights to the data management community.

It is encouraging to see how deep neural networks can help with tuning a parameter of the database system and how its results are used by the control plane of a large scale deployment to tune many database instances in a rolling fashion.

No.3

论文题目:《AnalyticDB: Realtime OLAP Database System at Alibaba Cloud》

亮点:阿里云大规模、海量数据实时分析型数据库系统——AnalyticDB最新研究成果入选Industrial Track

作者:阿里云数据库产品事业部占超群、苏茂萌、魏闯先、彭晓强、林亮、汪晟、陈哲、李飞飞、潘岳、郑方、柴成亮

附送论文下载链接:http://www.vldb.org/pvldb/vol12/p2059-zhan.pdf
或关注 “阿里巴巴数据库技术”公众号,回复“VLDB”,即可获取论文PDF

本文贡献

已有的分析型数据库(以下简称OLAP)诸如Impala、Pinot、Druid等,总结了OLAP系统在设计的过程中应该解决的问题:低延迟、数据新鲜度、多样性、低成本、高扩展性、高可靠性。和这些已有的OLAP系统相比,AnalyticDB承载着更大的规模:2000+台物理机器、10PB+规模数据、百万张数据表以及万亿条数据行。

论文讲述了AnalyticDB如何在设计与实现上,不仅解决了已有OLAP系统的问题,还攻克了以下三大业界难题:

  • 1) 随着用户分析需求的急剧增加,用户的查询变得复杂且多样化:这些查询涵盖点查询、全表扫描、多表关联等,还会包含对任意列组合的筛选条件。如何在这种复杂分析场景下依然保证大部分甚至所有查询的低延迟,是一个非常大的挑战;
  • 2) 如何在保证低延迟查询的情况下,仍然能处理每秒千万级别的写吞吐。传统的设计理念在同一条链路上同时处理读写请求,这会造成读写性能的互相严重影响。
  • 3) 复杂分析场景下,会对行存、列存、关系型存储、复杂数据类型(JSON、vector、text)都有着强烈需求。如何设计一个对这些存储格式都很友好的存储层,也是一个业界难题。

深度解读请戳⬇️:

前沿 | VLDB论文解读:阿里云超大规模实时分析型数据库AnalyticDB

VLDB评委点评

This paper presents a solid OLAP database integrating a few interesting and well-designed ideas including an asynchronous all-column index, an extended hybrid row-column layout and a read/write decoupling architecture. The presentation is clear and the solution has been shown to be effective empirically.

The combination of different design choices indicate that the system achieves significant performance improvements over other similar systems.

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
4天前
|
人工智能 运维 关系型数据库
|
22天前
|
Cloud Native 关系型数据库 MySQL
华鼎冷链科技 × 阿里云瑶池数据库,打造全链路协同的智慧冷链新标杆
从 PolarDB 的高性能数据库服务到 AnalyticDB 的强大数据分析,阿里云提供的丰富产品矩阵为华鼎冷链科技构建了全面的解决方案,推动华鼎冷链科技从成本中心向效率中心转型。
|
20天前
|
人工智能 关系型数据库 分布式数据库
让数据与AI贴得更近,阿里云瑶池数据库系列产品焕新升级
4月9日阿里云AI势能大会上,阿里云瑶池数据库发布重磅新品及一系列产品能力升级。「推理加速服务」Tair KVCache全新上线,实现KVCache动态分层存储,显著提高内存资源利用率,为大模型推理降本提速。
|
1月前
|
安全 关系型数据库 数据库
课时2:阿里云数据库:帮用户承担一切数据库风险
阿里云Apsara DB是国内首个通过国家等保三级安全标准的数据库,具备十项国际安全认证。它提供稳定、可靠的在线数据库服务,支持多种主流数据库类型,如MySQL、SQL Server等,覆盖70%市场。基于飞天操作系统和全SSD存储,Apsara DB性能卓越,帮助企业解决运维难题,并提供免费热迁移、自动化运维及顶级DBA专家服务,确保数据安全与高效管理。
|
1月前
|
人工智能 NoSQL 关系型数据库
阿里云连续五年获评为Gartner®云数据库管理系统魔力象限领导者
阿里云连续五年获评为Gartner®云数据库管理系统魔力象限领导者
|
1月前
|
关系型数据库 MySQL Java
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
|
1月前
|
关系型数据库 MySQL 数据库连接
docker拉取MySQL后数据库连接失败解决方案
通过以上方法,可以解决Docker中拉取MySQL镜像后数据库连接失败的常见问题。关键步骤包括确保容器正确启动、配置正确的环境变量、合理设置网络和权限,以及检查主机防火墙设置等。通过逐步排查,可以快速定位并解决连接问题,确保MySQL服务的正常使用。
359 82
|
6天前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
11天前
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
|
11天前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
下一篇
oss创建bucket