传统企业在实现数据链路时需要四个步骤,分别为抽取、加工、存储与分析,抽取、加工一般在数据库完成,存储、分析一般在数据仓库完成,中间存在巨大的鸿沟。
新一代的AnalyticDB湖仓版正式公测发布,它能够实现全链路、端到端的数据处理与数据分析一体化,为用户提供数据湖的规模以及数据库的体验,其特性可以用1024来总结。
“1”指一份数据,离线数据和在线分析数据一体化,无需烦恼一致性和时效性。
“0”指0度灵活弹性,弹得好,弹得起,弹得快,资源成本降低30%以上。
“2”指2种模型,离线处理和在线分析一个引擎两种模型,可以一站式完成计算,自动智能切换。
“4”指4个统一。包括统一计费单位、统一数据管道、统一数据管理与统一数据访问,使得整体开发体验更顺滑,预期提高开发效率 30% 以上。
一份全量数据存储在对象存储上。对象存储的特点是低成本与高吞吐的读取,且一份全量数据可避免数据冗余,无需存储两份,节省存储成本,也能满足一致性与时效性的要求。内部存储可以直接使用BSP引擎进行追加写与粗糙读的交互,较好地满足离线处理的要求,实现低成本的目标。存储交互与数仓BSP的交互完全隔离,因此较好地实现了数据处理与数据分析的一致性。
在线分析在一份存储的基础上,增加了IO加速节点EIU,数据存储在EIU中可以实现高并发、高性能的实时增删改操作。在计算节点有自动的全数据多级倒排索引,可以通过智能缓存的方式下推,使得在实时数据存储上得到更好的性能。
灵活弹性可以总结为弹得好、弹得起、弹得快。
AnalyticDB提供了两种弹性策略,分别是分时弹性以及按需弹性以满足不同负载。分时策略适合在线分析业务,客户可以设定波峰、波谷的时间,提前部署资源。按需策略适合数据处理、离线处理、机器学习等,可以更好地贴合业务负载,实现更极致的弹性。
弹得起指需要资源时,云厂商能够提供足够的资源。我们通过神龙+ECS+ECI布置了三层资源网络,可实现客户99%以上的弹性资源交付率。另外处理能力秒级扩展,基于资源池化后通过缓存加速等技术实现。
AnalyticDB的融合引擎可以支持两种模式,分别是MPP与BSP,其中MPP能够实现及时分析,latency 较快;而DSP更适合long running 、对容错具有一定要求的数据处理。另外两种模式可进行自动切换,比如以MPP模式运行时,系统会自动检测该任务是否更适合DSP ,如果是,则自动切换为DSP。
未来,我们计划对一个任务中的不同算子智能地进行MPP与BSP分布,以实现资源巩固,帮助客户提升资源利用率。
AnalyticDB实现了一份数据,无论数据是存储在湖内租户还是仓内租户,对客户而言都是同一张表,因此我们实现了统一管理与统一的权限访问。另外,也会开放存储的Storage API,可以对存储实现统一访问,外部开放的数据引擎比如Spark、Presto也可以通过Storage API直接访问数据仓库里的数据,而无需腾挪数据。
AnalyticDB的使用场景覆盖了新零售、游戏、金融以及汽车制造业,主要应用于CDP用户数据平台、用户行为分析以及营销全流程平台。
我们已经与很多客户建立了深入合作。
金融领域的深万宏源证券,使用了ADB 替换了传统数仓,实现了整体数据平台的升级,成本下降50%,整体性能提升100%,平稳迁移25000+任务和百TB级数据。
波克城市通过ADB实现了秒级分析万亿级游戏行为的日志数据。