某互联网大厂亿级大数据服务平台的建设和实践-阿里云开发者社区

某互联网大厂亿级大数据服务平台的建设和实践

2023-12-29 958

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 某互联网大厂亿级大数据服务平台的建设和实践

一、引言：

在大数据建设过程中，通用的建设思路：从数据埋点——数据采集——数据清洗(ETL)——数据服务——数据可视化。整体流程可参考下图：

这篇文章主要想和大家聊聊的是，数据服务平台的建设。

二、背景：

由于数据加工完成的数据，需要给不同的应用和产品提供服务，包含：数据产品、实时大屏、线上应用、BI自主分析。

由于业务场景不同，在根据不同的场景下选择的数据存储也多种多样，图中罗列：Hive、Mysql、Hbase、CK、redis、TiDB等等。最后产生的调用服务也多种多样。如下一些场景：

线上推荐服务：高QPS、低RT

智能营销圈人：需要圈选大量人群数据，人群数量百万、甚至千万

实时大屏：需要支持数据实时推送更新

数据产品、BI分析：报表2w+、产品数据数据服务10w+

因此数据服务统一化迫在眉睫

根据上述业务场景，需要解决的问题：

1.数据服务统一化：接口不同QPS和RT，不同的接口服务(HTTP、RPC、文件传输等)，即：OneAPI

2.存储解析统一化，一套语言支持多种数据存储接入，即：OneSQL

3.数据模型统一化，支持多种数据源接入, 即:OneModel

相信大家都听说过阿里巴巴的OneData方法论。在这一方法论下大数据工程师，构建统一、规范、可共享的全域数据提醒，避免数据的冗余和重复建设，规避数据烟囱和不一致性，充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。

而数据服务统一化即是其中的OneService。

三、架构设计：

数据服务平台能够解决数据服务统一化，便于数据服务的治理、指标口径的统一。能够提升业务的开发效率，更快的面对业务的变化。数据服务平台主要分如下三层：

1.数据应用接入层：主要是针对外部应用接入，包含：HTTP服务、RPC服务、Client 服务

2.数据服务解析层：主要通过SQL方式访问各种数据存储，然后生成对应数据服务。核心功能：SQL解析、SQL校验、SQL路由、数据查询

3.数据存储层：主要包含数据的存储管理，MySQL、Redis、Hive等等。都能很好的支持，提供API服务

数据服务生产的整体流程如下：

(1)选择数据存储

(2)配置数据查询SQL

//统计某一天的每个店铺的销售额
select 
shop_id,sum(gmv) as total_gmv from (
select * from table where dt=#{dt}
) t
group by shop_id;

(3)根据选择数据存储引擎，将SQL转化成可执行的语言进行执行，基于Apache Calcite 进行开发主要步骤如下：

Parser. 此步中Calcite通过Java CC将SQL解析成未经校验的AST

Validate. 该步骤主要作用是校证Parser步骤中的AST是否合法,如验证SQL scheme、字段、函数等是否存在; SQL语句是否合法等. 此步完成之后就生成了RelNode树

Optimize. 该步骤主要的作用优化RelNode树, 并将其转化成物理执行计划。主要涉及SQL规则优化如:基于规则优化(RBO)及基于代价(CBO)优化; Optimze 这一步原则上来说是可选的, 通过Validate后的RelNode树已经可以直接转化物理执行计划，但现代的SQL解析器基本上都包括有这一步，目的是优化SQL执行计划。此步得到的结果为物理执行计划。

Execute，即执行阶段。此阶段主要做的是:将物理执行计划转化成可在特定的平台执行的程序。根据选择的数据存储引擎，将SQL对应转化程可执行的程序。

Limit，即SQL限流。此阶段主要是针对SQL耗时进行监控、发现SQL耗时极大会进行限流管控。关于SQL限流的解释，可参考：阿里数据库性能诊断的利器——SQL执行干预_weixin_33856370的博客-CSDN博客

至此一个API服务就完完整整的生成了，可以理解为一个原子服务。

但是问题仍然来了，生产了一个根据用户id查询订单的原子服务A，生产一个根据订单id查询商品的信息的原子服务B。流程图如下：

如果需要查询出某个用户下某个订单的所有商品信息，就需要先调用订单服务API，然后根据返回的结果调用商品服务API，最后才能拿到想要的信息。

显然：当调用的服务越多，需要手动开发的成本越来越高，以及中间的数据转化部分也需要进行开发，效率极低。

针对原子服务的互相调用以及参数转化如果进行手动开发，那么有没有一种简单操作就能实现参数转化和服务串接呢？

服务编排应运而生。

服务编排，指对于原子服务进行串接、参数转换，以及一些业务逻辑的判断进行处理。下面只是简单称述如下三种情况：

(1)服务串行：

(2)服务并行：

(3)服务逻辑校验：

四、小结:

本篇文章介绍大数据服务平台整体建设思路，但仍然难免有一些疏漏。

(1)由于数据库发展迅速，比如：国产IOT相关的数据库，TDengine，如何将IOT相关的场景引入进来。更快地支持更多的数据存储

(2)数据平台服务化在大数据整体建设中如何扩大其服务，包括对：数据分析人员、运营人员甚至算法训练师，而不仅仅是针对数据人员和开发人员。

参考：

唯品会亿级数据服务平台落地实践-InfoQ

《阿里巴巴大数据之路》

某互联网大厂亿级大数据服务平台的建设和实践

一、引言：

二、背景：

三、架构设计：

四、小结:

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

某互联网大厂亿级大数据服务平台的建设和实践

一、引言：

二、背景：

三、架构设计：

四、小结:

热门文章

最新文章

相关课程

相关电子书