基于开源的大数据技术,阿里云开发了自己的大数据计算服务,即:MaxCompute大数据计算服务。MaxCompute原名为ODPS(Open Data Processing Service),它是阿里云提供的数据仓库解决方案,并提供大数据量(百TB、PB、EB)的结构化数据的存储和计算服务。由于MaxCompute适用于离线计算的批处理场景,因此阿里云进一步开发了实时计算Flink版用于支持大数据的实时处理与计算。下图展示了阿里云大数据的生态圈体系。
视频讲解如下:
一、阿里云大数据基础组件
在了解到了阿里云大数据生态圈系统后,这里将详细介绍阿里云提供的大数据基础组件及其功能特性。
1.1 数据存储服务
阿里云大数据的数据存储服务主要包括对象存储服务Object Storage Service、表格存储Table Storage、关系型数据库RDS和分布式关系型数据库DRDS。
- 对象存储服务Object Storage Service
阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。
OSS具有与平台无关的RESTful API接口,用户可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。用户可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。数据存储到阿里云OSS以后,可以选择标准存储(Standard)作为移动应用、大型网站、图片分享或热点音视频的主要存储方式,也可以选择成本更低、存储期限更长的低频访问存储(Infrequent Access)、归档存储(Archive)、冷归档存储(Cold Archive)作为不经常访问数据的存储方式。下图展示了OSS的管理控制台。
- 表格存储Table Storage
阿里云表格存储(Tablestore)面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。阿里云表格存储的优势,包括多模型数据存储、多元化数据索引、多计算生态接入、访问安全性等。下图展示了阿里云表格存储的管理控制台。
- 关系型数据库RDS
阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,RDS支持MySQL、SQLServer、PostgreSQL和MariaDBTX引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,有效帮助用户解决数据库运维的相关问题。下图展示了阿里云RDS的管理控制台。
- 分布式关系型数据库DRDS
分布式关系型数据库服务(DistributedRelationalDatabaseService,简称DRDS)是阿里巴巴致力于解决单机数据库服务瓶颈问题而自主研发推出的分布式数据库产品,解决了一些传统单库RDS数据库的痛点。
DRDS高度兼容MySQL协议和语法,支持自动化水平拆分、在线平滑扩缩容、弹性扩展、透明读写分离,具备数据库全生命周期运维管控能力。
注意:DRDS必须依赖RDS。
1.2 数据计算服务
阿里云大数据的数据存储服务主要包括MaxCompute离线计算服务、分析型数据库Analytic DB和实时计算Flink版。
- MaxCompute离线计算服务
云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为用户提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为用户提供完善的数据导入方案以及多种经典的分布式计算模型,用户可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。下图展示了阿里云MaxCompute的管理控制台。
注意:MaxCompute用于离线计算的批处理场景,不能用于实时计算的流处理场景。
- 分析型数据库Analytic DB
分析型数据库(Analytic DB,简称ADB)是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。具备海量数据的计算和响应计算能力,能让用户在瞬息之间进行灵活的数据探索,快速的发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。ADB支持全面的值索引和块索引技术,并全面兼容MySQL协议和SQL2003。下图展示了阿里云ADB MySQL版的管理控制台。
- 实时计算Flink版
阿里云实时计算Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。它具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。内核引擎100%兼容Apache Flink,并有2倍性能的提升。阿里云实时计算Flink版拥有Flink CDC、动态CEP等企业级增值功能,内置丰富上下游连接器,助力企业构建高效、稳定和强大的实时数据应用。下图展示了阿里云实时计算Flink版的管理控制台。
二、基于阿里云大数据基础组件的数加平台
数加平台基于阿里十几年在大数据上的经验积累,基于对内的平台上做了一个对外的实例即数加。阿里云的数加平台包括多租户、账号、权限、安全、元数据、计量计费等模块,也包括算法平台PAI。它将计算引擎、数据开发工具、数据采集和传输工具、数据分析工具、机器学习平台无缝集成,提供端到端的一站式用户体验。让基于Hadoop自建数据平台成为往事,让客户专注于业务系统开发。
2.1 大数据开发治理平台DataWorks
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。下图展示了阿里云DataWorks的管理控制台页面。
DataWorks具有强大的基础能力,可以为用户大幅提升工作效率,保障数据准时产出,助力数据治理,让用户零成本构建数据服务。它具有以下的特性:
- 学习成本低
非技术人员1~2小时即可掌握完整的数据开发、治理流程,告别传统命令行,节省巨大的学习成本。让用户可以在同一DAG图中,构建异构计算引擎形成混编任务流,无需分别维护各技术栈,助用户高效组合混编任务流。
- 人效提升快
一键开通即可完成开箱即用的数仓技术架构搭建,告别繁重的自研、部署、维护工作,为企业免去数十人运维开发团队。
- 产品功能全
功能涵盖数据传输、开发、生产、治理、安全全领域,每个领域深度覆盖大数据全生命周期,轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。
2.2 数据可视化分析平台Quick BI
Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,用户可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户,也可以将报表集成在业务流程中,并且通过邮件、钉钉、企业微信等分享给同事和合作伙伴。通过Quick BI可以让企业的数据资产快速的流动起来,通过BI和AI结合挖掘数据背后的价值,加深并加速在企业内部各种场景的数据消费。
Quick BI从阿里巴巴内部的BI工具发展而来。阿里巴巴内部在2014年前还在使用传统的BI工具来做报表和数据获取,但传统BI工具无法满足阿里内部丰富的场景、快速变化的业务和海量数据查询的诉求,从2014年开始阿里内部开始出现各种自建的可视化工具,例如服务于有Excel经验人员的在线电子表格,支持双11和618大促活动的可视化大屏,快速构建报表和仪表板的工具等。下图展示了Quick BI的模板页面。
2.3 机器学习PAI
机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。下图展示了机器学习PAI的工作空间页面。