【赵渝强老师】阿里云大数据生态圈体系

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。

b041.png

基于开源的大数据技术,阿里云开发了自己的大数据计算服务,即:MaxCompute大数据计算服务。MaxCompute原名为ODPS(Open Data Processing Service),它是阿里云提供的数据仓库解决方案,并提供大数据量(百TB、PB、EB)的结构化数据的存储和计算服务。由于MaxCompute适用于离线计算的批处理场景,因此阿里云进一步开发了实时计算Flink版用于支持大数据的实时处理与计算。下图展示了阿里云大数据的生态圈体系。

image.png


视频讲解如下:


一、阿里云大数据基础组件


在了解到了阿里云大数据生态圈系统后,这里将详细介绍阿里云提供的大数据基础组件及其功能特性。


1.1  数据存储服务


阿里云大数据的数据存储服务主要包括对象存储服务Object Storage Service、表格存储Table Storage、关系型数据库RDS和分布式关系型数据库DRDS。


  • 对象存储服务Object Storage Service


阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。


OSS具有与平台无关的RESTful API接口,用户可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。用户可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。数据存储到阿里云OSS以后,可以选择标准存储(Standard)作为移动应用、大型网站、图片分享或热点音视频的主要存储方式,也可以选择成本更低、存储期限更长的低频访问存储(Infrequent Access)、归档存储(Archive)、冷归档存储(Cold Archive)作为不经常访问数据的存储方式。下图展示了OSS的管理控制台。

image.png


  • 表格存储Table Storage


阿里云表格存储(Tablestore)面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。阿里云表格存储的优势,包括多模型数据存储、多元化数据索引、多计算生态接入、访问安全性等。下图展示了阿里云表格存储的管理控制台。

image.png


  • 关系型数据库RDS


阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,RDS支持MySQL、SQLServer、PostgreSQL和MariaDBTX引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,有效帮助用户解决数据库运维的相关问题。下图展示了阿里云RDS的管理控制台。

image.png



  • 分布式关系型数据库DRDS


分布式关系型数据库服务(DistributedRelationalDatabaseService,简称DRDS)是阿里巴巴致力于解决单机数据库服务瓶颈问题而自主研发推出的分布式数据库产品,解决了一些传统单库RDS数据库的痛点。


DRDS高度兼容MySQL协议和语法,支持自动化水平拆分、在线平滑扩缩容、弹性扩展、透明读写分离,具备数据库全生命周期运维管控能力。

注意:DRDS必须依赖RDS。


1.2  数据计算服务


阿里云大数据的数据存储服务主要包括MaxCompute离线计算服务、分析型数据库Analytic DB和实时计算Flink版。


  • MaxCompute离线计算服务


云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为用户提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为用户提供完善的数据导入方案以及多种经典的分布式计算模型,用户可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。下图展示了阿里云MaxCompute的管理控制台。

image.png


注意:MaxCompute用于离线计算的批处理场景,不能用于实时计算的流处理场景。


  • 分析型数据库Analytic DB


分析型数据库(Analytic DB,简称ADB)是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。具备海量数据的计算和响应计算能力,能让用户在瞬息之间进行灵活的数据探索,快速的发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。ADB支持全面的值索引和块索引技术,并全面兼容MySQL协议和SQL2003。下图展示了阿里云ADB MySQL版的管理控制台。

image.png


  • 实时计算Flink版


阿里云实时计算Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。它具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。内核引擎100%兼容Apache Flink,并有2倍性能的提升。阿里云实时计算Flink版拥有Flink CDC、动态CEP等企业级增值功能,内置丰富上下游连接器,助力企业构建高效、稳定和强大的实时数据应用。下图展示了阿里云实时计算Flink版的管理控制台。

image.png


二、基于阿里云大数据基础组件的数加平台


数加平台基于阿里十几年在大数据上的经验积累,基于对内的平台上做了一个对外的实例即数加。阿里云的数加平台包括多租户、账号、权限、安全、元数据、计量计费等模块,也包括算法平台PAI。它将计算引擎、数据开发工具、数据采集和传输工具、数据分析工具、机器学习平台无缝集成,提供端到端的一站式用户体验。让基于Hadoop自建数据平台成为往事,让客户专注于业务系统开发。


2.1  大数据开发治理平台DataWorks


DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。下图展示了阿里云DataWorks的管理控制台页面。

image.png


DataWorks具有强大的基础能力,可以为用户大幅提升工作效率,保障数据准时产出,助力数据治理,让用户零成本构建数据服务。它具有以下的特性:


  • 学习成本低


非技术人员1~2小时即可掌握完整的数据开发、治理流程,告别传统命令行,节省巨大的学习成本。让用户可以在同一DAG图中,构建异构计算引擎形成混编任务流,无需分别维护各技术栈,助用户高效组合混编任务流。


  • 人效提升快


一键开通即可完成开箱即用的数仓技术架构搭建,告别繁重的自研、部署、维护工作,为企业免去数十人运维开发团队。


  • 产品功能全


功能涵盖数据传输、开发、生产、治理、安全全领域,每个领域深度覆盖大数据全生命周期,轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。


2.2  数据可视化分析平台Quick BI


Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,用户可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户,也可以将报表集成在业务流程中,并且通过邮件、钉钉、企业微信等分享给同事和合作伙伴。通过Quick BI可以让企业的数据资产快速的流动起来,通过BI和AI结合挖掘数据背后的价值,加深并加速在企业内部各种场景的数据消费。


Quick BI从阿里巴巴内部的BI工具发展而来。阿里巴巴内部在2014年前还在使用传统的BI工具来做报表和数据获取,但传统BI工具无法满足阿里内部丰富的场景、快速变化的业务和海量数据查询的诉求,从2014年开始阿里内部开始出现各种自建的可视化工具,例如服务于有Excel经验人员的在线电子表格,支持双11和618大促活动的可视化大屏,快速构建报表和仪表板的工具等。下图展示了Quick BI的模板页面。

image.png


2.3  机器学习PAI


机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。下图展示了机器学习PAI的工作空间页面。

image.png

相关文章
|
12天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
15天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
7天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
12天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
2天前
|
云安全 存储 弹性计算
|
4天前
|
云安全 人工智能 自然语言处理
|
7天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
22天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3968 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
12天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
535 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
11天前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。