Data Lake Analytics-数据分析时代迎来新变革

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,企业版 4核16GB
推荐场景:
HTAP混合负载
对象存储 OSS,20GB 3个月
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: 近期阿里云重磅推出新的数据分析引擎Data Lake Analytics,Data Lake Analytics是Serverless化的交互式联邦查询服务。无需ETL,使用标准SQL即可分析与集成对象存储(OSS)、数据库

前言
近期阿里云重磅推出新的数据分析引擎Data Lake Analytics,Data Lake Analytics是Serverless化的交互式联邦查询服务。无需ETL,使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL/SQL Server等)、NoSQL(TableStore等)数据源的数据。本文将重点剖析Data Lake Analytics的出现,给传统数据分析带来了哪些变革。

_1

极大的降低运行成本
传统解决方案里,做数据分析,需要先购买一些分析节点实例(计算和存储一体化),无论是计算还是存储任何一方先到达瓶颈,都要线性的扩服务器资源,分析任务空闲的时候,计算资源的成本依旧需要承担。Data Lake Analytics是基于Serverless架构的数据分析引擎,意味着客户使用分析服务无需购买或者管理服务器,升级透明,Data Lake Analytics基于ECS轻松做到弹性伸缩服务。能让业务真正做到按需扩存储,按使用量付费分析,不分析只需要拥有存储成本,整个方案成本极低。

数据分析架构更加灵活
无论是自建Hadoop、开源的Greenplum等方案,存储和计算成本都是一体化的。选择了这些大数据分析技术后,存储和计算的方案都是固化的。而Data Lake Analytics的出现,则打破了这一架构局限性,使得数据分析方案更加灵活。客户可以选择将海量的KV查询的数据存储TableStore中,Data Lake Analytics可以高速的查询处理TableStore中的数据。可以将业务流水数据存储在关系型数据库(MySQL、SQL Server、PostgreSQL)中,Data Lake Analytics可以对上述数据存储就地分析,赋予了上述数据库复杂的查询能力。用户可以将日志或者归档数据存储在OSS中,使用Data Lake Analytics快速的分析处理OSS中的数据。在对于云上中小企业来说,可以结合业务的特点选择最廉价的存储搭配最普惠灵活的的分析能力,同时Data Lake Analytics还可以很好的将上述众多数据源做联邦查询。

ETL搬数据时代结束
以往数据分析,需要将各路数据源(关系型数据库、日志、NoSQL等),按照天或者小时级别做抽取,汇总到数据仓库中做数据关联处理。Data Lake Analytics设计之初天然具有联邦分析能力,使得客户的数据不再需要搬迁至数据仓库汇总分析,而是就地分析。同时还能很好的跨异构数据源做关联分析、回流至关系型数据库或者OLAP引擎。

分析时效性大幅提升
传统数仓,无论是H+1 还是T+1方案,由于数据同步周期长,架构链路长,导致时效性很差。Data Lake Analytics的多数据源联邦查询处理能力,避免了数据搬迁的同时,大大提升了数据处理的时效性,同时由于缩短了采集、存储、计算的链路,方案运行更加稳定。

总结
传统数据分析的抽取-装载-转换-回流的架构支撑了数据仓库多年的发展,而Data Lake Analytics的出现,给传统数据分析架构带来革新的同时,也赋予了云上目前OSS、TableStore、关系型数据库(PostgreSQL/MySQL/SQL Server等)存储强大的OLAP分析能力。对于云上中小企业来说,可以选择用最廉价、最适合业务场景的存储,来搭配最普惠灵活的的分析能力。

阿里云Data Lake Analytics正是最普惠灵活的分析能力的实践者,目前公测期间免费试用,欢迎大家前来体验。

Data Lake Analytics产品详情:
https://www.aliyun.com/product/datalakeanalytics
了解更多大数据家族产品详情,欢迎点击:
https://et.aliyun.com/bigdatarelease
点击观看大数据家族产品发布会:
https://yq.aliyun.com/webinar/play/508
【阿里云新品发布】开启新一代数据智能开发之路:
https://yq.aliyun.com/roundtable/325525
2

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
38 4
|
2月前
|
数据挖掘 定位技术
.NET Compact Framework下的GPS NMEA data数据分析(二)转
.NET Compact Framework下的GPS NMEA data数据分析(二)转
21 0
|
12月前
|
JavaScript 前端开发 数据挖掘
Echarts数据分析系统Data Analysis Platform使用说明文档
Echarts数据分析系统Data Analysis Platform使用说明文档
86 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘(Data Mining)| 数据分析建模理论基础
数据挖掘(Data Mining)| 数据分析建模理论基础
277 0
数据挖掘(Data Mining)| 数据分析建模理论基础
|
数据挖掘
一维数组实验题:计算平均数、中位数和众数 在调查数据分析(Survey data analysis)中经常需要计算平均数、中位数和众数。用函数编程计算40个输入数据(是取值1—10之间的任意整数)的平
一维数组实验题:计算平均数、中位数和众数 在调查数据分析(Survey data analysis)中经常需要计算平均数、中位数和众数。用函数编程计算40个输入数据(是取值1—10之间的任意整数)的平
159 0
|
机器学习/深度学习 数据采集 人工智能
「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data
由于标注人员的社会背景不同,所标注的数据也可能存在着固有偏见,从而导致训练的模型继承了这种偏见。Google 对于这个问题发布了一个数据分析平台Know Your Data,能做三件事,让数据变得公平、公平、还是公平!
233 0
「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data
|
机器学习/深度学习 存储 分布式计算
Data Science | 数据分析
Data Science | 数据分析
128 0
Data Science | 数据分析
|
存储 NoSQL 数据挖掘
下一代企业级云上数据分析服务:Data Lake Analytics
0. Data Warehouse VS Data Lake 0.1 传统数仓 数据来源于各类云数据存储、NoSQL和关系型数据库等系统,比如OSS、Table Store、NAS、 云HBase、RDS、PolarDB等; 数据以实时、分钟、小时、天等级别进行ETL抽取与同步到数仓系统中; 在数仓中进行实时、定时调度、汇总计算分析。
5634 0
|
4天前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析工具有哪些
【7月更文挑战第3天】Python数据分析工具有哪些
112 58
|
2天前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
14 3