暂无个人介绍
主要讲述阿里云数据湖分析DLA 2020年的进展~
QuickBI提供了通过DLA Presto加速MaxCompute查询的功能,在TPCH测试中,查询的性能提升最小的1倍多,最大的8倍多,让您的报表飞起来 :)
大家过年好啊,阿里云数据湖分析DLA-Presto二月迭代轻磅发布,请查收。 分区投影: 帮您解决分区爆炸后查询慢的问题。 Cassandra Connector: 针对小表的性能优化比目前开源版本提高60多倍。 控制ETL结果文件数: 解决您的小文件多的问题。 CU支持指定默认Hint: 如果一个hint每个SQL都要写,那么我们配置到CU级别吧。
DLA Presto独享版推出大查询功能,能让相同规格的虚拟集群,分析的数据量提升十倍。
DLA近期发布了支持访问用户自建HiveMetastore的功能,可以通过DLA分析自建HiveMetastore的数据。此外还能通过DLA Presto加速查询性能。
阿里云数据湖分析今天发布了控制台对于SQL停止操作的支持, 您提交了一个查询之后,可以点击“停止”进行终止。
在存储计算分离的场景下,通过网络从远端存储读取数据是一个代价较大的操作,往往会带来性能的损耗。以OSS为例,OSS数据读取延时通常较本地磁盘大很多,同时OSS对单个用户使用的带宽上限做了限制,这都会对数据分析的延时造成影响。在云原生数据湖分析(DLA)SQL引擎中,我们通过引入本地缓存机制,将热数据缓存在本地磁盘,拉近数据和计算的距离,减少从远端读取数据带来的延时和IO限制,实现更小的查询延时和更高的吞吐。
为了降低存储成本,不少客户会选择SLS数据搭配OSS进行冷热分离,把全量数据投递到OSS,近实时数据查询使用SLS。但是这些投递到OSS的数据难以分析,目前基于DLA的元信息发现功能一键激活日志数据的分析价值,然后搭配DLA的Serverless Presto和Spark进行数据处理和分析。
Presto这几年在国内使用的越来越广泛,成为企业中必备的Adhoc/BI报表/轻量级ETL引擎,国内公司比如阿里巴巴、滴滴、头条、京东、小米都有几百数上千台的Presto集群,这主要还是由Presto优秀的特性使然(下文详细说明)。为了方便咱们中国的Presto使用者、爱好者学习使用Presto,我把Presto周边的资料做了一个搜集整理,方便大家查阅。
为了使用DLA标准SQL分析Tablestore数据,往往需要很多步骤才能在DLA中创建相应元数据映射,进而使用SQL去分析Tablestore数据。 现在,数据湖分析DLA发布了一个免费的新功能可以一键快速发现Tablestore元数据,自动创建DLA库表映射到Tablestore的实例和表上,仅倒一杯水的时间即可开启SQL分析Tablestore数据之旅。
DLA SQL全新改版,包括虚拟集群展示优化,提交SQL到虚拟集群、通过虚拟集群过滤历史SQL、置默认虚拟集群等,让用户能更加便捷的使用SQL虚拟集群;此外还支持了Kudu、OceanBase数据源。DLA SQL新推出1元首购原价315元的DLA 1000CU时资源包,福利链接:https://common-buy.aliyun.com/?commodityCode=openanalytics_cu_bag#/buy
由于历史原因,很多用户的业务运行在用户自建的Hadoop集群上,随着业务的发展会遇到扩容难,缩容慢,弹不出等问题。DLA团队将Serverless、云原生、Spark技术优势深度整合到一起,提供Serverless Spark产品,可以无缝连接用户Hadoop集群,快捷稳定地为传统Hadoop集群增加弹性算力
云原生数据湖分析(DLA) 支持表格存储并发导出功能
阿里云云原生数据湖分析DLA是阿里云在数据湖领域推出的拳头产品,帮忙用户进行数据湖的构建、对数据湖的进行分析、在统一的元数据基础之上支持双引擎: Presto和Spark,一站式满足用户各种数据分析的需求。DLA基于云原生的理念进行构建、用户不需要感知任何物理机、ECS、手动部署等等,直接使用服务,而且是完全Serverless形态,支持灵活的弹性策略,提供多种计费模型,满足各种不同场景的用户使用需求。
最近,DLA SQL发布了CU版,支持访问用户自建的HDFS,使得挖掘HDFS上面数据的价值成为可能。
由于解决了用户当前遇到的数据分散、复杂、难管理的问题,数据湖方案越来越深入人心,阿里云DLA产品提供了一体化解决方案,从数据湖管理到数据湖分析和计算。相对于在线引擎,Spark更适合弹性计算架构,可以跟云原生的弹性能力深度整合起来。从传统IDC到搬站上云到完全Serverless化,这条路径已经被越来越被认可为云技术的发展路径。DLA Spark采用完全云原生 + Serverless形式,相对于传统的自建Hadoop在性价比方面拥有数倍的优势。
Presto作为OLAP界领先的分析引擎在国内外有着广泛的应用,各个公司要么在自己的机房自建Presto,要么在云上使用ECS自建Presto来使用,但是开源的Presto在用户学习成本、数据摄入、生态兼容性、高可用、对云上数据的支持度方面还是有一些薄弱。因此阿里云数据湖分析团队打造了一个DLA SQL(兼容Presto)CU版本,今天给大家介绍一下它的一些特性。
数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金。一些企业已经构建了自己的云原生数据湖方案,有效解决了业务痛点;还有很多企业在构建或者计划构建自己的数据湖。阿里云数据湖分析服务DLA的数据湖管理功能定位为帮助用户构建统一、安全、高效、开放的数据湖解决方案。
传统大数据架构难以对应企业日益增长的各式各样分析需求,而随着云技术的不断发展和普及,在云上构建实时数据湖成为构建企业级大数据平台的热门选项,本文将阐述如何基于阿里云数据湖分析服务和Apache Hudi构建云上实时数据湖。
MaxCompute支持通过外部表关联OSS,进行数据输出。然而,由于MaxCompute外部表的目录结构比较特殊,无法使用MaxCompute以外的工具对OSS上的文件做进一步的分析,限制了外部表的使用场景。因此,DLA最近支持了分析MaxCompute外部表数据文件的功能,借助DLA强大的生态,可以方便地对MaxCompute外部表进行分析,并能够和其他数据源做联合查询。 本文通过一个简单的例子介绍如何使用这个功能。
很多用户使用DLA对存储在OSS上的数据的进行分析。并且,由于OSS极低的存储成本,也有很多用户也会选择通过SLS日志投递、DLA一键建仓等功能把其他数据源的数据转储到OSS进行分析。然而,由于OSS按照调用次数收费,在分析OSS数据时,因OSS接口调用而产生的成本往往会成为成本中较为显著的一个部分。
在对Mysql,MongoDB等数据库系统进行分析时,经常面临的一个问题是在进行分析查询时如何避免对实时业务产生影响,也就是OLAP负载和OLTP负载隔离的问题。针对这个问题,阿里云数据湖团队一直在努力优化,提供满足不同场景的解决方案。
通过一键建湖能简单便捷的构建Mysql分析。它的特性是易用,分析能力强,成本极低,对源库影响很低。
简介 数据湖分析(Data Lake Analytics,DLA)是无服务器(Serverless)化的云上交互式查询分析服务。无需ETL,就可通过DLA在云上通过标准JDBC直接对阿里云OSS,TableStore,RDS,MongoDB等不同数据源中存储的数据进行查询和分析。
欢迎大家使用数据湖分析(DLA),DLA不仅仅便宜,且快,且方便,专为阿里云数据湖分析方案而生。
截止目前,Data Lake Analytics(下面简称 DLA)已经和 OSS 有很多深度的集成,详情可以参见 DLA 的官方文档:DLA 和 OSS 整合。 为了能够提供更好的使用体验,目前可以通过 DLA 自动探测 OSS 上的多种文件格式,并自动生成建表语句,大大减少建表的使用成本。
数据湖分析服务 Data Lake Analytics SQL引擎是兼容MySQL协议的,具备高性能的Serverless化的联邦分析引擎,支持OSS、MySQL、PG、SQLServer、Redis、MongoDB、HBase、OTS等数据源。
阿里云Data Lake Analytics助力加和科技广告智能业务 - 性能提升4倍+,临时业务需求承接率提升200%+
概述 业务系统常常会产生大量的事件日志和数据,记录各种事件发生的相关信息,一条事件日志或者数据通常包含如事件ID,事件名称,时间点等。针对该类事件日志或者数据,DLA新提供了事件路径分析的聚合函数,主要支持按照事件时间点、时间戳得到事件顺序发生的时间序列,某类或者多类、某个或者多个事件发生的时间间隔序列等等。
概述 漏斗分析是帮助运营人员分析一个多步骤过程中每一步的转化与流失情况。假设我们在购买商品的过程中,需要触发的事件包括 “启动”,“登陆”,“搜索商品”,“查看商品”,“生成订单”等。运营人员需要分析某段时间内(比如2017年1月5号到2017年2月5号),在全部用户中依次有序触发 “登陆” —> “搜索商品” —> “查看商品” —> “生成订单“ 事件的人群的转化流失情况,即计算全部用户中触发了“登陆”事件的总人数A,A中触发“搜索商品”事件的总人数B,B中触发“查看商品”事件的总人数C,以及C中触发“生成订单”事件的总人数D。
概述 本月,Data Lake Analytics(https://www.aliyun.com/product/datalakeanalytics,https://et.aliyun.com/bdad/datalake)发布了手机号查询所属省、城市、运营商的内置函数。
概述 CDN产生大量日志,可以进行日志转存(https://help.aliyun.com/document_detail/88894.html)到OSS bucket中。也可以进行实时日志推送(https://help.aliyun.com/document_detail/121169.html),推送到日志服务SLS中进行实时分析,也可以在日志服务SLS中配置OSS日志投递,将海量CDN日志长期保存在OSS中。
背景 用户有个场景,就是所有JSON数据对象连续存放在同一行。例如: {"employees":[{"firstName":"Bill","lastName":"Gates"},{"firstName":"George","lastName":"Bush"},{"firstName":"Thom...
概述 您可能有大量应用程序产生的JSON数据,您可能需要对这些JSON数据进行整理,去除不想要的字段,或者只保留想要的字段,或者仅仅是进行数据查询。那么,利用阿里云Data Lake Analytics或许是目前能找到的云上最为便捷的达到这一目标的服务了。
背景 在使用Data Lake Analytics(https://et.aliyun.com/bdad/datalake)进行OSS数据分析时,通常云账号A是访问自己的OSS bucket数据,如果有访问其他云账号(假设云账号B)的OSS数据的需求,本文正好帮到您,教您如何通过DLA实现DLA跨云账号分析OSS数据。
概述 本月,Data Lake Analytics(https://et.aliyun.com/bdad/datalake)发布了一批新增的内置函数,涉及身份证地域查询、星座查询、中文拼音转换、Json数组内容字段提取、互联网坐标系经纬度转换等。
产品介绍: Data Lake Analytics是Serverless化的交互式联邦查询服务。无需ETL,使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据适用客户: 全网发布功能: 阿里云Data Lake Analytics正式商业化,无需ETL即可开启异构数据源的联邦实时分析能力。