大数据计算服务MaxCompute产品运营
本刊为您带来 2022年12月 MaxCompute 产品最新动态。产品发布新动态1. MaxCompute 优化增强字符串函数和聚合函数能力并新增字符串函数 查看文档 >>适用客户需要用MaxCompute SQL的数据开发、数据分析人员等发布功能优化5个存量内建函数,其中3个字符串函数补齐兼容hive行为;2个窗口函数增强了函数能力;新增1个字符串转换新函数优化3个字符串处理内建函数包括:cast/split/rand ; 增强两个窗口函数:numeric_histogram/percentile_approx; 新增函数:mask_hash。2. MaxCompute Update语法支持From子句 查看文档 >>适用客户需要用MaxCompute SQL的数据开发、数据分析人员等发布功能Update数据更新操作时可以直接使用from子句进行更新数据3. MaxCompute - 增加SQL Window关键字 查看文档 >>适用客户需要用MaxCompute SQL的数据开发、数据分析人员等发布功能新增window关键字,用户可以用window关键字定义窗口,只要对窗口定义一次,可进行重复使用。近期产品月刊回顾阿里云 MaxCompute 2022-10月11月刊 >>阿里云 MaxCompute 2022-9月刊 >>阿里云 MaxCompute 2022-8月刊 >>阿里云 MaxCompute 2022-7月刊 >>阿里云 MaxCompute 2022-6月刊 >>阿里云 MaxCompute 2022-4月5月刊合集 >>阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>
本刊为您带来 2022年10月、11月 MaxCompute 产品最新动态。产品发布新动态1. MaxCompute Schema 功能正式开放公测 查看文档 >>适用客户大数据开发者发布功能MaxCompute项目(Project)作为基本组织单元,是进行多用户隔离和访问控制的主要边界。同时Project中包含表(Table)、资源(Resource)、函数(Function)对象,这些对象原来直接放在Project下,需要Project充当类似于传统数据库的Database或Schema的概念,概念容易混淆(既是Database又是Schema),在有很多表或者对象的情况下使用便利性较差。 现在MaxCompute支持Schema,在Project之下对Table、Resource、Function进行归类。如果您原数据存储层级结构也如project.schema.table,且是新的即将迁移到MaxCompute,可以选择使用MaxCompute的schema功能,可以直接与数据源层级对齐无需在迁移时做业务重构,减少工作量。2. MaxCompute 计算抵扣包和存储抵扣包发布 查看文档 >>适用客户使用MaxCompute按量计费资源的用户发布功能MaxCompute计算抵扣包支持抵扣按量付费SQL、MapReduce、Spark、Mars、OSS外部表SQL、OTS外部表SQL计费项的用量。抵扣包按容量大小会有不同的优惠,如果您购买了计算抵扣包,按量付费的对应计费项的用量由抵扣包自动抵扣。 MaxCompute存储抵扣包支持抵扣标准存储和备份存储计费项的用量。MaxCompute存储用量都是按量付费,不限制存储使用量,按实际使用量和时间付费。存储抵扣包容量越大购买时长越长优惠力度越大,如您购买了存储抵扣包,对应计费项的用量由抵扣包自动抵扣。3. MaxCompute 弹性预留CU新规格发布 规格说明 >> 计费说明 >>适用客户大数据开发管理人员发布功能MaxCompute弹性预留CU是在购买包年包月预留CU的基础上实现弹性扩缩容,包年包月预留CU购买需要至少包月购买,弹性预留CU支持一天内某些时段购买使用,您可以通过MaxCompute新版控制台的Quota管理,合理的配置Quota计划和时间计划,实现更少的成本提升预留资源的满足率。4. MaxCompute 新版控制台发布 项目管理 >> Quota管理 >> RAM权限说明 >>适用客户大数据开发管理人员发布功能MaxCompute新版控制台将提供全新的项目管理、Quota(配额)管理交互,同时集成全新功能:弹性预留CU、自定义项目管理类角色访问控制。较于老版本,新版控制台主要新特性如下: 项目管理:支持所有MaxCompute project的管理,支持独立创建/删除project,支持界面化通过ACL和Policy方式进行角色权限管理(包含table、resource、function、package、project对象的权限)和package管理,支持界面化编辑project常用参数属性,集成新功能“自定义项目管理类角色”。 Quota管理:即MaxCompute管家中的配额管理,新版控制台提供全新的Quota管理交互。透出一级quota,支持全视角配置包年包月二级quota,支持整点/半点粒度的qutoa调度时间计划(原来只支持每天最多3个时段分时),集成新的“弹性预留CU”规格配置。 新控制台访问控制:基础权限控制接入RAM控制。5. MaxCompute 支持自定义项目管理类角色 项目管理类权限一览表 >> 自定义管理类角色管理说明 >>适用客户大数据开发管理人员 发布功能MaxCompute的项目内置admin和Super_Administrator两个管理类角色,同时也支持自定义管理类角色。通过新版控制台的项目管理-角色管理,创建项目角色时选择admin类型实现自定义管理类角色。您可以一些管理类角色如仅能进行权限分配管理、只能进行ip白名单管理等,通过自定义管理类角色实现。近期产品月刊回顾阿里云 MaxCompute 2022-9月刊 >>阿里云 MaxCompute 2022-8月刊 >>阿里云 MaxCompute 2022-7月刊 >>阿里云 MaxCompute 2022-6月刊 >>阿里云 MaxCompute 2022-4月5月刊合集 >>阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>
本刊为您带来 2022年9月 MaxCompute 产品最新动态。9月产品发布新动态1. MaxCompute 通过 Create table like 方式创建与外部数据源中表结构相同的表 查看文档 >>适用客户利用 MaxCompute 湖仓一体在 MaxCompute 中创建与 EMR、Hadoop、DLF 等外部数据源中表结构相同的表的数据分析、数据开发以及数据平台相关的数据开发者。发布功能利用 MaxCompute 湖仓一体在 MaxCompute 中创建与 EMR、Hadoop、DLF 等外部数据源中表结构相同的表,利用 create table ... like 语法,方便将外部数据源中的表结构迁移至 MaxCompute 内,以获取更好的数据治理能力和访问性能。2. MaxCompute - Hologres外表新增双签名鉴权模式 查看文档 >>适用客户使用实时离线数仓,在线分析场景的数据开发者。发布功能双签名模式是MaxCompute跟Hologres共同研发的认证及鉴权协议,在MaxCompute侧使用用户登录信息加签名后,把认证数据传递给Hologres侧,Hologres根据Maxcompute底层达成的协议,进行同名认证及鉴权。这样用户只要在MaxCompute和Hologres有相同的账号,就可以直接进行外表访问。不需要额外设置认证信息。近期产品月刊回顾阿里云 MaxCompute 2022-8月刊 >>阿里云 MaxCompute 2022-7月刊 >>阿里云 MaxCompute 2022-6月刊 >>阿里云 MaxCompute 2022-4月5月刊合集 >>阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>
本文作者 夏俊伟 阿里云智能高级产品专家MaxCompute产品与生态架构MaxCompute是一个具有先进架构的Serverless云数据仓库,自从商业化后,使用的用户涉及各个行业的头部客户。在生态上需要支持主流的开源产品以及阿里云云产品。其主要包括以下几个方面:数据接入生态。目前官方提供多种数据接入方式,可以接入绝大多数的数据库,NOSQL库,消息队列,日志等业务系统。数据引擎生态。MaxCompute除了自身支持SQL引擎,Spark,mars,Graph等,还支持第三方引擎平台接入,例如实现底层直读Hologres引擎,PAI人工智能平台,智能搜索,智能推荐等。数据开发管理工具生态。MaxCompute除了官方推出的Dataworks以外,还支持开源的Kettle,Airflow以及Azkaban平台,对数据进行开发治理调度等操作。数据湖生态。MaxCompute除了可以计算自身存储数据,还可以联合mysql等关系型数据库,Hbase,TableStore,Lindorm等NoSQL数据库,DLF+OSS对象存储,HDFS和HUDI等大数据文件系统做联合计算。数据应用生态。目前除了可以直接接入QuickBI官方数据BI平台,同时也支持市面主流的开源和商业化BI数据分析工具,例如Superset和Tableau等。MaxCompute产品生态架构MaxCompute产品生态数据接入生态MaxCompute官方提供DataWorks数据集成,可以支持几十种数据集成接入或者数据导出。同时也支持主流的时实Kafka,Datahub数据直接写入;也支持SLS日志直接写入。DataWorks数据集成提供数据读取(Reader)和写入插件(Writer)实现对数据源的读写操作,您可以根据要同步的来源与去向数据源,并结合离线同步支持的数据源情况,进行同步任务的配置。离线同步支持单表的增量与全量数据读写、分库分表的增量与全量数据读。也可以支持您将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步,还可以支持多种数据源之间进行不同数据同步场景(整库离线同步、全增量实时同步)的同步解决方案。数据集成为MaxCompute提供丰富的数据通道,方便用户直接接入数据或者导出数据。详细操作请点击。DataHubDataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布 (Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备,应用软件,网站服务,传感器等产生的大量流式数据进行持续不断的采集,存储和处理。用户可以编写应用程序或者使用流计算引擎来处理写入到数据总线 DataHub的流式数据比如实时Web访问日志、应用日志、各种事件等,官方已经深度集成DataHub数据写入MaxCompute。详细操作请点击。消息队列Kafka版消息队列Kafka版是阿里云提供的分布式、高吞吐、可扩展的消息队列服务。消息队列Kafka版广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域,已成为MaxCompute大数据生态中不可或缺的部分,用户可以方便的通过Kafka把数据写入MaxCompute。详细操作请点击。日志服务SLS日志服务SLS是云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在研发、运维、运营、安全等场景的数字化能力。用户可以方便快捷的把数据从SLS写入MaxCompute。详细操作请点击。DTS数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持RDBMS、NoSQL、OLAP等,集数据迁移/订阅/同步于一体,为您提供稳定安全的传输链路。详细操作请点击。数据引擎生态 MaxCompute自研SQL引擎,兼容hive语法,同时也支持开源Spark引擎,集成了Mars,Graph图计算引擎。用户还可以通过MaxCompute CUPID自主接入Presto,kylin等开源引擎进行数据分析计算。同时用户可以适配不同业务场景,引入不同计算引擎,其中就包括:Hologres用户在做实时报表,实时数据看板,在线数据服务等高可用,高响应的场景,需要引入Hologres做实时数仓分析服务。为用户提供快速响应的在线数据分析服务。目前MaxCompute跟Hologres已经完成底层数据打通,可以直接进行读写。更进一步提升数据服务效率。详细操作请点击。PAI人工智能平台用户在营销场景,金融交易风控场景,已经智能决策,智能语音客服等场景都需要智能化算法模型支持,PAI可以提供一站式的机器学习解决方案。同时PAI也跟MaxCompute深度集成,PAI可以利用MaxCompue强大的分布式计算能力,为PAI进行模型训练,数据计算。详细操作请点击。智能搜索引擎用户在文字、图片等搜索场景需要强大的搜索引擎,MaxComput可以为搜索和推荐引擎提供海量的数据存储和计算能力。OpenSearchOpenSearch是大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建智能搜索服务。同时跟MaxCompute深度集成,MaxCompute为OpenSearch提供海量数据存储与数据计算能力。详细操作请点击。ElasticsearchElasticsearch致力于打造基于开源生态的、低成本、场景化的云上Elasticsearch解决方案,源于开源,又不止于开源。基于云上超强的计算和存储能力,以及在集群安全和运维领域积累的技术经验,阿里云Elasticsearch不仅支持集群一键部署、弹性伸缩、智能运维和各类内核引擎优化,还提供了迁移、容灾、备份和监控等全套解决方案。MaxCompute为Elasticsearch提供海量数据存储与数据计算能力。详细操作请点击。智能推荐智能推荐AIRec(Artificial Intelligence Recommendation,简称AIRec)基于阿里巴巴大数据和人工智能技术,结合在电商、内容、新闻资讯、视频直播和社交等多个行业领域的积累,MaxCompute为AIRec提供海量数据存储与数据计算能力。详细操作请点击。数据开发管理工具生态数据管理目前MaxCompute支持以下几种开源数据仓库管理工具对接MaxCompute,对MaxCompute的项目进行管理。DBeaverDBeaver是一款免费的多平台数据库工具,适用于开发人员、数据库管理员、分析师和所有需要使用数据库的人员。更多DBeaver信息,请参见DBeaver。对接MaxCompute后,可以通过DBeaver对MaxCompute的项目进行管理,可以直接查看MaxCompute的表,表结构,以及表数据等操作。详细操作请点击。DataGripDataGrip是面向开发人员的数据库管理环境,为查询、创建和管理数据库提供便利。数据库可以在本地、服务器或云中工作。更多DataGrip信息,请参见DataGrip。对接MaxCompute后,可以通过DataGrip对MaxCompute的项目进行管理,可以直接查看MaxCompute的表,表结构,以及表数据等操作。详细操作请点击。SQL Workbench/JSQL Workbench/J是一个免费的、独立于DBMS(Database Management System)的、跨平台的SQL查询工具。SQL Workbench/J采用Java语言编写,可以在任何提供Java运行环境的操作系统上运行。更多SQL Workbench/J信息,请参见SQL Workbench/J。对接MaxCompute后,可以通过SQL Workbench/J对MaxCompute的项目进行管理,可以直接查看MaxCompute的表,表结构,以及表数据等操作。详细操作请点击。数据开发调度平台MaxCompute除了可以用官方推出的DataWorks做数据集成,数据开发任务调度,任务运维,数据分析以及数据服务等,同时也支持主流开元数据开发管理工具。官方平台DataWorksDataWorks基于MaxCompute大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。详细操作请点击。开源工具目前MaxCompute支持以下开源数据开发调度工具对接MaxCompute,可以在这些平台上开发数据任务作业,作业调度等。KettleMaxCompute支持您通过ETL工具Kettle实现MaxCompute作业调度。您可以通过拖拽控件的方式,方便地定义数据传输的拓扑结构。详细操作请点击。AirflowMaxCompute支持您使用Apache Airflow通过Python接口实现作业调度。详细操作请点击。AzkabanMaxCompute支持您通过Azkaban实现作业调度,帮助您高效地完成高频数据分析工作。详细操作请点击。数据湖生态MaxCompute不仅可以对自身存储的数据进行高效快捷的进行计算,同时也可以通过外表,湖仓一体(External Schema+Foriegn Server)的方式进行数据联合计算。外部表目前MaxCompute支持RDS,OSS,TableStore,Hbase/Lindorm以外表的方式进行联合计算。用户可以不加载数据进MaxCompute,也可以方便的用MaxCompute进行数据联合计算。详细操作请点击。湖仓一体目前MaxCompute湖仓一体,可以支持DLF+OSS/HDFS/HUDI等多种数据源,进行湖仓一体联合计算。用户可以在MaxCompute建立外围数据源,通过External Schema对外围数据源进行元数据统一管理,做联合计算。详细操作请点击。数据应用生态目前MaxCompute已经对接市场上主流的BI智能分析工具,可以让用户方便的在BI智能分析工具上对MaxCompute的数据进行分析以及展现。主要对接的商业智能分析工具有阿里云产品Quick BI,同时也支持主流的开源和商业化BI产品,例如开源BI分析工具superset商业BI分析工具Tableau等。Quick BI智能分析套件Quick BI是一个专为云上用户量身打造的新一代智能BI服务平台。Quick BI可以提供海量数据实时在线分析服务,支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。MaxCompute深度集成Quick Bi,方便用户在Quick BI做数据分析展现。详细操作请点击。TableauMaxCompute支持您将MaxCompute项目数据接入Tableau进行可视化分析,您可以利用Tableau简便的拖放式界面,自定义视图、布局、形状、颜色等,帮助您展现自己的数据视角。详细操作请点击。FineBIMaxCompute支持您将MaxCompute项目数据接入FineBI,帮助企业的业务人员和数据分析师开展以问题为导向的探索式分析工作。连接FineBI和MaxCompute项目,并进行可视化数据分析。详细操作请点击。FineReportMaxCompute支持您将MaxCompute项目数据接入FineReport,您通过简单拖拽式操作便可制作中国式复杂报表。连接FineReport和MaxCompute项目,并进行报表分析。详细操作请点击。观远BIMaxCompute支持您将MaxCompute项目数据接入观远BI,帮助企业的业务人员和数据分析师开展以问题为导向的探索式分析工作以及制作数据卡片和数据看板。连接观远BI和MaxCompute项目,并进行可视化数据分析。详细操作请点击。网易有数BIMaxCompute支持您将MaxCompute项目数据接入网易有数BI,帮助您轻松完成数据分析和数据可视化工作。使用网易有数BI连接MaxCompute项目,并进行可视化数据分析具体详细操作请点击。Yonghong BIMaxCompute支持您将MaxCompute项目数据接入Yonghong BI,帮助您轻松完成数据分析和数据可视化工作。详细操作请点击。SupersetMaxCompute支持您将MaxCompute项目数据接入Superset,帮助您快速、轻量、直观地探索和可视化分析数据。详细操作请点击。DavinciMaxCompute支持您将MaxCompute项目数据接入Davinci,您只需在可视化UI界面上简单配置即可服务多种数据可视化应用。详细操作请点击。MaxCompute架构与开放性MaxCompute为了让用户更好的用好产品,对外提供了开放连接集成能力。MaxCompute团队聚焦做好核心存储与计算能力。目前可以通过以下几种对接方式与MaxCompute做集成。MaxCompute开放架构SDK目前MaxCompute支持Java和Python版本的SDK提供给外围系统进行集成管理。用户也可以通过SDK对MaxCompute的实例,资源,项目,表等进行管理,同时可以通过SDK提交SQL Task进行数据计算,如果用户需要自定义函数,可以通过java/python开发UDF,UDAF跟UDTF,开发自己的业务逻辑,然后上传并注册。在SQL作业中直接使用。详细操作请点击。JDBC为了方便用户使用,MaxCompute还提供了JDBC驱动,用户可以通过JDBC接入,可以通过标准的JDBC接口基于MaxCompute执行海量数据的分布式计算查询,目前用户主要用JDBC对MaxCompute的数据进行查询,例如BI智能分析平台,采用的都是JDBC方式连接进行数据分析查询。详细操作请点击。Tunnel用户可以通过Tunnel upload命令把指定目标地址上数据上传到MaxCompute,支持表,分区级别的数据上传。可以通过download的命令把MaxCompute的数据下载到指定目标地址或者本地,可以支持下载某个表或者某个分区的数据,同时也支持下载某个SQL instance计算好的结果数据。为了避免网络因素导致数据上传下载中断的情况,MaxCompute tunnel还支持断点续传功能。详细操作请点击。开放性与生态场景实践某金融互联网公司,全业务上了阿里云后,大数据选择了MaxCompute作为核心计算引擎,搭建了大数据平台,相比之前自建的模式,计算速度提升了10倍,成本节省了三成。数据源的数据通过kafka,DTS实时同步。接入Flink后做实时数据计算,计算完后的数据实时写入MaxCompute做离线分析,数据仓库搭建。集成Dataworks数据开发调度平台,对数据进行加工开发调度,数据管理,包括数据安全,数据质量,权限等。数据同步到Hologres,kylin,ES,Hbase做实时数据业务场景应用,包括在线分析,标签服务,报表看板,搜索,推荐等。产品架构总结MaxCompute的生态在不断完善中,为企业带来更丰富的组件,为用户提供更好服务。在开放性上,MaxCompute会开放更多能力,跟大数据生态产品做集成。在资源调度上会基于K8s推出fuxi调度引擎统一调度版,在平台管理上会逐渐开发标准restful API接口,更方便用户做集成。在开放更多能力的同时,会推出明确的产品限制项和能力边界,提供有保障的高质量服务。
本刊为您带来 2022年8月 MaxCompute 产品最新动态。8月产品发布新动态1. MaxCompute Use Quota(作业级别指定计算资源)功能发布 查看文档 >>适用客户数据开发者、数据分析师发布功能通过MaxCompute的use quota功能,实现作业级别指定quota,提升quota使用的灵活性。如project内某些作业占用大量资源而影响整体项目作业时效(如数据回刷作业占大量资源但时效要求不高、某些占用大量资源且时效要求高的算法作业),需进行quota隔离指定资源进行计算,可以通过use quota功能直接指定,无需单独创建project进行作业迁移并通过project绑定quota来实现。2. MaxCompute 物化视图支持生成空分区 查看文档 >>适用客户数据开发者,数据分析师,数仓管理人员等发布功能当刷新分区物化视图时,如果物化视图计算后对应的分区没有数据,物化视图会生成一个没有数据的空分区,以保持分区的连续性。3. MaxCompute 新增物化视图状态查看函数 查看文档 >>适用客户数据开发者,数据分析师,数仓管理人员等发布功能新增物化视图状态查看函数,该函数可以判断当前物化视图或物化视图的分区数据是否跟原表数据一致,如果一致返回True,否则返回False。4. MaxCompute 创建内表时支持用like复制外部表的表结构 查看文档 >>适用客户数据开发者,数据分析师,数仓管理人员等发布功能创建内表时支持用like复制外部表的表结构,提高建表效率。5. MaxCompute 新增三个聚合函数 查看文档 >>适用客户数据开发者,数据分析师,数仓管理人员等发布功能新增三个聚合函数:BITWISE_AND_AGG对输入值做BIT AND操作并返回聚合值;MIN_BY返回指定列最小值所在行指定列的值;MAX_BY返回指定列最大值所在行指定列的值。6. MaxCompute 支持分区表到期后自动删除表 查看文档 >>适用客户数据开发者,数据分析师,数仓管理人员等发布功能分区表分区数据的生命周期到期后会自动回收,当所有分区都自动回收后,系统支持设置自动删除该分区表。7. MaxCompute Spark 支持访问 OSS 外部表 查看文档 >>适用客户按照开源习惯基于MaxCompute Spark 在数仓内处理 OSS 结构化、半结构化数据的开发者发布功能MaxCompute Spark 支持访问 MaxCompute OSS 外部表,底层文件格式支持 PARQUET、TEXTFILE、 ORC、AVRO 和 SEQUENCEFILE。近期产品月刊回顾阿里云 MaxCompute 2022-7月刊 >>阿里云 MaxCompute 2022-6月刊 >>阿里云 MaxCompute 2022-4月5月刊合集 >>阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>
本刊为您带来 2022年7月 MaxCompute 产品最新动态。7月产品发布新动态1. MaxCompute 新增6个Bit和Map相关的聚合函数 查看文档 >>适用客户数据开发者/BI报表开发者/数据分析师等发布功能新增以下6个聚合函数,可以对输入的Bit值或者Map对象做聚合操作,使数据分析统计更加便捷:BITWISE_OR_AGG / MAP_AGG / MULTIMAP_AGG / MAP_UNION / MAP_UNION_SUM / HISTOGRAM。2. MaxCompute 新增3个窗口函数,并对已有窗口函数进行了性能调优 查看文档 >>适用客户数据开发者/BI报表开发者/数据分析师等发布功能新增first_value / last_value / nth_value三个窗口函数,并对已有窗口函数做性能调优,性能大幅提升。3. MaxCompute 支持在表级别设置split size参数 查看文档 >>适用客户数据开发者/BI报表开发者/数据分析师等发布功能MaxCompute 支持在表级别设置split size来控制并发度,当用户发现资源较充足且作业运行较慢,或者作业等待资源时间较长且资源不足时,可以通过调整该参数来提升计算效率。4. MaxCompute 支持Unload函数导出数据时自定义文件名前后缀 查看文档 >>适用客户数据开发者/BI报表开发者/数据分析师等发布功能MaxCompute 支持用户使用Unload函数从MaxCompute导出数据到OSS时,自定义导出数据文件名的前缀和后缀。5. MaxCompute 新增正则函数regexp_extract_all 查看文档 >>适用客户数据开发者/BI报表开发者/数据分析师等发布功能MaxCompute 新增正则函数regexp_extract_all,用户可用该函数一次性从需要处理的字符串中匹配所有满足要求的子字符串,并以数组方式返回,以提高数据处理效率。7月活动回顾【公开课】2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读第一讲 《阿里云云原生一体化数仓 — 离线实时一体化新能力解读》直播回放 >>阅读文章 >>第二讲 《阿里云云原生一体化数仓 — 分析服务一体化新能力解读》直播回放 >>阅读文章 >>第三讲 《阿里云云原生一体化数仓 — 数据建模新能力解读》直播回放 >>阅读文章 >>第四讲 《阿里云云原生一体化数仓 — 数据治理新能力解读》直播回放 >>阅读文章 >> 第五讲 《阿里云云原生一体化数仓 — 湖仓一体新能力解读》直播回放 >>阅读文章 >> 近期产品月刊回顾阿里云 MaxCompute 2022-6月刊 >>阿里云 MaxCompute 2022-4月5月刊合集 >>阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>
本刊为您带来 2022年6月 MaxCompute 产品最新动态。6月产品发布新动态1. 【邀测】MaxCompute 包年包月规格支持查询加速(MCQA) 查看文档 >>适用客户对一份数据进行反复交互式探索的BI工程师/数据分析师; 需要进行快速超大规模历史明细数据访问的业务系统/数据分析师; 进行查询验证和函数调试的数据开发工程师。发布功能MaxCompute包年包月规格支持配制交互式资源用于查询加速优化。查询加速(MCQA)功能可以在EB级数据仓库服务内提供弹性并发的秒级查询能力,在MaxCompute原有吞吐量优化的基础上,补足对延迟优先场景的支持能力。查询加速使MaxCompute一个服务同时满足数据准备(ETL)、数据挖掘(机器学习)、数据探索(Ad-hoc)、报表分析等多使用场景需要。通过自动识别短查询作业并加速处理、快速响应查询结果的方式,增强了MaxCompute SQL的整体处理性能,满足报表分析、即席查询等场景的使用要求。2. MaxCompute 包年包月Quota支持对单作业设置CU并发上限 查看文档 >>适用客户大数据开发用户发布功能通过设置单作业CU并发上限,可以避免MaxCompute包年包月Quota出现单作业长时间占用大量CU导致其他作业一直等待资源。设置前,需充分合理的评估需设置的并发量,避免出现并发小、作业少导致的作业慢且整个Quota又跑不满这类不合理配置。3. MaxCompute 包年包月支持独占Quota 查看文档 >>适用客户大数据开发用户;跑BI/ALGO等业务的用户发布功能通过MaxCompute包年包月独占Quota,即使CU空闲也不会被其他quota占用,强保障本Quota作业资源。适用于跑BI/ALGO等业务的quota因随时都可能使用quota,需防止计算资源被其他quota长时间占用不释放(当Quota的max值>min值时有可能会去占用其他空闲的Quota)。4. MaxCompute 支持在 DataWorks 公共表中查看外部数据源的元数据信息 查看文档 >>适用客户基于DataWorks、MaxCompute 以及集成外部 Hadoop、DLF/OSS 等外部数据源做联合数据开发、报表应用和交互式查询的数据开发工程师。发布功能支持在 DataWorks 公共表中查看外部数据源的元数据信息。6月精品活动与文章推荐2022阿里云大数据公开课第一季「云原生一体化数仓产品新能力解读 」 —[视频] 离线实时一体化新能力解读 >>—[视频] 分析服务一体化新能力解读 >>MaxCompute-UNION数据类型对齐的方法 >>模拟IDC spark读写MaxCompute实践 >>如何在MaxCompute上正确的做增量加工 >>DataWorks开发MaxCompute SQL在开发/生产环境自动补全ProjectName >>阿里云云原生一体化数仓 — 离线实时一体化新能力解读 >>阿里云云原生一体化数仓 — 分析服务一体化新能力解读 >>近期产品月刊回顾阿里云 MaxCompute 2022-4月5月刊合集 >>阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>阿里云 MaxCompute 2021-12 月刊 >>
2022年5月26日,中国国际大数据产业博览会上,阿里云“云原生一体化数仓”入选“十佳大数据案例”。该方案基于阿里云自研大数据产品MaxCompute、DataWorks、Hologres,旨在为企业提供一站式大数据处理平台。2022年的第一季公开课,我们就来一起了解“云原生一体化数仓”,了解该方案的核心能力和近期新能力。第一讲 《阿里云云原生一体化数仓 — 离线实时一体化新能力解读》直播回放 >>阅读文章 >>第二讲 《阿里云云原生一体化数仓 — 分析服务一体化新能力解读》直播回放 >>阅读文章 >>第三讲 《阿里云云原生一体化数仓 — 数据建模新能力解读》直播回放 >>阅读文章 >>第四讲 《阿里云云原生一体化数仓 — 数据治理新能力解读》直播回放 >>阅读文章 >> 第五讲 《阿里云云原生一体化数仓 — 湖仓一体新能力解读》直播回放 >>阅读文章 >> 第六讲 《阿里云云原生一体化数仓 — 数据安全能力解读》直播回放 >>阅读文章 >>
本刊为您带来 2022年4-5月 MaxCompute 产品最新动态。4-5月产品发布最新动态1. MaxCompute 按外表类型对外表计算独立计费 查看文档 >>适用客户适用利用MaxCompute做数据湖管理,湖仓一体架构以及利用外表访问外部数据源做联合计算的客户发布功能MaxCompute按外表类型进行独立计费,目前客户可以在自己的账单上清晰看到OSS外表和Tablestore外表分别产生的费用,方便用户查看不同数据源做数据联合计算产生的费用。2. MaxCompute 湖仓一体法兰克福region商业化发布 查看文档 >>适用客户有以下诉求的企业中的 CTO、数据平台架构师、大数据部门主管、数据开发人员等 1. 已经基于 Hadoop 集群搭建数据平台,同时对集群资源弹性有需求,希望利用 MaxCompute 的弹性与大规模机器学习能力,快速迭代创新业务 2. 企业有多个 Hadoop 集群,需要各个集群之间数据打通,利用 DataWorks / Dataphin 构建企业数据中台 3. 以阿里云 OSS 构建数据湖应用,希望借助云数仓实现数据统一分析和管理。发布功能MaxCompute 湖仓一体功能在法兰克福region商业化发布。好文推荐阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践 >>MaxCompute 公共云多租户设计的技术要点详解及产品实现特色 >>某智能终端厂商流量商业化项目的云原生大数据平台实践 >>数据仓库的分层架构与演进 >>大数据在线离线一体化解决方案最佳实践 >>近期产品月刊回顾阿里云 MaxCompute 2022-03 月刊 >>阿里云 MaxCompute 2022-1月2月刊合集 >>阿里云 MaxCompute 2021-12 月刊 >>
本文作者:王璀 / 夏俊伟简介: MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。什么是 MaxCompute?MaxCompute 是一款云原生、高效能的SaaS模式企业级数据仓库服务,被广泛用于构建现代化企业数据平台,开展BI分析、数据化运营、画像及推荐、智能预测等应用场景。MaxCompute 构建在阿里云大规模计算、存储资源之上,以Serverless架构提供全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,并最小化用户的运维投入。MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。MaxCompute 企业级安全能力· 细粒度授权、· 数据加密 (BYOK)· 数据脱敏(数据保护伞)· 持续备份恢复· 跨地域的容灾备份· 实时审计日志MaxCompute产品集成了众多数据安全能力,可分以下三个层面:基础安全与可信平台,保障数据中心的物理安全与网络安全,主要包括数据中心保障设施、数据中心安全管控、数据中心的网络安全等几个维度的建设。大数据平台的数据安全,主要从生命周期角度提供分类分级、传输加密、存储加密、备份回复、沙箱隔离、数据脱敏、细粒度权限、客户端限制等子系统,为上层安全应用或工具提供平台能力基础。数据应用的安全,为用户提供安全中心、数据保护伞、数据地图,优化用户体验,帮助用户更好应对各类数据风险。在大数据安全管理中,主要存在以下几点数据安全风险:数据滥用数据泄露数据丢失接下去重点介绍一下用MaxCompute的功能解决以上几点数据风险。如何应对数据滥用应对数据滥用,最主要的应对是对数据使用做最小化授权,严格限制数据的被访问、使用的范围。权限管理的最佳实践:• 数据分级管理:基于 MaxCompute 的 LabelSecurity 对数据做分类分级管理。• 授权审批流程:基于 MaxCompute 的 列级别权限管控能力,做最小化授权。• 定期审计:对权限的申请、审批、使用情况进行分析,做到事前有审批,事后有审计。• 及时清理:及时清理过期权限,减少数据风险。可以依托 MaxCompute 的细粒度权限体系,使用Dataworks 等可视化工具,来实现最小化授权的最佳实践,应对数据滥用的风险,目前公共云上所有用户已经启用数据访问控制权限系统。特别是银行等金融行业客户同时还启用了数据标签分类管理策略。MaxCompute 细粒度权限体系提供精细化的权限管理能力MaxCompute支持不同的授权机制来完成对用户或角色的授权,包括:• 自主访问控制机制 (DAC, Discretionary Access Control): ACL• 强制访问控制机制 (MAC, Mandatory Access Control):LabelSecurity(标签安全策略)• 基于角色的访问控制机制 (RBAC, Role based Access Control): 角色管理如何应对数据泄露数据泄露可能发生在数据生命周期的不同阶段,如数据传输、数据存储、数据处理、数据交换等阶段。因此,我们将结合数据生命周期的不同阶段来介绍应对数据泄露的最佳实践。1,应对数据存储过程中的数据泄露风险 - 使用数据加密(存储加密)功能MaxCompute 具有存储加密功能,支持用户数据的落盘加密:• MaxCompute接入秘钥管理系统KMS以保障秘钥的安全性,支持服务秘钥和用户自选秘钥(BYOK)。• 支持加密算法:AES256,国密算法等。• .数据加密后对用户使用保持透明,各种类型的任务不需额外改变。例如某全球最大多元化娱乐公司,在数据上云就启用了MaxCompute的存储加密,以及数据敏感数据自动扫描识别的功能模块。2.应对数据数据处理过程中的数据泄露风险 - MaxCompute 安全隔离能力在数据处理过程中,应对数据泄露的风险则主要在于大数据平台的安全隔离能力。MaxCompute 提供独立的隔离环境用于执行数据处理应用,可以支持完整的UDF种类,支持 Java和Python UDF, 还支持执行如Spark、Flink、Tensorflow 等开源三方计算引擎,提供了多元化的数据处理能力。3.应对数据交换(共享)过程中的数据泄露风险 - MaxCompute数据隔离与权限体系在数据交换、或者说数据共享过程中,则需要完善的数据隔离能力与权限管理体系来保障数据安全、防范数据泄露风险。MaxCompute 提供不同层级和维度上的数据隔离与权限管理机制,以支持多层次的数据保护和数据共享场景。4. 数据生命周期中的敏感数据保护应对数据泄露风险中的一个重要主题是敏感数据保护,前文所述在存储、处理、和交换过程中的风险应对实践,对敏感数据保护同样适用。 此外,还有一些针对敏感数据保护这一特定场景的最佳实践,特别是金融行业,国内银行,保险,证券基金等公司对数据安全防泄露要求特别高,同时随着法律法规的完善,很多互联网公司都在加强对隐私数据的保护。数据脱敏:基于安全行业的脱敏实现或应用,实现不同客户端数据输出时的敏感数据脱敏。脱敏实现也可以与数据分类分级结合使用,对不同分类分级的数据做不同的脱敏实现。例如国内最大主打互联网的保险公司,就是用到了MaxCompute的数据脱敏功能来防范他们的数据防泄露。如何应对数据丢失除了恶意的数据泄露、数据滥用等风险,数据开发过程中的各种误操作,偶发的设备或机房故障,甚或是罕见的灾害意外情况,都能造成数据丢失的后果。 应对数据丢失风险的最佳实践,主要有备份恢复,以及容灾能力。1. MaxCompute 备份与恢复MaxCompute 具有持续的备份与恢复能力,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。2. MaxCompute 异地容灾MaxCompute 的异地容灾能力,更好的提供了在机房故障或意外灾害等极端场景下的数据安全保障。在为 MaxCompute 项目指定备份位置到备份集群后,MaxCompute 自动实现主集群与备份集群的数据复制,达到主集群与被集群数据的一致,实现异地数据容灾。当发生故障,MaxCompute 项目从主集群切换到备份集群后,使用备份集群的计算资源访问备份集群的数据,完成服务的切换和恢复。小结作为云数据仓库MaxCompute具备领先的安全能力,也通过了国际、欧洲、国内的多项安全合规认证,如国际主流认证ISO系列、SOC1/2/3、PCI,欧洲主流认证C5,国内主流认证安全等级保护2.0。除了以上几点可以保护自己的数据安全,同时可以利用MaxCompute原生Information Schema能力对每个用户的数据处理加工过程进行审计;也可以使用ActionTrail的实时事件风险管理平台对每个用户的数据操作进行数据监控告警或者事后审计。数据安全不仅需要完善的工具能力,同时也需要完善组织架构来支持,做到数据标注管理,数据使用,数据审计等各个不同部门的人员通力配合,才能杜绝数据安全事件。更多 阿里云大数据产品 >>
本文作者:董国平 阿里云智能高级技术专家公共云大数据平台在多租户的设计和实现方式上有所差异。本文主要介绍在公共云大数据平台的多租实现方案中需要考虑的问题和挑战,重点介绍了MaxCompute在计算和存储多租实现上的特点。期望通过这些介绍来让大家了解大数据云平台多租方案需要关注的技术点和MaxCompute在多租实现上的产品特色。大数据平台多租户的常见形态多租的概念大家可能有不同的理解,这里做个简单的分类,方便沟通。第一种是租户独享一个数据库实例,支持基本的基于角色的访问控制,比如云上的传统数据库,通常就是这种模式。 在这种场景下从云平台的角度来看是支持多个租户的,但是每个租户购买的是独立的实例,在实例内部做角色划分,实例之间的数据是完全独立的。第二种形态是控制平面多租,比如元数据和权限管控是多租的,但是计算资源是相对独立的。大数据的场景因为需要支持复杂的计算,通常会将计算资源单独拿出来管理。第三种是更广泛意义上的多租,share everything。从管控、计算到存储使用的都是多租的资源,也可以称之为强多租。随着多租程度的提升,从用户的角度来看,系统的可扩展性越好,可以很方便的进行资源的扩缩容,但是云平台自身的系统复杂度更高。我们知道系统复杂度越高,往往会带来更多的稳定性问题;由于不同用户的作业运行在一起,安全性上的要求也越高,特别是在公共云的场景。今天的分享更多关注的是计算和存储的多租实现。关于管控方面,基于RBAC或者基于权限表的权限管理、行级列级权限也是大数据平台多租实现的一部分,但不是今天分享的重点。回到计算和存储的多租上,实现上会有不同的组合方式。单租计算和开放存储一种典型的形态是单租计算加开放存储的模式,比如AWS EMR和Databricks等。以上是Databricks的架构图,我们可以看到,管控平面是多租的,而不同用户的计算资源是单租的,存储则用的类似S3这样的开放存储。管控使用的是databricks的账号,而计算资源归属于用户自己的vpc。这种模式的优势在于,由于计算资源是单租的,所以可以支持复杂的UDF,而不用太考虑安全的问题。同时因为存储是开放的,可以很方便的将计算弹到其他云上,支持多云。面临的挑战在于资源的粒度是租户级别的,需要提前购买,弹性扩缩容完全依赖云平台的弹性。多租云存储的读写存在效率问题,计算与存储的物理位置相对较远,可能还要经过网关,有带宽的转发瓶颈,需要进行数据预取和缓存等;同时计算过程产生的中间数据因为性能的考虑,不能完全依赖云存储,需要考虑其他方式,比如内存或本地存储的方式。多租计算和内部存储像BigQuery和MaxCompute的实现比较类似,采用的是多租计算加内部存储的模式。计算和存储的资源都是多租的,计算和存储可以位于同一个机房内,物理位置比较接近。优势在于极致弹性,用户可以在不持有物理资源的情况下,运行大规模的任务,并且可以按照用户作业实际使用的资源收费。而内部存储的实现,计算和存储之间可以有大容量的带宽,可以充分利用底层存储特性来做优化。而这种模式的挑战在于UDF的支持。UDF是大数据场景经常会提供的一个功能,利用自定义函数的形式来支持复杂的计算。我们需要避免一个恶意用户的代码威胁到平台或者其他租户的安全。这方面BigQuery和MaxCompute有不同的实现,BigQuery在UDF的实现上相对比较克制,提供了js的UDF,但是对能力做了一些裁剪,而MaxCompute则借助安全容器来支持了完整的UDF能力,这块在后面有介绍。不过在云平台上来实现安全容器会有二次虚拟化的限制,所以我们需要裸金属或者物理机这样的资源形态。多租的优势和挑战多租的优势在于开箱即用,无需创建独立的资源池。可以实现秒级扩容,极致弹性。单租资源池依赖云主机的话,从资源的购买到软件环境的准备,可能要到分钟级别,而在多租的平台上可能只是一个配置的参数变更。计费上多租可以做到按照实际计算的开销付费,而单租资源池的收费是按照资源池的规格来收费,不去管到底有没有使用。当然云平台可以根据资源使用的水位来进行动态的扩缩容,不过在资源售卖的粒度上还是有本质的差异。在成本方面,多租资源池通过不同租户作业之间的削峰填谷,可以带来更高的资源利用率,而云平台将这部分让利给用户,可以带来成本上的优势。当然这里面也会带来了一些技术挑战,首先存储方面,云存储需要解决远程读写和中间文件存储的问题;而内部存储可以实现定制优化,但是存储的开放性是一个问题。在资源调度层面我们需要保证不同租户、不同类型的作业在平台上能够得到公平合理的调度,支持超大规模的计算节点;运行时上,针对UDF或者三方引擎的场景,需要实现运行时的隔离,保证租户之间不会出现数据的越权访问,或者单租户的恶意代码影响到平台和其他租户的安全;同时对于用户定制化的网络需求,也需要在租户层面实现打通,不能够做集群层面的打通。通过一张图来直观的看下单租和多租的差异,单租的资源池通过IAAS层的隔离来保障了多租户之间的安全,而多租则需要大数据平台自己来解决内部的安全问题。在这些挑战中,关于资源调度层主要关注的是大规模场景下的性能和可扩展性,而来自安全的挑战则是方案是否可行的关键。如果无法保障多租的安全,对云服务来说是不可接受的。MaxCompute多租实现MaxCompute是阿里云提供的用于大数据分析场景的、企业级的云数仓,提供的是全托管serverless的服务。而我们多租的实现是一个强多租的实现。我们支持了SQL、java 和python的UDF能力,支持基于机器学习平台PAI的算法组件实现对MaxCompute数据进行模型训练等操作,同时也支持开源spark的任务类型,而这些都是在统一的计算和存储资源上提供的。内部存储存储方面我们使用了飞天自研的存储引擎pangu,实现了基于capability的权限模型。在不直接对外开放访问的情况下,权限模型是可以简化的。由于是内部存储,我们可以实现分布式访问,避免中心化节点带来的性能瓶颈。同时对于作业运行过程中的临时数据,我们可以利用内部存储实现更好的local化和管理。资源管控一个多租的资源池离不开一个好的资源调度引擎。在资源管控的调度层面,我们实现一套高效可扩展的资源调度系统,在调度和资源管理的层面都提供了横向扩展的能力,可以支持大规模的计算节点;同时保证不同租户不同类型的任务在平台上能够得到相对公平的调度,做了完善的failover的处理。资源的形态上我们提供了预付费和后付费的资源形态,预付费资源能够得到更多的资源保障,后付费的用户则按照资源的需求规格和时间的先后顺序进行调度。在资源管控的主机层面,我们通过cgroup的机制实现了作业级别的资源管控,来保证一个作业的异常不会影响到其他作业。支持作业的不同启动方式,进程方式或者容器方式,也可以同时管理cpu或者gpu的资源形态。运行时隔离基于灵活性和扩展性的考虑,MaxCompute在SQL语言里面支持了用户自定义函数即UDF的能力,方便用户对计算行为进行扩展,同时也引入了三方引擎,比如spark的支持。这些对平台来说是不可信代码,可能触发非预期的系统破坏,或者就是有恶意用户进行攻击。我们通过轻量级的安全容器(虚拟化容器),实现了进程级别的隔离。也就是说将不可信代码运行在安全容器内部。考虑到MaxCompute的集群规模和大数据计算任务时间短的特点,对安全容器的稳定性和性能会有比较高的要求,我们也做了针对性的优化。首先在安全性上,我们对vm内核进行了裁剪,去掉了不必要的内核功能,减少攻击面,并提供必要的防护机。在网络上禁止了默认的外部网络访问。虽然我们是一个离线数据计算平台,用户对时延没有那么敏感,但是对整个链路上的优化也是我们一直努力的方向,所以对安全容器的启动速度做了很多优化。虚拟化的实现会有额外的资源占用,技术上需要降低vm的资源使用量,提高单机的计算密度,进而能够运行更多的任务。而计算数据的读写,则需要在安全容器内外建立高效的数据通道。网络通信我们有了隔离的安全容器之后,针对类似spark的任务,节点之间需要互相通信,比如spark的driver和worker之间需要进行任务的分发和状态的监控之类。基于安全的考虑,这些通信无法构建在主机网络之上,所以我们基于安全容器构造了vxlan的虚拟网络。让同一个任务的所有节点运行在同一个虚拟网络中,虚拟网络中的节点通过私网IP进行通信,无法访问主机网络。而对于用户定制化的外部网络需求,比如访问公网上的一个接口或者vpc内部的其他数据服务,我们也做了任务级别的打通。用户在作业启动时声明需要访问的网络目标,在必要的权限检查后,在作业维度上实现网络的打通。同样因为任务频繁启停和规模的问题,虚拟网络的构建和通信也会面临比较大的压力。我们知道云上vpc的创建通常也是基于vxlan的技术,但是vpc的创建是相对固定的,一个用户通常只有一个vpc,购买主机则是往vpc中添加节点,操作相对低频。而我们需要面对一个任务创建一个vpc,并且在短时间内拉起任务内的成百上千个节点,对性能上会有比较大的挑战。通过以上的技术,我们在单一的资源池上实现了强多租,让更多的业务形态成为可能。基于以上安全容器和虚拟网络的隔离,我们在一个多租的集群上提供了强大的UDF的实现。相对于其他平台提供的UDF,我们在UDF的能力上限制更少,允许访问本地IO和网络的功能,能够访问用户vpc内部的数据。比如湖仓一体的场景中,我们可以通过创建networklink的方式打通对用户vpc的网络访问,在创建外部数据源的时候关联networklink后,就可以在MaxCompute内部通过SQL访问外部数据,目前这些在MaxCompute的平台上都已经做了产品化的实现。而任务级别的隔离,使得我们可以在单个集群内提供混合的计算形态,除了SQL和UDF的实现外,我们还支持了内部的PAI机器学习平台和开源的spark引擎等。多租的思考和演进多租的设计上,面向不同的业务场景、产品形态和基础设施时,会有不同的实现。回到设计的初衷,我们为什么要在统一的计算存储的资源上实现强多租?MaxCompute是一个内部孵化的产品,目前集团内部99%以上的离线数据都运行在Maxcompute的平台上。在业务形态上,我们期望兼容hive的udf生态和支持开源生态,而源于集团内部对于数据安全的要求,所以一早我们就是多租安全的实现。在面向公有云服务时,我们又期望在资源粒度、弹性和成本上为客户提供优势,促使我们最终坚持了强多租的形态。而在未来的演进方向上,前面也说到我们使用的内部存储,我们期望在存储层面面对计算的场景进一步提升我们的开放性。多租的场景下,某个大客户临时突发的大规模资源消耗对平台来说相对是不友好的,可能会导致其他用户的作业产生排队,所以在面对这样的客户时提供单租的计算形态也是一个选择。而开放存储和单租计算将为后续多云形态提供支撑,方便用户有更多的选择,用不同的组合去满足用户个性化的需求。
本文作者:仲向远、欧阳楚才客户从事以手机为核心的智能终端的设计、研发、生产、销售和品牌运营,致力于成为新兴市场消费者喜爱的智能终端产品和移动互联服务提供商。智能终端产品在全球新兴市场有广泛的覆盖和用户基础,通过与国内互联网公司合作推出了众多移动互联网业务,成为全球增长最快的移动媒体渠道。项目背景随着流量获取,移动互联网业务成为集团三大战略之一,启动流量商业化项目,包括类似阿里妈妈的流量联盟、帮助广告主更好买量的数字化营销平台以及用户体系等,其中广告检索和广告大数据平台成为支撑整个流量商业化项目的技术基础。广告检索平台的业务场景包括:1)将海量广告从广告库中实时同步到检索系统,构建正排索引和倒排索引;2)承接C端的高并发请求,经过召回层和检索层做多级筛选和排序,从海量广告库中筛选出几百个广告返回给前端,实时性要求高。广告大数据平台需要聚合各种异构数据源,完成离线和实时数据分析和统计,产出业务报表,生产模型特征等,其中业务报表是是核心业务,它是广告主、平台运营人员进行投放优化、业务决策的依据。广告检索和广告大数据平台面临的技术挑战主要有:1、高并发:广告引擎和C端流量对接,请求量大,2022年峰值超过6万QPS。2、实时性:广告检索结果实时响应(P99 100ms内)、广告索引实时同步和更新(秒级)。3、业务逻辑复杂:一次广告请求,涉及到多路召回、算法模型打分、竞价排序等复杂的业务流程,策略多,执行链路长。4、稳定性要求高:广告系统直接跟收入挂钩,广告引擎及计费平台等核心系统稳定性要求很高,可用性至少要做到3个9。5、大数据存储和计算:随业务发展,推广数量以及扣费订单数量很容易达到千万甚至上亿规模,另外收入报表的分析维度多,单报表可能达到百亿级别的记录数。技术选型面临上述快速变化的业务需求和技术挑战,客户摒弃基于开源组件从零开始构建的技术架构方案,期望通过云原生架构,满足整个架构的硬需求和软需求,以便将更多的精力和时间用在业务思考和数据赋能的应用上。硬需求:检索引擎、离线计算引擎,实时计算引擎,OLAP分析引擎,KV存储,实时数据集成工具,分布式存储系统。软需求:高并发高可用,实时性强、灵活易扩展、易于运维管理和全链路数仓构建。通过一个月时间的调研和POC,客户主要从以下4个因素进行考量后,决定选择阿里云云原生大数据平台方案:阿里云ElasticSearch提供高性能硬件、广告场景配置模板、优化的内核、负载均衡、多可用区部署等高性能和高可用能力,支持大规模、低时延的广告召回。灵活的数据集成和OSS数据湖集成能力:数据主要来自于RDS业务数据、Kafka实时用户行为数据,以及第三方云服务商对象存储中的历史用户行为数据。阿里云DataWorks提供灵活、可视化的数据集成能力,方便从业务数据到广告检索和大数据平台的离线和实时数据同步;阿里云MaxCompute提供湖仓一体能力,可以方便地处理OSS上来自于第三方云服务商的半结构化数据。阿里云云原生大数据平台离线实时一体化、分析服务一体化能力可以极大地简化大数据平台的架构。在海外region有较完备的产品服务能力。以下是各个组件的定位:检索分析服务 Elasticsearch版:广告倒排索引、广告召回DataWorks:数据的集成、开发、运维、服务等的一站式管理平台MaxCompute:离线分布式计算引擎Hologres:实时写入能力强、查询性能快、支持在线OLAP、KV点查、实时读写实时计算Flink版:高性能实时计算系统实现架构整体架构技术选型确定之后,开始建设广告检索和大数据平台数据中台,以下为架构图:广告检索平台架构广告检索平台使用Elasticsearch+Flink+RDS+Kubernetes构建,架构图如下所示:架构的各组件说明:数据接入广告数据源为RDS MySQL关系型数据库,通过Flink实时捕获变更数据,并同步到Elasticsearch。Flink CDC 基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。广告召回为了支持高并发、低延时、高可用的查询服务,使用Elasticsearch作为召回引擎,多路召回广告信息。Elasticsearch中索引分片数按照单个分片30GB左右规划,将索引主分片设为1,副本数设为节点数-1,通过扩展节点数可以弹性提升查询性能。不需要支持范围查询的数值字段,把integer类型字段改为keyword类型,提升查询速度。在业务低峰期,使用_forcemerge API来对分段执行合并操作,每个分片中最大允许一个分段。为了避免JVM垃圾回收对查询延迟时间的影响,堆内存超过16GB的场景下,使用垃圾回收器G1替代CMS。为了避免高并发查询请求导致带宽打满,应用程序本地缓存搜索结果,配置缓存1分钟后过期。系统上线前,通过全链路压测,验证需要的Elasticsearch服务、应用程序Kubernetes容器节点和规格。Elasticsearch数据节点规格16核32G内存、100GB ESSD云盘,总共配置28个数据节点,并配置3个专有主节点。Elasticsearch查询性能监控广告大数据平台架构广告大数据平台使用 MaxCompute+DataWorks+Flink+Hologres构建,架构图如下所示:架构的各组件说明:1)数据源:广告日志:来自App、Web、服务端等端的广告展点消日志;业务数据库:存储业务数据的关系型数据库,主要是RDS。2)云Kafka消息中间件提供广告日志、系统日志、用户行为日志、RDS CDC数据的消息汇聚;提供计费明细数据的消息汇聚。3)数据接入通过DataWorks从Kafka中实时消费广告日志数据,并实时写入MaxCompute;业务数据通过DataWork从RDS离线周期性同步到MaxCompute;第三方云服务商大数据系统中的历史数据通过OSS同步工具从S3同步到OSS,MaxCompute通过OSS外表直接访问。4)离线数据处理离线数据处理基于MaxCompute搭建,用于计算全量数据,数据源来自于DataWorks的实时和离线导入。离线数据经过离线数仓计算(ODS层->明细层→汇总层),导入Hologres作为存量数据,一部分离线的DWD/DWS数据也导入Hologres作为维表的存量数据。数仓模型采用分层设计,主要分为ODS层、明细层和汇总层:ODS层:对应各种源数据,包括MaxCompute中存储的实时导入的广告日志,增量或者全量同步的MySQL业务数据表。明细层:包含维度表和事实表,通常是对源数据进行清洗后的数据宽表,比如行为日志表、推广宽表、用户宽表等。汇总层:对数据进行轻粒度的汇总表,比如广告效果表、用户行为的全链路表、用户群分析表等。5)实时数据处理实时数据处理基于Flink搭建,用于实时广告日志数据的预处理和ETL,数据源来自于Kafka和RDS CDC,经实时处理后写入实时数仓Hologres和计费Kafka,供对外提供数据服务和下游计费系统的处理。6)数据服务由于应用层报表部分面临聚合维度多、单表达百亿级行数、需要支持低延迟的查询等挑战,选择了Hologres作为交互式分析引擎, 聚合维度多, 需要分时、分广告位、分推广等几十个维度; 单表最大达到百亿级别;支持时间范围的实时查询。另外为了提供统一、安全的数据服务,使用DataWorks数据服务能力,构建统一的数据服务API目录,并提供服务授权和计量管控。7)数据数据应用上层应用场景直接使用的数据表,包括多维分析生成各种收入报表、MaxCompute任务产出的算法模型特征和画像数据等。业务价值在确定平台方案和架构后,经过短短3个月时间,客户从0到1完成广告大数据平台的建设,并支持广告项目在海外多地的全面推广和落地,在技术和业务方面的带来的价值如下:为广告业务提供了高QPS、低延迟、高可用的企业级广告召回引擎,支撑业务快速从0到1增长,2022年QPS超过6万。为运营人员提供了分钟级/秒级的实时看板服务和实时报表,可以及时了解到广告收入和效果;为广告推荐算法提供了秒级的实时用户行为反馈,从而可以让广告召回系统及时根据用户反馈调整召回策略,从而提高广告投放效率。开发效率大为提高,开发人员从原来的作坊式开发,切换到DataWorks一站式、向导式的开发模式,数据集成零代码,数据开发SQL化,任务调度配置化,运维监控可视化,开发效率提高了2-3倍,学习的梯度也降低了很多。运维成本和复杂度下降,之前需要维护Hive、Spark、HBase, 、Druid等异构系统,采用阿里云云原生离线实时一体化、分析服务一体化的大数据产品,极大地简化了平台架构,同时全托管服务免运维。未来期望客户在使用阿里云云原生大数据产品构建了大数据平台后,在后续的使用过程中也提出了更多的要求:国际化能力的支持客户业务范围覆盖多个国家,目前使用DataWorks做任务调度,只能按照固定时区时间进行调度,无法灵活配置按本地时区或某基准时区时间进行调度,导致任务开发不方便,需要较大的代价做时区适配,严重时甚至影响任务产出。极致高性能高可用的广告检索引擎随着业务的发展,客户对广告检索引擎的高性能达到极致的要求(满足峰值近10万QPS P99响应时间20ms内),检索引擎的性能优化之路永无止境;广告检索引擎直接对接客户业务,除了多AZ部署方面等硬能力之外,客户更关注的是故障演练规范、故障切换的最佳实践等这些软能力,这块期望阿里云能够有更多的支持。了解更多阿里云大数据方案与产品信息 >>
本刊为您带来 2022年3月 MaxCompute 产品最新动态。3月产品发布最新动态1. MaxCompute 兼容开源 Spark 的计算服务全新支持 3.1 版本 查看文档 >>适用客户适用于需要在统一的计算资源和数据集权限体系之上,提供Spark计算框架,用来支持用熟悉的开发方式提交运行Spark作业,满足更丰富的数据处理分析需求的客户。发布功能MaxCompute 全新支持Spark 3.1 版本。2. MaxCompute 支持压缩TEXTFILE 格式文件的 Skip header/ footer 查看文档 >>适用客户需要利用MaxCompute OSS外表、数据湖构建(DLF + OSS)方式对压缩格式TEXTFILE 文件做 Skip header/ footer 操作的客户。发布功能MaxCompute支持 Gzip, bzip2, LZO压缩 TEXTFILE 格式文件的 Skip header/ footer。3. MaxCompute 增强物化视图自动改写能力 查看文档 >>适用客户适用数据分析师,数据开发工程师等数据加工和管理人员。发布功能用户用带有left outer join,right outer join,full outer join,union或者union all的语句去查询数据时,只要对应的源表已经建立了物化视图,系统会自动将查询源表改成去查询物化视图,以提高数据计算速度,节省查询时间,提升用户体验。4. MaxCompute增强TRIM/LTRIM/RTRIM函数能力 查看文档 >>适用客户适用数据分析师,数据研发工程师等数据加工和管理人员。发布功能MaxCompute增强TRIM,LTRIM和RTRIM函数能力,在原来可以去除左边、右边或者两端的空格的基础功能上,增加可以去除指定字符的能力,更加方便用户处理字符串,同时兼容hive对应函数的语法。近三个月产品月刊回顾阿里云 MaxCompute 2022-1月2月刊合集 >>阿里云 MaxCompute 2021-12 月刊 >>
本刊为您带来 2022年1月和2月 MaxCompute 产品最新动态。导读1、2月产品发布最新动态1、2月精选文章推荐1、2月产品发布最新动态1. MaxCompute支持表结构变更邀测版本发布 查看文档 >>适用客户适用于因业务变更导致MaxCompute中的表结构需要发生变化的客户,特别是需要经常增加、删除字段以及对字段在表中的位置有要求的客户。发布功能MaxCompute支持表结构变更功能,包括表新增struct类型字段,表删除现有字段以及表字段顺序变更三种功能,可以满足客户因业务变更导致数据计算逻辑或存储内容发生变更的场景。目前三个功能在邀测阶段,您可通过提交工单来申请试用。2. MaxCompute 湖仓一体功能在新加坡区域商业化发布 查看文档 >>MaxCompute 湖仓一体方案融合数据湖的灵活性、生态丰富性与数据仓库的企业级能力,构建数据湖和数据仓库融合的数据管理平台。适用客户有以下诉求的企业中的 CTO、数据平台架构师、大数据部门主管、数据开发人员等已经基于 Hadoop 集群搭建数据平台,同时对集群资源弹性有需求,希望利用 MaxCompute 的弹性与大规模机器学习能力,快速迭代创新业务 企业有多个 Hadoop 集群,需要各个集群之间数据打通,利用 DataWorks / Dataphin 构建企业数据中台 以阿里云 OSS 构建数据湖应用,希望借助云数仓实现数据统一分析和管理发布功能MaxCompute 湖仓一体方案通过数据仓库 MaxCompute、数据湖(对象存储 OSS 或 Hadoop HDFS)共同实现。本次发布两种构建湖仓一体的方式: 与阿里云 OSS + DLF 构建湖仓一体能力:通过 MaxCompute 和 OSS 实现。该方式需要配套使用阿里云产品数据湖构建 DLF(Data Lake Formation)。数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对湖数据的元数据管理能力,提升对OSS半结构化格式(AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。 与 Hadoop HDFS 构建湖仓一体能力:通过MaxCompute和Hadoop HDFS(包括本地机房搭建、基于云上虚拟机搭建以及阿里云 E-MapReduce等)实现。支持向导式开通MaxCompute到VPC中Hadoop Hive 和数据湖构建DLF + OSS 的连接3. MaxCompute 管控台支持外部数据源管理 查看文档 >>适用客户希望通过 MaxCompute 打通位于 VPC 网络中的基于 Hadoop 集群搭建数据平台,利用 MaxCompute 的弹性与大规模机器学习能力。发布功能MaxCompute 支持通过创建外部数据源对象连接 Hadoop 集群,打通 MaxCompute 与 Hadoop 数据平台。在 MaxCompute 管控台中,针对外部数据源进行创建、测试连通性、删除等管理操作。4. MaxCompute Hadoop/DLF+OSS 外部项目元数据在DataWorks数据地图透出 查看文档 >>适用客户希望利用 DataWorks 数据地图功能对 MaxCompute 项目、外部项目做统一数据资产视图的客户。发布功能MaxCompute Hadoop/DLF+OSS 外部项目元数据在DataWorks数据地图透出。5. MaxCompute Logview新增数据安全管理功能 查看文档 >>适用客户使用MaxCompute的开发者和管理者发布功能通过MaxCompute 项目级别参数“odps.forbid.fetch.result.by.bearertoken”,可以控制是否禁止Logview的Result页签显示作业运行结果,True则禁止显示作业运行结果,False则允许显示作业运行结果。该参数主要用于进一步增强数据安全防护。6.云原生一体化数仓重磅发布 云原生一体化数仓是集阿里云大数据产品MaxCompute、DataWorks、Hologres三种产品能力于一体的一站式大数据处理平台。通过离线实时一体、分析服务一体、湖仓一体和数据综合治理架构实现成本更低、速度更快、性能更好、运维更简单。观看发布会 >>了解详情 >>1、2月精选文章推荐一文读懂云原生一体化数仓 >>云原生离线实时一体化数仓建设与实践 >>MaxCompute湖仓一体介绍 >>独家下载《阿里云MaxCompute百问百答》 解锁SaaS模式云数据仓库 >>
本刊为您带来 12月 MaxCompute 产品最新动态。导读12月产品发布最新动态12月精选文章推荐12月产品发布最新动态1. MaxCompute 物化视图功能增强 查看文档 >>适用客户使用MaxCompute物化视图功能的用户,特别对物化视图有分区和聚簇功能需求的客户。发布功能MaxCompute物化视图支持创建分区和聚簇,在查询物化视图时如果发现有分区数据不存在物化视图中时,可以设置系统自动穿透去查询源表,并返回源表和物化视图的汇总数据。2. MaxCompute 支持渐进式计算 查看文档 >>适用客户适用于需要周期性计算一段时间内数据统计或数据分析的客户,特别是需要计算最近几天或最近几个小时统计数据的客户。发布功能MaxCompute支持渐进式计算,在处理数据过程中按照一定的时间粒度自动按时间分区保存处理过程中的中间结果数据,在下一个周期执行时可以重复使用上个周期已经计算好的重叠时间部分的数据,从而降低计算资源消耗和节省执行调度时间,为客户节省费用的同时提高作业的运行效率。12月精选文章推荐独家下载|《阿里云MaxCompute百问百答》 解锁SaaS模式云数据仓库尽在本电子手册!Oracle数据到MaxCompute乱码问题详解Snowflake vs Redshift RA3 产品对比阿里云MaxCompute为坚韧性系统 — 中国信通院完成首个面向大数据技术产品的混沌测试
2021年10月,中国信息通信研究院(以下简称“中国信通院”)对阿里云MaxCompute大数据平台进行了为期7天的新型稳定性测试。阿里云MaxCompute大数据平台在13轮不同程度的破坏性测试中,性能水平并未明显下降,被证明为韧性型系统。这是业内首个由第三方测试机构利用混沌工程测试方法论,对大数据产品进行新型稳定性测试的案例。 阿里云MaxCompute 是阿里巴巴自主研发的海量数据处理平台和数仓解决方案,主要提供存储、计算、大数据资源管理能力,提供SQL、Spark、Python等多种计算和分析服务,同时提供完善的安全解决方案,用于管理数据,提升数据价值。 大数据技术利用分布式架构解决了数据处理、数据分析场景中数据量大、计算逻辑复杂、计算效率要求高的问题,同时大数据产品的功能、易用性、安全性等企业级能力也在方方面面支撑着业务的高速发展,但随着分布式集群节点规模逐渐增大、网络结构越来越复杂,数据和业务越来越重要,随之而来的故障风险和问题影响也越来越大。随着 2021 年《关键信息基础设施安全保护条例》出台,稳定性已成为各领域客户在功能、性能之外,对大数据技术产品能力评价的重要指标。本次稳定性测试通过注入负载或故障,模拟CPU、内存、磁盘空间、磁盘读写高负载,网络抖动、丢包、包损坏、单节点线程故障,并设置不同强度综合测试及故障恢复验证测试,根据多个贴近生产故障的验证用例,比较故障前后功能和性能的差异,来证明大数据系统的稳定性,具备科学性和实用性。 MaxCompute 历经多年双十一锤炼,可以承载超大规模负载压力,并稳定地提供计算功能和性能。诸如多副本的数据可靠性,多租户资源隔离和调度能力,DAG2.0 动态执行图故障转移能力,保证了MaxCompute 顺利通过稳定性测试。此外,阿里云多款大数据产品近期通过信通院多项评测。其中,大数据开发治理平台DataWorks通过数据开发平台基础能力专项评测、数据分类分级工具基础专项能力评测;实时数仓 Hologres通过了分布式分析型数据库性能专项评测,实时计算Flink版通过了分布式流处理平台稳定性专项评测。阿里云大数据产品不仅具备敏捷业务、简单易用、全托管的优势,同时兼具开箱即用、企业级安全、随意弹性、开放兼容的特点,帮助企业释放数据价值、保障数据安全、激活数据生产力。
本刊为您带来 11月 MaxCompute 产品最新动态。导读11月产品发布最新动态11月精选文章推荐11月产品发布最新动态1. MaxCompute 支持清空分区表中指定分区的数据 查看文档 >>适用客户需要清空某一个或多个指定分区中的数据而不删除分区场景的数据分析师,数据开发人员以及相关数据管理人员。发布功能MaxCompute 支持用户手动清空分区表中指定的一个或者多个分区的数据,但不会删除分区表或者分区表的分区元数据信息。同时 MaxCompute 可以支持用过滤条件来筛选需要清空数据的分区。 2. MaxCompute 专有网络连接管理产品化发布 查看文档 >>适用客户大数据开发者发布功能MaxCompute支持通过外部表、UDF及湖仓一体等功能访问VPC网络,需要先开通MaxCompute和目标IP或服务,例如Hbase、RDS、Hadoop集群等连通目标的网络连接。前期开通MaxCompute专有网络连接,需要通过工单或者页面表单进行申请添加,专有网络连接管理产品化发布后,您可以通过MaxCompute控制台的“网络资源”功能界面自行增加/删除专有网络连接,无需通过工单/表单申请,提升开发效率。在配置前,您需先了解“网络资源”管理相关的管理权限,有权限的账号方可进行操作。 3. MaxCompute 集成网易有数BI工具(商业化)发布 查看文档 >>适用客户适用于有大数据企业级BI分析,已经使用或者即将使用 MaxCompute 和网易有数BI产品的各行业客户发布功能MaxCompute 集成网易有数BI, 支持网易有数BI对MaxCompute直连场景下的BI分析,同时支持可视化配置数据缓存时长,对数据进行缓存,以提高数据查询分析速度,降低时延,提升用户体验。电子书免费下载《SaaS模式云原生数据仓库应用场景实践》— 激活数据生产力,让分析产生价值!
本刊为您带来 10月 MaxCompute 产品最新动态。导读10月产品发布最新动态10月精选文章推荐10月产品发布最新动态1、MaxCompute集成观远数据(GuanData)BI工具(商业化)发布 查案文档 >>适用客户有大数据企业级BI分析,AI智能决策场景需求,已经使用或者即将使用MaxCompute和GuanData产品的各行业客户。发布功能MaxCompute集成GuanData, 支持GuanData对MaxCompute直连场景下BI分析的查询加速以及抽取数据场景下对MaxCompute全表数据进行读取。2、MCQA(MaxCompute Query Acceleration)查询缓存机制商业化发布 查案文档 >>适用客户BI工程师/数据分析师:对一份数据进行反复交互式探索查询加速的结果缓存业务系统/数据分析师:快速超大规模历史明细数据访问,查询加速的结果缓存数据开发工程师:查询验证和函数调试查询加速的结果缓存发布功能对于每个MCQA查询作业,MaxCompute会在内部创建临时数据集来缓存查询结果。使用相同查询的时候会优先使用缓存的结果。缓存结果按每个查询进行维护,使用缓存结果不会产生任何存储及计算费用。因此可在加快执行速度的同时降低了使用费用。3、MaxCompute外表支持Hbase增强版和云原生多模数据库 Lindorm HBase外部表文档 >> Lindorm外部表文档 >>适用客户数据开发人员,数据分析师,使用MaxCompute与Hbase增强版或 Lindorm 通过外表方式交互数据的用户,做联邦查询的用户以及构建湖仓一体方案的用户。发布功能云数据库HBase增强版,是由云原生多模数据库Lindorm的宽表引擎提供的、完全兼容HBase的云上托管数据库。云原生多模数据库Lindorm是面向物联网、互联网、车联网等设计和优化的,支持宽表、时序、文本、对象、流、空间等多种数据的统一访问和处理的云原生多模超融合数据库。 在很多应用场景中需要把Hbase增强版或者Lindorm的数据导入MaxCompute做数据加工、数据分析和联邦查询,同时MaxCompute中的数据也需要写入Hbase增强版或lindorm中。现在可以在MaxCompute中建立Hbase增强版或者Linorm的外表,对Hbase增强版或者Lindorm中的数据进行读写操作。10月精选文章推荐电子书免费下载《SaaS模式云原生数据仓库应用场景实践》— 激活数据生产力,让分析产生价值!最佳实践RedShift到MaxCompute迁移实践指导新氧云原生全栈数仓最佳实践数字营销行业大数据平台云原生升级实战“万里牛”实时数仓的演进之路阿里云大数据平台 -时序数据集成架构与存储规划
本期月刊将为您带来 MaxCompute 9月产品最新动态。导读9月产品发布最新动态9月技术直播回顾9月产品发布最新动态1、MaxCompute 产品在华南1金融云(深圳)正式开服 申请金融云认证>>开放区域MaxCompute新增开通华南1金融云(深圳)区域,经过金融云认证的账号可以在产品售卖页按需开通。2、MaxCompute 支持读取 OSS 上 Hudi、Delta Lake 格式文件 查案文档 >>适用客户基于OSS 构建实时数据湖的客户,可以通过 MaxCompute 查询到实时数据,即时洞察业务数据变化。发布功能Delta Lake 和 Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute 基于阿里云 DLF、OSS产品提供了支持 Delta 或 Hudi 存储机制的湖仓一体架构。您可以通过 MaxCompute 查询到实时数据,即时洞察业务数据变化。3、MaxCompute 支持访问开启 Kerberos 认证授权机制的 Hadoop 集群 适用客户已经基于 Hadoop、阿里云 EMR 集群搭建数据平台,并开启 Kerberos 认证授权机制的客户;对集群资源弹性有需求,希望利用 MaxCompute 的弹性与大规模机器学习能力,快速迭代创新业务的客户;企业有多个 Hadoop 集群,需要各个集群之间数据打通,利用 DataWorks 构建企业数据中台的客户。发布功能大部分企业的 Hadoop 的生产集群开启了 Kerberos 认证授权机制,本次功能升级能够利用 MaxCompute 访问开启 Kerberos 认证授权机制的 Hadoop 集群,极大的扩展了湖仓一体对接 Hadoop 的适用范围。9月技术直播回顾「 第一讲 」基于MaxCompute的智能推荐解决方案 直播回放 >> 阅读文字版 >>「 第二讲 」基于MaxComput+开放搜索的电商、零售行业搜索开发实践 直播回放 >> 阅读文字版 >>「 第三讲 」基于MaxCompute+PAI的用户增长方案实践 直播回放 >> 阅读文字版 >>「 第四讲 」基于MaxCompute的实时数据处理实践 直播回放 >> 阅读文字版 >>「 第五讲 」基于MaxCompute分布式Python能力的大规模数据科学分析 直播回放 >> 阅读文字版 >>「 第六讲 」基于MaxCompute +Hologres 的人群圈选和数据服务实践 直播回放 >> 阅读文字版 >>「 第七讲 」基于 MaxCompute SQL 的半结构化数据处理实践 直播回放 >> 阅读文字版 >>「 第八讲 」基于Delta lake、Hudi格式的湖仓一体方案 直播回放 >> 阅读文字版 >>
「 第一讲 」基于MaxCompute的智能推荐解决方案 分享人:染天 直播时间:2021年8月6日 17:00-17:30回放视频 >>阅读文字版 >>「 第二讲 」基于MaxCompute+开放搜索的电商、零售行业搜索开发实践 分享人:布科直播时间:2021年8月18日 17:00-17:30回放视频 >>阅读文字版 >>「 第三讲 」基于MaxCompute+PAI的用户增长方案实践 分享人:傲海直播时间:2021年8月25日 17:00-17:30回放视频 >>阅读文字版 >>「 第四讲 」基于MaxCompute的实时数据处理实践 分享人:其楚直播时间:2021年9月1日 17:00-17:30回放视频 >>阅读文字版 >>「 第五讲 」基于MaxCompute分布式Python能力的大规模数据科学分析 分享人:孟硕直播时间:2021年9月8日 17:00-17:30回放视频 >>阅读文字版 >>「 第六讲 」基于MaxCompute +Hologres 的人群圈选和数据服务实践 分享人:合一直播时间:2021年9月15日 17:00-17:30回放视频 >>阅读文字版 >>「 第七讲 」基于 MaxCompute SQL 的半结构化数据处理实践 分享人:炼一直播时间:2021年9月22日 17:00-17:30回放视频 >>阅读文字版 >>「 第八讲 」基于Delta lake、Hudi格式的湖仓一体方案 分享人:孟硕直播时间:2021年9月24日 17:00-17:30回放视频 >>阅读文字版 >>
本期月刊将为您带来 MaxCompute 8月产品最新动态。导读8月产品发布最新动态8月技术直播回顾9月技术直播预告8月产品发布最新动态1、MaxCompute SQL 支持物化视图 查案文档 >>适用客户开发者、分析师、可以通过空间换时间的预计算方式提升查询效率的用户。发布功能MaxCompute SQL推出物化视图(Materialized View)功能。物化视图本质是一种预计算,即把某些耗时的操作(例如JOIN、AGGREGATE)的结果保存下来,以便在查询时直接复用,从而避免这些耗时的操作,最终达到加速查询的目的。物化视图适用于如下场景:模式固定、且执行频次高的查询。查询包含非常耗时的操作,比如聚合、连接操作等。创建了物化视图后,执行查询操作时,MaxCompute SQL查询改写能力会自动匹配到最优物化视图,并直接从物化视图中读取数据,从而大大提高查询效率,您不需要修改已有查询,例如改为从物化视图查询数据。当前物化视图只支持手工更新或DataWorks调度更新,后续会进一步提供周期、自动更新,增量更新,外表支持等能力。2、MaxCompute流式数据通道服务功能商业化发布 查案文档 >>适用客户有流计算Blink、数据通道DataHub、数据传输服务DTS、消息服务kafka、实时数据同步等场景的企业、机构。发布功能MaxCompute流式数据通道服务,支持API及插件方式实现流式数据无感知高QPS写入MaxCompute。MaxCompute流式数据通道服务提供流式语义API支持,简化分布式服务开发操作。 支持分布式服务并发创建分区, 支持数据异步zorder by排序功能。3、MaxCompute SQL UPDATE、DELETE和MERGE INTO功能商业化发布 查案文档 >>自2021年8月10日起,中国公共云MaxCompute SQL UPDATE、DELETE和MERGE INTO功能商业化。产品介绍自2021年8月10日起,MaxCompute SQL的UPDATE、DELETE和MERGE INTO功能结束免费公测,开始正式计费。已经使用UPDATE、DELETE和MERGE INTO功能的按量计费作业,届时会产生计算费用。如果您之前因为担心公测稳定性问题而暂未使用UPDATE、DELETE和MERGE INTO功能,届时可以放心使用。MaxCompute为UPDATE、DELETE和MERGE INTO功能的相关可用性、稳定性等提供与MaxCompute SQL能力同等的保障。价格调整内容公测期间按量计费模式中包含UPDATE、DELETE和MERGE INTO关键字的SQL语句不计费。商业化后SQL作业计费规则如下:如果MaxCompute项目的计费模式为包年包月,SQL计算费用不单独收费。如果MaxCompute项目的计费模式为按量计费,SQL计算费用计算规则调整为:单条SQL计算费用=计算输入数据量×SQL复杂度×单价(0.3元/GB)。其中:SQL复杂度通过SQL关键字个数折算。SQL关键字个数=JOIN个数+GROUP BY个数+ORDER BY个数+DISTINCT个数+窗口函数个数+MAX(INSERT个数|UPDATE个数|DELETE个数-1, 1)。4、MaxCompute 支持读取 OSS 上 Hudi、Delta Lake 格式文件 查案文档 >>适用客户基于OSS 构建实时数据湖的客户,可以通过 MaxCompute 查询到实时数据,即时洞察业务数据变化。发布功能Delta Lake 和 Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute 基于阿里云 DLF、OSS产品提供了支持 Delta 或 Hudi 存储机制的湖仓一体架构。您可以通过 MaxCompute 查询到实时数据,即时洞察业务数据变化。5、MaxCompute 支持访问开启 Kerberos 认证授权机制的 Hadoop 集群 适用客户已经基于 Hadoop、阿里云 EMR 集群搭建数据平台,并开启 Kerberos 认证授权机制的客户;对集群资源弹性有需求,希望利用 MaxCompute 的弹性与大规模机器学习能力,快速迭代创新业务的客户;企业有多个 Hadoop 集群,需要各个集群之间数据打通,利用 DataWorks 构建企业数据中台的客户。发布功能大部分企业的 Hadoop 的生产集群开启了 Kerberos 认证授权机制,本次功能升级能够利用 MaxCompute 访问开启 Kerberos 认证授权机制的 Hadoop 集群,极大的扩展了湖仓一体对接 Hadoop 的适用范围。8月技术直播回顾2021阿里巴巴大数据技术公开课第二季 — SaaS模式云数据仓库MaxCompute应用场景实践「 第一讲 」基于MaxCompute的智能推荐解决方案 直播回放 >> 阅读文字版 >>「 第二讲 」基于MaxCompute+开放搜索的电商、零售行业搜索开发实践 直播回放 >> 阅读文字版 >>「 第三讲 」基于MaxCompute+PAI的用户增长方案实践 直播回放 >> 阅读文字版 >>「 第四讲 」基于MaxCompute的实时数据处理实践 直播回放 >> 阅读文字版 >>9月技术直播预告2021阿里巴巴大数据技术公开课第二季 — SaaS模式云数据仓库MaxCompute应用场景实践「 第五讲 」基于MaxCompute分布式Python能力的大规模数据科学分析 9月8日 17:00-17:30「 第六讲 」基于MaxCompute +Hologres 的人群圈选和数据服务实践 9月15日 17:00-17:30「 第七讲 」基于 MaxCompute SQL 的半结构化数据处理实践 9月22日 17:00-17:30「 第八讲 」基于Delta lake、Hudi格式的湖仓一体方案 9月24日 17:00-17:30 扫描下方二维码加入钉群观看直播
本期月刊将为您带来 MaxCompute 7月份产品最新动态。导读7月产品发布最新动态最佳实践好文推荐7月技术直播回顾8月技术直播预告7月产品发布最新动态1、MaxCompute项目删除新功能发布 查案文档 >>适用客户大数据开发者、管理者发布功能MaxCompute支持 "通过MaxCompute控制台-项目列表-更多操作" 删除项目,提供“逻辑删除,15天内可恢复”、“立即删除”两种删除方式,选择立即删除后可立即创建同名项目。方式一,逻辑删除,删除后项目不可用,15天内可恢复(包括恢复数据),超过15天会彻底删除并永久无法恢复。方式二,立即删除,彻底删除,永久不可恢复,此方式删除后可马上创建同名项目。2、MaxCompute管家发布新的SQL性能优化推荐 查看文档 >>适用客户适用于通过 MaxCompute 进行大数据开发的开发者和审计运维人员发布功能MaxCompute管家定期推荐需要进行性能或成本优化的作业列表,本次主要是针对 “适合启用 Dynamic Filter 进行性能优化的包含JOIN的SQL周期作业”。推荐的结果列表将给出最近一次执行的instance id(点击可进入Logview),以及join的输入输出数目,同时预测通过 Dynamic Filter 优化后SQL的加速效率和HINT方式辅助信息,很方便的获取到需要优化的作业信息,通过信息判断是否需要对作业进行优化。若推荐的列表里觉得有作业无需进行优化,则可针对此作业进行取消订阅。3、MaxCompute SQL 子查询支持多列运算的语法 查看文档 >>适用客户大数据开发者,分析师发布功能MaxCompute SQL 兼容postgresql子查询语法,提供in subquery/scalar subquery支持多列运算的语法,in 类型的子查询语法支持在where语句中的in的表达式value为简单的多列select,或value包含聚合函数,或value为多个常量。scalar 类型的子查询语法支持select语句中包含多列scalar子查询等值比较表达式,或select语句为多列与scalar子查询等值比较boolean表达式,或where语句中多列与scalar子查询等值比较表达式。4、MaxCompute SQL 支持对部分聚合函数输入预排序 查看文档 >>适用客户开发者、分析师发布功能MaxCompute SQL 支持对WM_CONCAT、COLLECT_LIST及UDAF输入预排序。MaxCompute SQL 的聚合函数WM_CONCAT, COLLECT_LIST及对数据输入顺序敏感的UDAF函数,如果指定了排序列 WITHIN GROUP (ORDER BY col1[, col2...]),那么聚合函数的输入会保证有序。5、MaxCompute SQL 内建函数增强对复杂数据类型数据的处理能力 查看文档 >>适用客户开发者、分析师、对复杂类型数据有处理需求或希望提升处理效率的用户发布功能MaxCompute SQL 为提升复杂数据类型(ARRAY、MAP、STRUCT)数据的处理能力和效率,增加了大量内建函数,可以使用内建函数对输入的复杂数据类型数据进行处理,或经过函数处理输出复杂数据类型数据。同时提供了高阶函数增强复杂数据类型数据的处理能力,相较于普通函数的输入参数只能是数据,高阶函数的输入参数本身可以是一个函数。因此高阶函数可以处理输入的复杂数据类型数据,并使用lambda表达式简化处理逻辑语法表达。最佳实践好文推荐MaxCompute跨境访问加速解决方案2021阿里巴巴大数据技术公开课第一季 — 外部工具连接SaaS模式云数仓MaxCompute实战外部工具连接SaaS模式云数据仓库MaxCompute实战 — BI分析工具篇外部工具连接SaaS模式云数仓MaxCompute 实战 — 数据库管理工具篇MaxCompute Spark 资源使用优化详解7月技术直播回顾2021阿里巴巴大数据技术公开课第一季 — 外部工具连接SaaS模式云数仓MaxCompute实战「 第一讲 」商业BI分析工具篇 直播回放 >>「 第二讲 」开源BI分析工具篇 & 数据库管理工具篇 直播回放 >>「 第三讲 」ETL工具篇 直播回放 >>8月技术直播预告2021 阿里巴巴大数据技术公开课第二季 — SaaS 模式云数据仓库MaxCompute 应用场景实践
2021阿里巴巴大数据技术公开课第一季将在7月21日开讲,本季直播将带领大数据开发者走进SaaS模式云数据仓库MaxCompute 生态,通过三次主题分享为开发者介绍SaaS模式云原生数据仓库 MaxCompute 生态建设概况以及商业和开源BI分析工具、开源数据库管理工具、开源ETL工具的接入实战。如果您是MaxCompute 产品开发者或者计划使用云数据仓库、湖仓一体方案和产品,欢迎扫描本文下方二维码,加入钉群观看直播,与更多开发者共同讨论数据仓库、湖仓一体等技术。「 第一讲 」外部工具连接SaaS模式云数仓MaxCompute — 商业BI分析工具篇 分享人:木弈 阿里云智能产品经理直播时间:2021年7月21日 17:00-17:30直播简介:本次直播将介绍SaaS模式云数据仓库MaxCompute的产品整体生态,包括外部BI分析工具、数据库管理工具、ETL工具以及MaxCompute自身开放生态、阿里云产品解决方案生态和数据应用生态。重点会介绍MaxComput支持的QuickBI、Tableau、FineBI、FineReport、Yonghong Desktop、商业BI分析工具,同时进行部分连接示例演示。直播回放>>阅读文字版>>「 第二讲 」外部工具连接SaaS模式云数仓MaxCompute — 开源BI分析工具篇 & 数据库管理工具篇分享人:木弈 阿里云智能产品经理直播时间:2021年7月28日 17:00-17:30直播简介:本次直播将主要分享MaxCompute查询加速功能、与开源BI分析工具Davinci、Superset连接示例、以及数据库管理工具DBeaver、DataGrip、SQL Workbench/J的部分连接演示。直播回放 >>阅读文字版 >>「 第三讲 」外部工具连接SaaS模式云数仓MaxCompute—ETL工具篇分享人:龙青云 阿里云智能技术支持经理直播时间:2021年8月4日 17:00-17:30直播简介:本次直播将介绍MaxCompute支持的三款开源ETL工具Kettle、Airflow、Azkaban以及连接示例。直播回放 >>阅读文字版 >>
欢迎通过本期月刊了解 MaxCompute 2021年4月-6月产品动态1、MaxCompute 支持 Dynamic Filter 智能优化功能提高任务执行效率 查看文档 >>适用客户开发者、分析师、SQL优化用户发布功能JOIN是分布式系统中常见的操作,在海量数据场景下,也是一个非常耗时、耗资源的操作。针对JOIN场景,MaxCompute推出Dynamic Filter 智能优化功能,可以利用JOIN本身的等值连接属性,基于运行时动态生成过滤器,在Shuffle或JOIN之前提前过滤数据,实现加速查询运行。该功能适用于维度表和事实表执行JOIN的场景。您可以在Session级别通过开关强制打开、智能选择打开或手工提示使用动态过滤器,并使用动态分区裁剪方法先过滤分区再使用动态过滤器。2、2021年8月10日 MaxCompute 流式数据通道服务功能商业化2021年8月10日,MaxCompute 流式数据通道服务功能即将结束免费公测,开始对流式数据通道服务写入的数据按量计费。计费公式及规则:流式数据写入费用 = 流式写入数据量(GB)×流式数据写入价格(0.08元/GB)MaxCompute为每个MaxCompute项目每天提供100GB的免费流量,当天写入数据量超出100GB部分按上述计费公式计费。MaxCompute会按天推送您的流式写入计量信息,并在第二天给出您的流式写入费用账单。流式写入数据量:指写入请求的HTTP Body的大小。承载数据的HTTP Body使用ProtoBuffer编码,因此一般比数据原始容量要小,但是比压缩后存储在MaxCompute上的数据量要大。MaxCompute 流式数据通道服务功详情参见 流式数据通道服务概述。计费详情参见 流式数据写入费用(按量计费)。3、2021年8月10日 MaxCompute SQL 的 UPDATE、DELETE和MERGE INTO功能商业化2021年8月10日,MaxCompute SQL的UPDATE、DELETE和MERGE INTO功能即将结束免费公测,开始正式计费。已经使用UPDATE、DELETE和MERGE INTO功能的按量计费作业,届时会产生计算费用。如果您之前因为担心公测稳定性问题而暂未使用UPDATE、DELETE和MERGE INTO功能,届时可以放心使用。MaxCompute为UPDATE、DELETE和MERGE INTO功能的相关可用性、稳定性等提供与MaxCompute SQL能力同等保障。计费公式及规则:如果MaxCompute项目的计费模式为包年包月,计算费用不单独收费。如果MaxCompute项目的计费模式为按量计费,计算费用计算规则调整为:单条SQL计算费用=计算输入数据量×SQL复杂度×单价(0.3元/GB)。其中:SQL复杂度通过SQL关键字个数折算。SQL关键字个数=JOIN个数+GROUP BY个数+ORDER BY个数+DISTINCT个数+窗口函数个数+MAX(INSERT个数|UPDATE个数|DELETE个数-1, 1)。 如果您担心费用超出预期,可以配置消费监控告警控制消费。更多监控告警信息,请参见 消费监控告警。您还需要注意如下内容:如果MaxCompute项目的计费模式为按量计费,MaxCompute会根据UPDATE、DELETE和MERGE INTO语句扫描的输入数据量×SQL复杂度×单价计算费用。当您对Transactional表执行更新或删除操作后会生成Delta文件,Delta文件积累较多后会造成数据膨胀并影响读取性能,也会逐渐增大扫描数据量,增加费用。即使MaxCompute项目的计费模式为包年包月,也会占用更多资源,影响后续作业执行效率。您可以通过Compact方法合并Delta文件,更多语法信息请参见 合并Transactional表文件。MaxCompute会按照批处理方式执行delete、update作业,每一条语句都会使用资源并产生费用,建议您使用批量方式删除或更新数据,请参见 更新或删除数据(UPDATE | DELETE)。命令示例如下 --推荐方案:使用关联方法,一次改写或删除所有需要操作的数据。 update table1 set col1= (select value1 from table2 where table1.id = table2.id and table1.region = table2.region); --不推荐方案:逐行操作。 update table1 set col1=1 where id='2021063001'and region='beijing'; update table1 set col1=2 where id='2021063002'and region='beijing'; ......4、MaxCompute 视频中心全新改版上线 视频中心>>MaxCompute 新版视频中心包含产品发布会、大数据系列公开课、近年云栖大会精彩演讲、行业客户案例、最佳实践、人物专访等内容,方便您一站式获取MaxCompute相关的视频信息。 5、精选技术及实践文章数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式如何基于 MaxCompute 快速打通数据仓库和数据湖的湖仓一体实践MaxCompute 中如何通过logview诊断慢作业MaxCompute 挑战使用SQL进行序列数据处理MaxCompute 造数据-方法详解使用MaxCompute LOAD命令批量导入OSS数据最佳实践—STS方式LOAD开启KMS加密OSS数据MaxCompute 非事务表如何更新数据Azkaban业务流程如何转化为DataWorks业务流程[JDBC] Kettle on MaxCompute 使用指南UDF精简使用大全MaxCompute 产品官网 >>阅读往期月刊 >>阿里云 MaxCompute 2021-3 月刊 >>更多关于大数据计算、云数仓技术交流,欢迎扫码加入 “MaxCompute开发者社区” 钉钉群
作者 张良模 阿里云智能资深产品专家谈到数据仓库,我们往往容易忽略“数据”两个字,阿里云有着很多业务场景和业务体系,在这些数据应用之下我们如何管理数据的呢?数据仓库是如何帮到我们以及它自身是如何演进的?数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。第一 启动成本高、建设周期长,价值难以快速验证对于数仓的建设人员,面临的挑战是业务人员希望数仓建设周期能更短。而传统数据仓库往往要面临从采购服务器,建立物理仓库到逻辑仓库等一个较长的周期,所以数据仓库面临的第一个挑战就是怎样去降低建设周期。 第二 如何处理多样数据,拥抱新技术,充分挖掘数据价值随着大数据的到来,传统数据仓库管理的大多是结构化数据。如何对半结构化的数据进行统一全面的管理就成为传统数据仓库面临的第二个挑战。 第三 难以共享企业数据资产、数据创新成本高数据仓库更加强调管理和安全,在强调安全的情况下如何在组织里以及整个生态上下游中更好的共享和交换数据,成为了新的挑战。例如在企业的部门间或业务间依然存在为数不少的数据孤岛,数据共享成本高,缺乏企业级别的统一的数据获取出口,由此导致数据消费方获取数据困难,难于自助分析,严重依赖IT部门支持来满足企业更广泛的数据需求。 第四 平台架构复杂、运营成本高随着数据处理种类的多样化和数据量的不断变大,不同的技术被叠加在一起从而使得数据仓库架构变得越发复杂。同一企业里往往会同时存在各种技术类型的数据仓库。所以如何简化数据仓库的架构也是面临的一个重要挑战。一般需要投入专业团队负责管理复杂的数据平台,同时对资源利用率不高的情况进行管理和治理。 第五 满足业务需要的扩展性、弹性、灵活性业务快速发展的企业,经常会有大促活动,补数据,处理非常规事件的需求,如何快速扩展数仓性能,提高业务峰谷的响应时效,也带来很多挑战。对于传统数据仓库面临的这些挑战,在技术和业务的驱动下新型数据仓库如何应对呢?这里可以看到六个主要的驱动力。 第一 我们希望有一个统一的数据平台,能去连接,去存储和处理多种数据。 第二 实时化,企业基于数据驱动能实时对业务作出支撑和决策的信息,这里有更高时效性的要求。 第三 数据量变得非常庞大,在海量数据中如何找到想要的数据,就需要有一张地图,要对数据进行管理和治理。 第四 传统数据仓库中,数据的存储采用集中的方式,一定要把数据集中在同一个存储中。而在新的业务驱动下,需要去连接数据而不是统一存储在一起。 第五 数据仓库之上如何支持更多智能化的应用,信息化的业务以及业务的信息化等关系。这就是数仓智能化和智能化数仓的需求驱动力。 第六 数据领域的不同角色对数据平台有着不同需求。例如数据工程师,数据分析人员,数据科学家等,他们对数据平台的响应时间,处理速度,数据量,开发语言等有着不同的需求。所以更多的做好分析服务,成为数据管理平台第六个驱动力。据仓库在不断地演进过程中,从30年前的概念来看已经注入了更多新的内涵。对于新的内涵,我们可以从数据仓库的基础架构,数据架构,数据分析以及服务模型四个角度来明显看到云原生,湖仓一体,离线实时一体化、服务模型的SAAS化的演进趋势。云原生 — 数仓基础架构的演进方向云原生是数仓基础架构的一个基本的演进方向。传统数据仓库是基于物理服务器或云上托管服务器的模式。而云原生的情况下可以更多去应用云的基础服务,包括存储服务,网络服务以及更多的监控服务。这就意味着在云上用原生服务可以获得云的自服务、弹性等能力,云数仓就可以更好的去集成更多的云上服务,包括如何把日志数据从各种数据源抽取到数据仓库中,也包括如何进行全链路的数据管理和机器学习等。所以云原生往往包含了如何构建和如何与云上服务原生的集成。如图,云原生的情况下在底层充分利用了云的弹性计算,存储以及安全能力。在此之上可以看到我们把所有云的复杂性都屏蔽掉,作为数据平台的用户,只需开通服务,通过web方式创建项目空间,五分钟开通一个数据仓库进行数据仓库后面模型的开发。大大简化了服务交付的周期以及数据仓库整个底层架构,技术架构构建过程。另一方面是云原生数仓的扩展性,不管你提交了一个只需要1CU的作业还是提交一个可能需要10000CU的作业,平台都会按你的需要调度资源来进行数据处理。所以云原生又给我们带来近乎无限的扩展性。湖仓一体 — 数仓数据架构的演进方向讲到湖仓一体,先来看湖仓一体背后的原因。不得不说到今天为止数据仓库仍然是企业管理数据最优的解决方案。各个企业大都有自己的数据仓库,只不过可能是基于不同的技术形态构建的数据仓库。在处理策略,对语义的支持上,对场景的优化上以及工程经验上,数据仓库是目前沉淀下来的一个最优的方案。在此之上,企业数据量越来越大,需要更灵活更敏捷的数据探索能力。同时,对未知数据存在先存储下来再进一步探索的诉求。由此,企业在架构上需要融合数据分析的最优化和可探索两个方面的优势,从处理策略到语义支持,以及使用案例上,数据仓库和数据湖分别带给企业不同的优势。数据仓库在易管理,数据质量高,而数据湖在可探索,灵活性强方面为我们带来优势。我们要思考和讨论如何将两种方式结合起来共用,这就是提出“湖仓一体”的背景。在MaxCompute以数据仓库为主的场景下,将数据仓库对数据管理的最优工程经验,管理经验和数据湖对数据管理的灵活性,数据处理的灵活性更好的结合在一起, 2019年我们在全球率先提出了“湖仓一体”的全新数据管理架构。基于MaxCompute数据仓库来提供安全可靠的,结构化的数据管理方式,以及在此之上由DataWorks提供数据血缘,数据地图和数据治理等能力。这些能力如何延伸到数据湖中?今天我们可见的数据湖包括基于云上的对象存储OSS,也包含企业中基于Hadoop HDFS的数据湖,对于这两类数据湖如何基于已有的灵活性能够获得更容易探索能力,能提升它们得数据处理性能,管理能力和安全性? 我们所做的就是把数据仓库和数据湖两者打通,通过数据湖构建DLF,发现数据湖的元数据,进行结构化的统一管理,融合湖的灵活和便捷优势。这就是以仓为中心的湖仓一体新型数据管理的架构,数据仓库在企业数据的管理方式上往前又推进了一步。离线实时一体 — 数仓数据分析的演进方向在企业的数据仓库中,通过SLS、Kafka等订阅的方式进行数据采集,通常有三种路径。第一种可能是将一部分数据归档在数据仓库中,然后进行全量的分析。第二种是进行实时的查询分析,比如风控场景下查一个电话号码过去三年的通话记录,要马上查出来,就需要进行实时的连接分析。第三种是进行一些关联的多维度查询,对这些实时数据等进行关联的基础上,后面再来进行批量的处理,实时处理以及点查。实时数据的获取,计算以及应用这三方面,构成了整个数仓由离线向实时发展的三个核心含义。这里最核心的就是计算。计算的本质无外乎两个,一个是主动计算,另一个是被动计算。离线计算往往是被动计算,需要数仓工程师通过定义任务来调度作业,才能计算出新的结果。在实时离线一体化中,除了被动计算,还要有主动计算能力。当数据流入后,不做人工干预,任何作业的插入和重启都能自动算出新的结果或中间结果。参与实时计算就最大程度的增加了主动计算的过程,而主动的结果带给我们的好处就是无需重新调度任何作业就能拿到想要的结果数据。在离线和实时一体的情况下虽然可以解决业务上的一些问题,但架构会非常复杂。所以阿里云提出离线实时一体化的数仓架构。简化是说我们只需要核心的几个产品,就可以实现离线和实时一体化的架构。数据源包括了交易数据以及各个服务器生成的人的行为数据和物的行为数据,通过日志服务,定期归档到Hologres,之后,实时数仓加上流计算来进行实时计算,然后在下面是全量的数仓,整个完成了主动计算、被动计算和数据的实时获取。结果数据可以不用做任何搬迁,直接通过Hologres来做实时分析。将实时的数据获取,实时的数据计算和实时的数据分析服务三者打通为一体,架构上做了最大程度的简化,这就是今天所说的离线实时一体化的云数据仓库。SaaS模式 — 数仓服务模式的演进方向基于数仓基础架构、数据管理架构、数据分析架构的演进,这些产品的服务是如何被交付的呢?那就是通过SaaS化的方式向客户来交付数据仓库,可以最简化的去使用数据仓库的服务。数据仓库的构成有几种方式,第一种是说基于物理服务器自建数据仓库,这是大家最为熟悉的方式。第二种是在云上基于Hadoop,也可以基于各种MPP的数据库去构建和搭建半托管的云上数据仓库。第三种和第四种就属于比较深的云原生的形式,第三种是典型Snowflake的方式,这种方式下云基础服务其实并不会暴露给数据仓库的管理者,所以我们把它叫做嵌入式的,将IaaS这一层嵌入到PaaS层中,但最终数据仓库是通过SaaS的完全web的方式暴露出来的。2021年全球Forrester评测中有13家厂商参与了评估,其中以SaaS模式交付数据仓库服务的只有三家,分别是谷歌的BigQuery,Snowflake和阿里云MaxCompute。可以看到通过云计算的数据仓库服务,从自建到云原生,帮我们最大化的降低了数据仓库的管理复杂度,整个架构少了很多层,无需管理集群和软件,通过服务化的方式达到免运维,将底层的所有这些需管理的内容去掉,后台升级是由云厂商来提供服务的,只需要管理自己的数据和数据模型,通过web方式来使用数据仓库服务。在数据仓库里存储的数据与云存储一样,按存储量付费。计算也是一样的,不计算不花钱。充分体现了SaaS化的优势。同时,在匹配业务需求上具备非常强的弹性能力,我们有很多客户日常只需要一万核的算力,在双十一当天需要三万核的算力。在这种SaaS模式的服务下,用户在完全无感知的情况下我们就可以保证充沛的弹性能力去满足数据仓库的各种工作需求了。综上,数据仓库从1990年的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库的一路演进,基础架构的云原生,数据架构的湖仓一体,数据分析的离线实时一体化以及数仓服务模式的SaaS化,是最为主要的四个演进的方向和特征。 阿里云正在通过全新数据仓库架构给企业带来具备更优体验的数据管理的方式。MaxCompute 产品官网 >>更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
Kettle版本:8.2.0.0-342MaxCompute JDBC driver版本:3.2.8Setup下载并安装Kettle下载MaxCompute JDBC driver将MaxCompute JDBC driver置于Kettle安装目录下的lib子目录(data-integration/lib)下载并编译MaxCompute Kettle plugin:https://github.com/aliyun/aliyun-maxcompute-data-collectors将编译后的MaxCompute Kettle plugin置于Kettle安装目录下的lib子目录(data-integration/lib)启动spoonJob我们可以通过Kettle + MaxCompute JDBC driver来实现对MaxCompute中任务的组织和执行。首先需要执行以下操作:新建Job新建Database ConnectionJDBC连接串格式为:jdbc:odps:?project=JDBC driver class为:com.aliyun.odps.jdbc.OdpsDriverUsername为阿里云AccessKey IdPassword为阿里云AccessKey SecretJDBC更多配置见:https://help.aliyun.com/document_detail/161246.html之后,可以根据业务需要,通过SQL节点访问MaxCompute。下面我们以一个简单的ETL过程为例:Create table节点的配置如下:需要注意:这里Connection需要选择我们配置好的不要勾选Send SQL as single statementLoad from OSS节点配置如下:需要注意的点同Create table节点。有关更多Load的用法,见:https://help.aliyun.com/document_detail/157418.htmlProcessing节点配置如下:需要注意的点同Create table节点。Transformation我们可以通过MaxCompute Kettle plugin实现数据流出或流入MaxCompute。首先新建Transformation,之后新建Aliyun MaxCompute Input节点,配置如下:在MaxCompute中新建一张空表,schema与test_partition_table一致。新建Aliyun MaxCompute Output节点,配置如下:执行Transformation,数据便从test_partition_table被下载,后被上传至test_partition_table_2。其他设置MaxCompute flags如图,在执行DDL/DML/SQL之前,可以通过set key=value;的方式配置flags。Script模式暂时无法支持
MaxCompute 3月新发布功能1、MaxCompute管家作业诊断功能发布 查看文档 >>作业诊断功能是基于作业运行时产生的各个阶段信息,与历史运行数据对比分析总结问题并给出解决方案,提升作业运行效率实现运维自服务能力。适用客户适用基于MaxCompute进行大数据开发和分析的开发者和分析师。发布功能MaxCompute 管家发布的慢作业、错作业诊断功能,可以帮助大数据开发者和分析师在日常作业运维中,对慢作业和错作业进行自助诊断分析,通过诊断分析结果给出的建议,对作业进行优化,从而提示作业的运行效率。诊断功能主要支持7天以内的sql、mapreduce类型的作业诊断,基于作业运行时产生的各个阶段状态信息,与作业历史运行数据进行对比分析,得出作业相比历史在某些环节或诊断维度上的缺陷和问题,并针对问题给出相应的原因和解决方案。诊断信息展示主要分为4大块内容,分别是作业基础信息、作业历史运行instance列表、控制集群历史耗时分析、计算集群历史耗时分析,方便用户对诊断结果进行阅览,并快速获取到诊断建议。2、MaxCompute管家SQL周期作业持续空输出或持续全表扫描推荐功能发布 查看文档 >>MaxCompute管家将定期推荐“SQL周期作业持续空输出或持续全表扫描”作业列表,方便用户发现并进行作业性能和成本优化。适用客户适用于通过MaxCompute进行大数据开发的开发者和审计运维人员。发布功能MaxCompute管家将定期推荐需要进行性能或成本优化的作业列表,本次主要是针对 “SQL周期作业持续空输出或持续全表扫描”。推荐的结果列表将给出最近一次执行的instance id(点击可进入Logview)以及最近一个月持续运行的次数,可以很方便的获取到需要优化的作业信息,通过信息辅助判断是否需要对作业进行优化,如持续空输出是否是无效作业无需运行避免资源浪费;如持续全表扫描是否是因为脚本遗漏了分区条件需要加上以便减少输入量减少资源消耗。如若推荐的列表里有作业运行是正常符合预期,则可针对此作业进行取消订阅,后面管家将不再推荐此指标的作业。3、MaxCompute Project全量作业或Project全量SQL作业超时监控告警功能发布 查看文档 >>MaxCompute Project全量、Project下SQL作业超时监控告警接入云监控,方便业务管理或运维人员日常作业超时监控。适用客户适用于大数据开发的业务管理或运维人员进行日常作业超时监控。发布功能MaxCompute支持通过云监控配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本次主要支持两个监控指标:① 作业运行时长。以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。如专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您可配置该监控指标,如作业运行时间过长,可及时检查是否存在资源紧张或作业计算量过大等问题。如项目存在需要长时间执行的作业,则不推荐配置该监控指标。例如Spark流式作业(spark.hadoop.odps.cupid.engine.running.type=longtime)。② 作业运行时长_SQL类型。以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。例如生产项目,您可配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。4、MaxCompute 外部表支持Snappy、Lzo压缩格式 查看文档 >>MaxCompute 开源数据格式外部表支持Snappy、Lzo压缩格式文件的读写。适用客户适用于大数据开发者。发布功能如果您的数据格式为textfile,如Json,存放在OSS,希望通过外部表读写且支持压缩,MaxCompute 提供了开源数据格式外部表对Snappy、Lzo压缩文件的读写能力。文件为Lzo压缩格式,外部表会自动通过后缀名判断压缩算法,并读取数据。向外部表写入Lzo压缩格式数据需要在建表时添加Lzo配置项。文件为Snappy压缩格式,外部表会自动使用Hadoop默认的Hadoop-Snappy解压缩算法读取数据。向外部表写入Snappy压缩格式数据同样需要在建表时添加Snappy配置项。您还可以使用Raw-Snappy压缩算法的配置项实现对Raw-Snappy格式的压缩文件读写。5、MaxCompute SQL支持From_json/To_json函数 查看文档 >>MaxCompute SQL新增From_json/To_json函数用于Json数据处理。适用客户适用于大数据开发者,分析师。发布功能From_json函数可以将Json转换成MaxCompute的数据类型,或提取Json中的信息,根据Json字符串jsonStr和schema信息,返回ARRAY、MAP或STRUCT类型。To_json函数可以将给定的复杂类型Array、Map、Struct ,以Json字符串格式输出。6、MaxCompute SQL支持Update/Delete/Merge Into语法 (公测) MaxCompute SQL新支持在行级别操纵表或者分区中的数据的能力,适合对表或分区中少部分数据非频繁删除修改的场景。适用客户开发者,分析师,对数仓中数据有删除修改操作需求的用户。发布功能Update/Delete 是 MaxCompute 新支持的在行级别操作表或者分区数据的语句。相比之前订正表或者分区中的少量数据,也需要读取全量数据,关联生成新数据之后再Insert Overwrite全量写回的方法,Update/Delete 操作读写数据量都显著下降。当您对目标表的一次操作包括Insert、Update、Delete逻辑时,Merge Into功能可以用一条SQL语句进行一次扫描完成全部操作,执行效率更高。同时,Merge Into任务具备原子性,任一内部逻辑处理失败,则整体作业执行失败,避免同一批操作部分逻辑无法回退或重做的问题。相关的,您需要创建 Transactional 表才能使用Update/Delete/Merge Into功能。并且因为大数据系统保证任务级别的ACID,当作业并发运行且操作的目标表相同时,可能会出现作业冲突,具体请参考MaxCompute并发写⾏为的ACID。需要注意的是目前Update/delete/Merge Into 处于公测阶段,不收取计算费用,但公测期间也暂时不对您使用此功能用于生产的作业和数据提供保证,重要数据请做好备份。Update/Delete文档 >> Merge Into >> 创建Transactional表 >> ACID语义说明 >>MaxCompute 产品官网 >>阅读往期月刊 >>更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
2021年3月25日,全球权威分析机构 Forrester 发布 《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》研究报告,阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商,并由竞争者象限跃升至卓越表现者象限。 报告显示,从产品现有能力看,阿里云比肩以及领先于领导者象限的部分云厂商;而市场表现方面,以 MaxCompute 为核心代表的云数仓已然成为中国最受欢迎的云数据仓库服务。Forrester 是全球最权威的 IT 咨询评测机构之一,本次针对入选的 13 家国际最重要的云数据仓库服务商, 从产品、战略、市场表现三个维度,26个标准 60 多项评估细则进行了深入研究分析和评分。据悉,MaxCompute 基于领先的技术和架构演进,全面满足 Forrester 所有评测项,并在半结构化数据类型、复杂数据类型、离线/实时的数据集成、数据湖的集成、性能(Query Per day,支撑数据量,workload)、扩展性(自动弹性伸缩能力,存算分离,最大支持数据量),数据安全(敏感数据发现、静态数据加密、动态/静态数据 Masking,自动缺陷检测,审计,行、列级别访问控制,合规)评测项中获得最高分,达到世界领先水平,深度契合并引领云数据仓库的发展趋势。 作为一款为业务敏捷而生的 Serverless 云数据仓库,MaxCompute 从设计之初就采用了“Share Everything”的架构设计,它引领了云数仓架构开发的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时支持 SQL、机器学习\深度学习、图计算等多种计算模式。除了支持第一方的计算模式外,基于 MaxCompute开放的设计,第三方引擎(如Spark,Presto)也可以方便的接入。 MaxCompute 支撑了更大的数据量和更高的每天作业总数,提供动态可伸缩特性,近乎无限资源拓展,企业无需提前进行容量规划,便可满足突发的业务增长需求。此外,MaxCompute 内建了完善的企业级安全及管理功能,支持开放数据生态, 以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景需要;支持与AirFlow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用。 与此同时,MaxCompute 发展出了湖仓一体的架构设计,通过湖仓一体可无缝集成云对象存储和 Hadoop 生态,从架构上将数据湖的灵活性与数据仓库的企业级能力进行融合,真正构建数据湖和数据仓库融合的大数据管理平台。在数据治理方面,MaxCompute 原生集成 DataWorks,作为一站式大数据开发与治理平台,DataWorks 具备AI+增强型数据治理能力,有效确保数据产出准时性、正确性以及有序管理和使用。 Forrester 总结到:阿里云数仓服务提供广泛的基础设施、平台和分析服务,包括MaxCompute、AnalyticDB 和DataWorks 服务,以支持各种大规模数据仓库客户,涉及金融、互联网、生物医药、能源、交通和媒体行业。以 MaxCompute 为核心代表的阿里云数据仓库提供实时和 EB 级的能力,以支持任何数据仓库的需求。
MaxCompute 2月新发布功能1、MaxCompute SQLML 功能(中国区)商业化发布 查看文档 >>MaxCompute SQLML 支持使用SQL语言在 MaxCompute 中创建、训练和应用机器学习模型,实现 AI 普惠。适用客户各个领域的 SQL从业人员/ 数据工程师 / 数据分析师 / 数据科学家发布功能MaxCompute SQLML 可以让数据工程师、分析师和数据科学家使用 SQL 语言在 MaxCompute 中创建、训练和应用机器学习模型,使 SQL 从业人员利用现有的 SQL 工具和技能就能应用机器学习的能力,同时无需做数据迁移,实现机器学习的普惠。2、MaxCompute 湖仓一体功能商业化发布 查看文档 >>MaxCompute 湖仓一体方案融合数据湖的灵活性、生态丰富性与数据仓库的企业级能力,构建数据湖和数据仓库融合的数据管理平台。适用客户有以下诉求企业中的 CTO / 数据平台架构师 / 大数据部门主管 / 数据开发人员等• 已经基于 Hadoop 集群搭建数据平台,同时对集群资源弹性有需求,希望利用 MaxCompute 的弹性与大规模机器学习能力,快速迭代创新业务• 企业有多个 Hadoop 集群,需要各个集群之间数据打通,利用 DataWorks / Dataphin 构建企业数据中台• 以阿里云 OSS 构建数据湖应用,希望借助云数仓实现数据统一分析和管理发布功能MaxCompute 湖仓一体方案通过数据仓库 MaxCompute、数据湖(对象存储 OSS 或 Hadoop HDFS)共同实现。本次发布两种构建湖仓一体的方式:• 与阿里云 OSS + DLF 构建湖仓一体能力:通过 MaxCompute 和 OSS 实现。该方式需要配套使用阿里云产品数据湖构建 DLF(Data Lake Formation)。数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对湖数据的元数据管理能力,提升对OSS半结构化格式(AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。• 与 Hadoop HDFS 构建湖仓一体能力:通过MaxCompute和Hadoop HDFS(包括本地机房搭建、基于云上虚拟机搭建以及阿里云 E-MapReduce等)实现。您需要填写MaxCompute湖仓一体方案使用申请表,提交申请后,MaxCompute团队技术人员会联系并协助您完成后续操作。3、MaxCompute zOrder 排序支持与 Distribute by 共用 查看文档 >>适用客户开发者、分析师发布功能在表或分区写入数据时,查询语句指定zOrder by字段,根据指定的一列或多列按zOrder 方式进行局部排序再写入,可以提高后续在排序数据上做一列或多列交互式查询时的效率。4、MaxCompute 支持在 values 表达式中使用非常量表达式 查看文档 >>适用客户开发者,分析师发布功能MaxCompute对 Valuse 表达式进行扩展。原先仅支持常量,扩展后还支持非常量表达式,便于用户在Values表达式中使用函数等非常量表达式。在生成数据,测试计算逻辑时使用更方便。使用方法示例: select * from values (udf(1)),(to_date('20190101', 'yyyyMMdd')),(getdate()),(datetime '2019-01-02 00:00:00') t(d);5、MaxCompute SQL 支持SkewJoin Hint用于优化join时数据长尾问题 查看文档 >>适用客户开发者发布功能MaxCompute SQL 支持SkewJoin Hint用于优化join时存在数据长尾问题,,加快Join的执行速度。6、MaxCompute 推出 Freeride 及 Analyze 两种优化器元数据收集工具 查看文档 >>适用客户开发者,分析师发布功能MaxCompute推出Freeride(同步)和Analyze(异步)两套优化器元数据收集工具,用于优化计算和查询性能。7、MaxCompute 内置函数新增或增强适用客户开发者、分析师、开源或其他生态用户发布功能MaxCompute 日期函数、字符串函数、聚合函数、其他函数等内置函数新增用法或增强兼容性。日期函数文档 >> 字符串函数文档 >> 聚合函数文档 >> 其他函数文档 >>8、MaxCompute SQL array 数据类型处理函数新增和增强 查看文档 >>适用客户开发者、分析师、有半结构化数据处理需求的用户发布功能MaxCompute 新增array_intersect函数,用于计算两个array的交集。增强内建函数sort_array,增加isAsc参数,对给定数组排序时让用户选择是升序还是降序,默认是升序。9、MaxCompute 外表Hive兼容模式支持用户自定义serde类 查看文档 >>适用客户开发者,外表用户,有开源或自定义数据格式处理需求的用户发布功能用户可以在创建外表时使用using jar的方式,使用自定义的serde类实现外表对特殊数据格式的兼容。10、MaxCompute 外表 OSS 写入场景能力增强 查看文档>>适用客户开发者,有导出数据需求的用户,有使用第三方引擎读取导出的数据需求的用户发布功能MaxCompute 支持使用 OSS Multi-upload 写 OSS 外表,数据直写到表目录下,不包含.odps 子目录。11、MaxCompute命令行提供关闭表头显示,便于shell调用 查看文档 >>适用客户开发者发布功能MaxCompute 可以通过参数设置关闭命令行stdout输出结果的表头显示,便于用户获取动态返回值用于其他操作。12、MaxCompute支持云HBase外部表 查看文档 >>适用客户开发者,分析师,联邦查询用户发布功能MaxCompute Hbase外部表支持读写云HBase,在MaxCompute中进行数据导入、写出或联邦查询。13、MaxCompute支持RDS外部表(公测) 查看文档 >>适用客户开发者,分析师,联邦查询用户发布功能RDS是阿里云客户主要使用的数据库服务,MaxCompute支持RDS外部表对RDS (RDS MySQL 5.x)进行读写操作。14、MaxCompute外表支持JDBC方式读写MC-Hologres(公测) 查看文档 >>适用客户开发者,分析师,联邦查询用户,有对MaxCompute与MC-Hologres同步数据需求的用户发布功能MaxCompute支持创建MC-Hologres外部表,并通过JDBC方式MaxCompute读写同步MC-Hologre数据。15、MaxCompute支持Unload语句把数据导出到OSS外部存储 查看文档 >>适用客户开发者,分析师,对存储优化有需求的用户,在对象存储上使用其他引擎处理分析MaxCompute导出数据的用户发布功能MaxCompute支持Unload语句导出数据到OSS,方便用户使用OSS存储数据,并方便OSS上其他计算引擎使用导出的数据。MaxCompute 产品官网 >>阅读往期月刊 >>
MaxCompute 2月新发布功能1、MaxCompute SQLML 功能(中国区)商业化发布 查看文档 >>MaxCompute SQLML 支持使用SQL语言在 MaxCompute 中创建、训练和应用机器学习模型,实现 AI 普惠。适用客户各个领域的 SQL从业人员/ 数据工程师 / 数据分析师 / 数据科学家发布功能MaxCompute SQLML 可以让数据工程师、分析师和数据科学家使用 SQL 语言在 MaxCompute 中创建、训练和应用机器学习模型,使 SQL 从业人员利用现有的 SQL 工具和技能就能应用机器学习的能力,同时无需做数据迁移,实现机器学习的普惠。2、MaxCompute 湖仓一体功能商业化发布 查看文档 >>MaxCompute 湖仓一体方案融合数据湖的灵活性、生态丰富性与数据仓库的企业级能力,构建数据湖和数据仓库融合的数据管理平台。适用客户有以下诉求企业中的 CTO / 数据平台架构师 / 大数据部门主管 / 数据开发人员等已经基于 Hadoop 集群搭建数据平台,同时对集群资源弹性有需求,希望利用 MaxCompute 的弹性与大规模机器学习能力,快速迭代创新业务企业有多个 Hadoop 集群,需要各个集群之间数据打通,利用 DataWorks / Dataphin 构建企业数据中台以阿里云 OSS 构建数据湖应用,希望借助云数仓实现数据统一分析和管理发布功能MaxCompute 湖仓一体方案通过数据仓库 MaxCompute、数据湖(对象存储 OSS 或 Hadoop HDFS)共同实现。本次发布两种构建湖仓一体的方式:与阿里云 OSS + DLF 构建湖仓一体能力:通过 MaxCompute 和 OSS 实现。该方式需要配套使用阿里云产品数据湖构建 DLF(Data Lake Formation)。数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对湖数据的元数据管理能力,提升对OSS半结构化格式(AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。与 Hadoop HDFS 构建湖仓一体能力:通过MaxCompute和Hadoop HDFS(包括本地机房搭建、基于云上虚拟机搭建以及阿里云 E-MapReduce等)实现。您需要填写MaxCompute湖仓一体方案使用申请表,提交申请后,MaxCompute团队技术人员会联系并协助您完成后续操作。3、MaxCompute zOrder 排序支持与 Distribute by 共用 查看文档 >>适用客户开发者、分析师发布功能在表或分区写入数据时,查询语句指定zOrder by字段,根据指定的一列或多列按zOrder 方式进行局部排序再写入,可以提高后续在排序数据上做一列或多列交互式查询时的效率。4、MaxCompute 支持在 values 表达式中使用非常量表达式 查看文档 >>适用客户开发者,分析师发布功能MaxCompute对 Valuse 表达式进行扩展。原先仅支持常量,扩展后还支持非常量表达式,便于用户在Values表达式中使用函数等非常量表达式。在生成数据,测试计算逻辑时使用更方便。使用方法示例: select * from values (udf(1)),(to_date('20190101', 'yyyyMMdd')),(getdate()),(datetime '2019-01-02 00:00:00') t(d);5、MaxCompute SQL 支持SkewJoin Hint用于优化join时数据长尾问题 查看文档 >>适用客户开发者发布功能MaxCompute SQL 支持SkewJoin Hint用于优化join时存在数据长尾问题,,加快Join的执行速度。6、MaxCompute 推出 Freeride 及 Analyze 两种优化器元数据收集工具 查看文档 >>适用客户开发者,分析师发布功能MaxCompute推出Freeride(同步)和Analyze(异步)两套优化器元数据收集工具,用于优化计算和查询性能。7、MaxCompute 内置函数新增或增强适用客户开发者、分析师、开源或其他生态用户发布功能MaxCompute 日期函数、字符串函数、聚合函数、其他函数等内置函数新增用法或增强兼容性。日期函数文档 1 >> 字符串函数文档 2 >> 聚合函数文档 3>> 其他函数文档 >>8、MaxCompute SQL array 数据类型处理函数新增和增强 查看文档 >>适用客户开发者、分析师、有半结构化数据处理需求的用户发布功能MaxCompute 新增array_intersect函数,用于计算两个array的交集。增强内建函数sort_array,增加isAsc参数,对给定数组排序时让用户选择是升序还是降序,默认是升序。9、MaxCompute 外表Hive兼容模式支持用户自定义serde类 查看文档 >>适用客户开发者,外表用户,有开源或自定义数据格式处理需求的用户发布功能用户可以在创建外表时使用using jar的方式,使用自定义的serde类实现外表对特殊数据格式的兼容。10、MaxCompute 外表 OSS 写入场景能力增强 查看文档>>适用客户开发者,有导出数据需求的用户,有使用第三方引擎读取导出的数据需求的用户发布功能MaxCompute 支持使用 OSS Multi-upload 写 OSS 外表,数据直写到表目录下,不包含.odps 子目录。11、MaxCompute命令行提供关闭表头显示,便于shell调用 查看文档 >>适用客户开发者发布功能MaxCompute 可以通过参数设置关闭命令行stdout输出结果的表头显示,便于用户获取动态返回值用于其他操作。12、MaxCompute支持云HBase外部表 查看文档 >>适用客户开发者,分析师,联邦查询用户发布功能MaxCompute Hbase外部表支持读写云HBase,在MaxCompute中进行数据导入、写出或联邦查询。13、MaxCompute支持RDS外部表(公测) 查看文档 >>适用客户开发者,分析师,联邦查询用户发布功能RDS是阿里云客户主要使用的数据库服务,MaxCompute支持RDS外部表对RDS (RDS MySQL 5.x)进行读写操作。14、MaxCompute外表支持JDBC方式读写MC-Hologres(公测) 查看文档 >>适用客户开发者,分析师,联邦查询用户,有对MaxCompute与MC-Hologres同步数据需求的用户发布功能MaxCompute支持创建MC-Hologres外部表,并通过JDBC方式MaxCompute读写同步MC-Hologre数据。15、MaxCompute支持Unload语句把数据导出到OSS外部存储 查看文档 >>适用客户开发者,分析师,对存储优化有需求的用户,在对象存储上使用其他引擎处理分析MaxCompute导出数据的用户发布功能MaxCompute支持Unload语句导出数据到OSS,方便用户使用OSS存储数据,并方便OSS上其他计算引擎使用导出的数据。MaxCompute 产品官网 >>阅读往期月刊 >>更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
1、【价格调整】MaxCompute 存储服务单价调整MaxCompute 按量付费存储单价由梯度定价统一下调整为月固定单价,中小规模企业数据仓库存储成本最高降四成。价格调整内容2021/1/10日起,MaxCompute 数据存储服务由阶梯定价调整为固定定价,新定价将降低中小数据规模客户的MaxCompute存储成本:MaxCompute存储由梯度定价(小于等于10TB单价:0.0072元/GB/天、大于10TB小于等于100TB单价:0.006元/GB/天、大于100TB单价:0.004元/GB/天)调整为统一定价:0.12元/GB/月(即,0.004元/GB/天)新定价将降低中小数据规模客户的MaxCompute存储成本,其中存储10TB的MaxCompute项目,可节省44%存储成本;大于10TB小于等于100TB,最高节省34%。示例说明A客户当前 MaxCompute 项目P1存储数据大小为5TB,2021/1/10前每月存储成本为 510240.216=1106元,2021/1/10后每月存储成本为 510240.12=614元, 少44%存储成本;B客户当前MaxCompute项目P2存储数据大小为80TB,2021/1/10前每月存储成本为 (1010240.216+7010240.18)=15114元,2021/1/10后每月存储成本为 8010240.12=9830元,减少35%存储成本;C客户当前MaxCompute项目P3存储数据大小为150TB,2021/1/10前每月存储成本为 (1010240.216+9010240.18+5010240.12)=24944元,2021/1/10后每月存储成本为 15010240.12=18432元,减少26%存储成本;2、【新功能】 MaxCompute管家支持子账号权限管理MaxCompute管家支持对子账号进行权限管理以便子账号进行配额组和作业管理。适用客户适用 MaxCompute 用户的管理者对子账号进行权限管理。发布功能MaxCompute 管家支持对子账号进行权限管理,以便支持子账号进行资源配额组和作业管理。MaxCompute 管家按日常管理业务划分几种角色和权限:超级管理员:支持查看并操作MaxCompute管家界面的所有对象。项目管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应项目正在运行的作业。配额组管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应配额组正在运行的作业。访客:默认所有RAM用户可以访问MaxCompute管家,无需额外授权,可以查看MaxCompute管家界面的所有对象,只能终止自己提交的正在运行的作业。查看文档 >>3、【新功能】 MaxCompute 全量作业管理MaxCompute管家推出作业管理功能,提供开发人员和管理人员对全量作业按时间段、状态以及更多细粒度条件进行查找并做相应管理。适用客户基于MaxCompute的大数据开发人员,进行作业日常运维管理。使用MaxCompute用户的相关管理人员,进行日常资源/作业负载监控。发布功能通过 MaxCompute 管家提供的作业管理功能,可以按作业提交时间段、作业状态、项目、配额组以及instance id、提交人这些精准条件进行作业查找,查看作业基础信息以及对应Logview,为正在运行状态的作业提供杀作业功能,支持查找所有状态的全量作业,显示的作业状态为终态。通过作业管理,数据开发人员对自己提交或管理的作业进行日常运维时,可方便的通过各种筛选条件进行搜索,可按时间段、可跨项目查看作业列表;支持检查当天的失败作业并进行检查处理,支持通过时间段和状态筛选作业,方便查看作业基础信息、Logview;支持对running状态作业kill job,大大提升了作业日常运维效率。对于管理人员,可通过作业管理查看过去/当前作业整体资源负载情况,也可以查看各时间段作业运行情况以便对资源进行更好的规划;当审计需要精准查看某个作业信息时可以快速进行查找。查看文档 >>MaxCompute 产品官网 >>阅读往期月刊 >>更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【1月产品最新动态】1、【价格调整】MaxCompute 存储服务单价调整MaxCompute 按量付费存储单价由梯度定价统一下调整为月固定单价,中小规模企业数据仓库存储成本最高降四成。价格调整内容2021/1/10日起,MaxCompute 数据存储服务由阶梯定价调整为固定定价,新定价将降低中小数据规模客户的MaxCompute存储成本:MaxCompute存储由梯度定价(小于等于10TB单价:0.0072元/GB/天、大于10TB小于等于100TB单价:0.006元/GB/天、大于100TB单价:0.004元/GB/天)调整为统一定价:0.12元/GB/月(即,0.004元/GB/天)新定价将降低中小数据规模客户的MaxCompute存储成本,其中存储10TB的MaxCompute项目,可节省44%存储成本;大于10TB小于等于100TB,最高节省34%。示例说明A客户当前 MaxCompute 项目P1存储数据大小为5TB,2021/1/10前每月存储成本为 5*1024*0.216=1106元,2021/1/10后每月存储成本为 5*1024*0.12=614元, 少44%存储成本;B客户当前MaxCompute项目P2存储数据大小为80TB,2021/1/10前每月存储成本为 (10*1024*0.216+70*1024*0.18)=15114元,2021/1/10后每月存储成本为 80*1024*0.12=9830元,减少35%存储成本;C客户当前MaxCompute项目P3存储数据大小为150TB,2021/1/10前每月存储成本为 (10*1024*0.216+90*1024*0.18+50*1024*0.12)=24944元,2021/1/10后每月存储成本为 150*1024*0.12=18432元,减少26%存储成本;2、【新功能】 MaxCompute管家支持子账号权限管理MaxCompute管家支持对子账号进行权限管理以便子账号进行配额组和作业管理。适用客户适用 MaxCompute 用户的管理者对子账号进行权限管理。发布功能MaxCompute 管家支持对子账号进行权限管理,以便支持子账号进行资源配额组和作业管理。MaxCompute 管家按日常管理业务划分几种角色和权限:1)超级管理员:支持查看并操作MaxCompute管家界面的所有对象。2)项目管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应项目正在运行的作业。3)配额组管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应配额组正在运行的作业。4)访客:默认所有RAM用户可以访问MaxCompute管家,无需额外授权,可以查看MaxCompute管家界面的所有对象,只能终止自己提交的正在运行的作业。查看文档 >>3、【新功能】 MaxCompute 全量作业管理MaxCompute管家推出作业管理功能,提供开发人员和管理人员对全量作业按时间段、状态以及更多细粒度条件进行查找并做相应管理。适用客户基于MaxCompute的大数据开发人员,进行作业日常运维管理。使用MaxCompute用户的相关管理人员,进行日常资源/作业负载监控。发布功能通过 MaxCompute 管家提供的作业管理功能,可以按作业提交时间段、作业状态、项目、配额组以及instance id、提交人这些精准条件进行作业查找,查看作业基础信息以及对应Logview,为正在运行状态的作业提供杀作业功能,支持查找所有状态的全量作业,显示的作业状态为终态。通过作业管理,数据开发人员对自己提交或管理的作业进行日常运维时,可方便的通过各种筛选条件进行搜索,可按时间段、可跨项目查看作业列表;支持检查当天的失败作业并进行检查处理,支持通过时间段和状态筛选作业,方便查看作业基础信息、Logview;支持对running状态作业kill job,大大提升了作业日常运维效率。对于管理人员,可通过作业管理查看过去/当前作业整体资源负载情况,也可以查看各时间段作业运行情况以便对资源进行更好的规划;当审计需要精准查看某个作业信息时可以快速进行查找。查看文档 >>MaxCompute 产品官网 >>阅读往期月刊 >>更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
2021年1月27日,阿里云 MaxCompute 大数据计算平台联合帆软正式发布企业级BI分析解决方案,MaxCompute 成为帆软 FineBI 与 FineReport官方数据源。此次专为企业数据分析实现的产品集成,将极大解决企业数据分析及报表应用难题,助力企业业务效率进一步提升。 MaxCompute 是阿里云提供的面向分析的企业级 SaaS 模式云数据仓库,服务着数以万计的客户和阿里巴巴集团。MaxCompute 基于自身Serverless 架构,提供快速、全托管的在线数仓服务,在消除传统数据平台的资源扩展性和弹性限制方面极具优势,同时强调面向分析的便捷性与体验,使用户经济高效的分析处理海量数据,并便捷的对接BI分析工具,真正实现从数据到洞察的高效转化。帆软作为中国专业的大数据BI和分析平台提供商,致力于为全球企业提供一站式商业智能解决方案,旗下两款主要产品FineReport、FineBI本次与MaxCompute实现互联互通,帮助企业更好的开展以问题为导向的探索式分析工作。目前,该联合方案已在工业和医药行业客户中得到应用和实践落地。客户基于MaxCompute构建数据仓库,对主题数据域和业务数据域的数据进行处理,各种主题数据在数仓经过分析后,向上对FineBI提供数据源查询。FineBI可通过JDBC接口连接到MaxCompute数据仓库,用户可在FineBI通过即席查询进行自助式报表处理,也可将常用的数据抽取到FineBI进行缓存。MaxCompute提供的查询加速功能,可以满足200G以内数据的亚秒级查询。 阿里云MaxCompute一直秉持开放、生态的技术路线,持续投入产品生态建设,与阿里云上多款云产品实现无缝集成的同时,与众多开源大数据生态和商业工具生态实现集成互通,以真正满足客户灵活、多样的产品集成需求,构建云数据仓库开放的产品能力。本次发布与帆软FineBI 、FineReport两款产品的集成,将为企业带来高效的交互分析和强大的报表展示功能,支持多维深入分析和数据价值挖掘,助力企业对未来经营状况作出准确预测和决策。了解更多有关MaxCompute产品和技术,欢迎扫码加入MaxCompute开发者社区钉钉群。
【12月新发布功能】 1、MaxCompute 查询编辑器支持查询加速提升数据分析能力 MaxCompute 数据分析支持查询加速,当分析师通过SQL查询数据时,速度可提升至秒级,为数据分析师提供更优的数据分析体验。 适用客户及场景 数据分析师,尤其适用于数据分析师对离线数仓的数据进行取数,再通过Excel进行二次分析的场景。 发布功能 MaxCompute 数据分析查询模式支持 MaxCompute 查询加速,对于中、小数据量查询作业将执行时间从分钟级缩减至秒级。 通过 MaxCompute 查询编辑器发起查询 SQL 会优先通过查询加速进行查询,若满足则秒级返回结果,若不满足查询加速条件,则会回退离线查询,保障查询作业正常执行。 结合查询编辑器丰富的web-excel分析功能,数据分析师可通过MaxCompute数据分析快速的进行一站式数据查询、结果二次分析及结果分享。 MaxCompute查询加速功能当前支持按量计费资源,若您的项目使用包年包月资源,暂时还无法满足查询加速。 查看文档 >>2、MaxCompute 流式数据写入服务(Streaming Tunnel)公测发布 MaxCompute Streaming Tunnel 服务,支持 API 方式实现流式数据无感知高 QPS 写入 MaxCompute。 适用客户 有实时计算Flink、数据通道DataHub、数据传输服务DTS、消息服务kafka、实时数据同步等场景的企业、机构。 发布功能 流式语义API:全新的API,简化分布式服务开发操作。 自动创建分区:支持分布式服务并发创建分区。 支持数据异步 zorder by 排序功能。 查看文档 >>3、MaxCompute 按量计费 SQL 支持日累计消费限制 MaxCompute 发布按量计费 SQL 日累计消费限制功能,该功能可以实时监控并阻止按量计费 project 的 SQL 消费超出预算。 适用客户及场景 • 数据开发人员在数据开发过程中,通过开发项目进行数据探查、SQL测试等操作时,容易发起大输入量SQL且不能及时感知的,可通过该功能进行日累计总消费的限制。 • 数据分析师通过SQL查询取数时,容易发起大输入量的查询SQL,此时可单独划分项目给分析师取数,并通过该功能进行日累计总消费限制。 发布功能 MaxCompute 发布按量计费 SQL 日累计消费限制功能,提供对整个 Project 标准 SQL 日累计消费进行限制。 Project 内当日标准 SQL 发生的计量累计消费与正在发起的标准 SQL 预估消费总和大于设定的值,则正发起 SQL 会被限制执行,返回失败状态并给出失败信息,通过该功能阻止标准 SQ L日累计消费超出预算。 在设置前,需要充分评估日常消费量,设置合理值,避免累计消费超过设定值后导致 SQL 作业无法执行而耽误业务产出。如发现设置不合理,Project owner 或拥有 SuperAdministrator 的管理员可以随时进行调整。 查看文档 >>4、MaxCompute 运行中作业快照 Information_Schema.Tasks 内测发布 Information_Schema.Tasks 视图提供运行中作业的详细信息,支持通过该数据接口进行实时作业监控。 适用客户 需要实时监控作业并优化资源使用的客户 发布功能 以 Information_Schema.Tasks 视图方式,提供当前运行中作业的详细信息,包括作业列表以及各作业 cpu/内存使用大小和资源占比、运行时长等信息。通过该视图,使用人员可以快速定位运行时间较长的慢作业、资源消耗高的大作业,从而有针对性地进行作业优化或资源容量规划。 查看文档 >>5、MaxCompute 新建 Project 默认提供 Information_Schema 服务(中国区)发布 新建的Project,无需管理员手动安装,默认自动提供 Information_Schema 元数据服务,便于用户查看使用。 优化功能 创建新的 MaxCompute Project,系统将自动提供该 Project 的元数据视图,不需要管理员通过安装 Package 方式获取,Information_Schema 成为 MaxCompute 默认提供的服务内容。MaxCompute 产品官网 >>阅读往期月刊 >> 更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【12月新发布功能】1、MaxCompute 查询编辑器支持查询加速提升数据分析能力MaxCompute 数据分析支持查询加速,当分析师通过SQL查询数据时,速度可提升至秒级,为数据分析师提供更优的数据分析体验。适用客户及场景数据分析师,尤其适用于数据分析师对离线数仓的数据进行取数,再通过Excel进行二次分析的场景。发布功能MaxCompute 数据分析查询模式支持 MaxCompute 查询加速,对于中、小数据量查询作业将执行时间从分钟级缩减至秒级。 通过 MaxCompute 查询编辑器发起查询 SQL 会优先通过查询加速进行查询,若满足则秒级返回结果,若不满足查询加速条件,则会回退离线查询,保障查询作业正常执行。结合查询编辑器丰富的web-excel分析功能,数据分析师可通过MaxCompute数据分析快速的进行一站式数据查询、结果二次分析及结果分享。MaxCompute查询加速功能当前支持按量计费资源,若您的项目使用包年包月资源,暂时还无法满足查询加速。查看文档 >>2、MaxCompute 流式数据写入服务(Streaming Tunnel)公测发布MaxCompute Streaming Tunnel 服务,支持 API 方式实现流式数据无感知高 QPS 写入 MaxCompute。适用客户有实时计算Flink、数据通道DataHub、数据传输服务DTS、消息服务kafka、实时数据同步等场景的企业、机构。发布功能流式语义API:全新的API,简化分布式服务开发操作。自动创建分区:支持分布式服务并发创建分区。支持数据异步 zorder by 排序功能。查看文档 >>3、MaxCompute 按量计费 SQL 支持日累计消费限制MaxCompute 发布按量计费 SQL 日累计消费限制功能,该功能可以实时监控并阻止按量计费 project 的 SQL 消费超出预算。适用客户及场景数据开发人员在数据开发过程中,通过开发项目进行数据探查、SQL测试等操作时,容易发起大输入量SQL且不能及时感知的,可通过该功能进行日累计总消费的限制。数据分析师通过SQL查询取数时,容易发起大输入量的查询SQL,此时可单独划分项目给分析师取数,并通过该功能进行日累计总消费限制。发布功能MaxCompute 发布按量计费 SQL 日累计消费限制功能,提供对整个 Project 标准 SQL 日累计消费进行限制。Project 内当日标准 SQL 发生的计量累计消费与正在发起的标准 SQL 预估消费总和大于设定的值,则正发起 SQL 会被限制执行,返回失败状态并给出失败信息,通过该功能阻止标准 SQ L日累计消费超出预算。在设置前,需要充分评估日常消费量,设置合理值,避免累计消费超过设定值后导致 SQL 作业无法执行而耽误业务产出。如发现设置不合理,Project owner 或拥有 SuperAdministrator 的管理员可以随时进行调整。查看文档 >>4、MaxCompute 运行中作业快照 Information_Schema.Tasks 内测发布Information_Schema.Tasks 视图提供运行中作业的详细信息,支持通过该数据接口进行实时作业监控。适用客户需要实时监控作业并优化资源使用的客户发布功能以 Information_Schema.Tasks 视图方式,提供当前运行中作业的详细信息,包括作业列表以及各作业 cpu/内存使用大小和资源占比、运行时长等信息。通过该视图,使用人员可以快速定位运行时间较长的慢作业、资源消耗高的大作业,从而有针对性地进行作业优化或资源容量规划。查看文档 >>5、MaxCompute 新建 Project 默认提供 Information_Schema 服务(中国区)发布新建的Project,无需管理员手动安装,默认自动提供 Information_Schema 元数据服务,便于用户查看使用。优化功能创建新的 MaxCompute Project,系统将自动提供该 Project 的元数据视图,不需要管理员通过安装 Package 方式获取,Information_Schema 成为 MaxCompute 默认提供的服务内容。MaxCompute 产品官网 >>阅读往期月刊 >>更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
2020阿里巴巴大数据技术公开课不知不觉已到第五季,这一季我们会围绕 SaaS模式云数据仓库MaxCompute的开发实战与常见问题为各位 MaxCompute 开发者进行讲解和演示,欢迎共同学习。观看直播,请扫下图二维码,加入直播钉群即可观看。「 第一讲 」MaxCompute Logview2.0 参数详解及常见问题 直播时间:2020年12月16日 17:00-17:30直播简介:本次直播内容涵盖Logview 2.0 原理与功能介绍,以及Logview 2.0 分析问题作业讲解。直播回看 >>阅读文字版 >>「 第二讲 」MaxCompute Spark 使用和常见问题 直播时间:2020年12月23日 17:00-17:30直播简介:本次直播将就MaxCompute Spark开发环境搭建、常用配置、作业迁移注意事项以及常见问题进行深入介绍。直播回看 >>阅读文字版 >>「 第三讲 」MaxCompute 消费预警与控制 直播时间:2020年12月30日 17:00-17:30直播简介:本次直播将为您介绍如何通过MaxCompute消费控制及预警设置等内容,实现对作业的成本控制。直播回看 >>文字版 敬请期待「 第四讲 」MaxCompute Tunnel技术原理及开发实战 直播时间:2021年1月6日 17:00-17:30直播简介:本次直播主要内容涵盖Tunnel的原理,开发、最佳实践以及最新功能。直播回看 >>文字版 敬请期待MaxCompute官网 >>2020阿里巴巴大数据技术公开课第五季 — SaaS模式云数据仓库MaxCompute开发实战与常见问题 >>2020阿里巴巴大数据技术公开课第四季 — MaxCompute 持续定义 SaaS 模式云数据仓库 >>2020阿里巴巴大数据技术公开课第三季 — 阿里巴巴飞天大数据产品价值解读 >>2020阿里巴巴大数据技术公开课第二季 —SaaS模式云数据仓库MaxCompute的聪明买与智慧用 >>2020阿里巴巴大数据技术公开课第一季 — 从开源到云原生,你不得不知的大数据实战 >>2019 阿里巴巴大数据技术公开课年度合集(第一季~第六季)>>
【11月新功能发布】1、MaxCompute支持以RAM角色身份访问使用服务 在云账号、RAM用户基础上,支持以RAM角色身份访问服务,满足跨云服务的安全数据交换以及与企业已有身份系统实现SSO对接访问需求。 适用客户已自建身份系统需要以Role-Based SSO方式与阿里云服务对接的企业利用RAM角色使用其他云服务安全读写MaxCompute的企业 发布功能① MaxCompute项目空间在云账号、RAM用户基础上,增加对RAM角色的支持。管理员可添加RAM角色到项目空间并对RAM角色赋权,通过STS认证方式登录访问服务,实现无AK认证的安全访问需求;② MaxCompute Web控制台支持以STS访问认证,使用Ram角色在web控制台操作访问MaxCompute项目空间,进行数据分析、数据开发。 查看文档 >> 2、MaxCompute支持消息队列Kafka版通过Connector持续导入数据 消息队列Kafka版发布MaxCompute Sink Connector,无需开发实现Kafka数据持续导入MaxCompute。 适用客户使用消息队列Kafka版和MaxCompute构建数据采集和分析服务的客户 发布功能MaxCompute与消息队列Kafka版服务紧密集成,借助消息队列Kafka版服务的MaxCompute Sink Connector,无需第三方工具及二次开发,即可满足将指定Topic数据持续导入MaxCompute数据表的需求。极大简化Kafka消息队列数据进入MaxCompute的集成链路,并显著降低开发和运维成本。 查看文档 >>【11月精选文章推荐】• 玩物得志:效率为王 基于DataWorks+MaxCompute+MC-Hologres 构建大数据平台• 双11史上作业数最多,人工干预最少—MaxCompute 自适应执行引擎DAG2.0为1.5亿分布式作业提供自动化保障• SaaS模式云数据仓库实践手册 开放下载 >> MaxCompute 官网 >> 更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【11月新功能发布】1、MaxCompute支持以RAM角色身份访问使用服务在云账号、RAM用户基础上,支持以RAM角色身份访问服务,满足跨云服务的安全数据交换以及与企业已有身份系统实现SSO对接访问需求。适用客户已自建身份系统需要以Role-Based SSO方式与阿里云服务对接的企业利用RAM角色使用其他云服务安全读写MaxCompute的企业发布功能① MaxCompute项目空间在云账号、RAM用户基础上,增加对RAM角色的支持。管理员可添加RAM角色到项目空间并对RAM角色赋权,通过STS认证方式登录访问服务,实现无AK认证的安全访问需求;② MaxCompute Web控制台支持以STS访问认证,使用Ram角色在web控制台操作访问MaxCompute项目空间,进行数据分析、数据开发。查看文档 >>2、MaxCompute支持消息队列Kafka版通过Connector持续导入数据消息队列Kafka版发布MaxCompute Sink Connector,无需开发实现Kafka数据持续导入MaxCompute。适用客户使用消息队列Kafka版和MaxCompute构建数据采集和分析服务的客户发布功能MaxCompute与消息队列Kafka版服务紧密集成,借助消息队列Kafka版服务的MaxCompute Sink Connector,无需第三方工具及二次开发,即可满足将指定Topic数据持续导入MaxCompute数据表的需求。极大简化Kafka消息队列数据进入MaxCompute的集成链路,并显著降低开发和运维成本。查看文档 >>【11月精选文章推荐】玩物得志:效率为王 基于DataWorks+MaxCompute+MC-Hologres 构建大数据平台双11史上作业数最多,人工干预最少—MaxCompute 自适应执行引擎DAG2.0为1.5亿分布式作业提供自动化保障SaaS模式云数据仓库实践手册 开放下载 >>阅读往期月刊 >>MaxCompute 产品官网 >>更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
本稿件基于对玩物得志CTO张淼及大数据负责人朱朔晗采访成文 2018 年底,玩物得志从 0 开始,搭建技术团队,技术架构快速经历了服务化、平台化等转变。为了支撑业务的快速发展,玩物得志极少自己造轮子,会大量采用云平台提供的 SaaS、PaaS 服务。比如大数据体系是在阿里云 DataWorks + MaxCompute 框架体系上建设起来。使用了其核心存储、计算等组件,上层的可视化以及业务查询部分,在使用过程中也会有大量的定制化需求,玩物得志在开源方案的基础上进行了一些二次开发。之所以直接选择云产品搭建研发系统,张淼认为对于快速迭代的初创型企业来说,一切效率为王。如果选择自己去搭建整个链路和基础设施,很难有现在这么快的发展速度。 早期,玩物的数据量比较小,所有业务数据都放在一个大的数据DB 的实例里,所以当时读库或者用订阅binlog方式打造一个分析库,就可以完成日常报表输出工作。跑SQL就足够了,这是数据体量小的时候通用的一个方案。当时没有大数据的概念,都是在Mysql上跑sql脚本,出数据报表,定期给到运营,这就是玩物得志早期的基本的架构。从玩物得志APP 正式运转起来大概四五个月的时间,电商业务发展很快。2019年,每个月都是指数性增长,然后就发现Mysql查数据查不动了。我们就开始探索新的解决方案来帮助我们实现大数据平台的建设。之前我们更多是业务数据,比较简单,放在DB 里。在我们接入了埋点后,就要去拿日志。而解析日志Mysql是不支持的。我们开始去想到底哪种大数据平台架构可以满足我们当前的需求。 此时,玩物的人力资源受限,整体的数据规模也不大,虽然Mysql查不动,但也没有达到那么大规模,倾向于选择一站式的数据开发平台。其好处是不但效率高,我们又不需要投入人去做很多底层的事情。因为对创业公司来讲,早期做数据底层建设是费力不讨好的事情。其次就是能够高效的帮助我们把原来基于Mysql的这套体系搬到云上去。我们发现阿里云的DataWorks+MaxCompute 产品是符合我们预期的。因为我们最开始是一个DB ,DataWorks有一键整库同步到MaxCompute功能,对于早期做建设,基本上就是配置一下,等它运行完成之后,初步的入仓就做好了。体量不大,也不需要考虑分流,分层等一系列事情。另外,我们所有的业务应用都依托阿里云的平台,业务日志也是放在阿里云SLS服务上,SLS可以直接通过DataWorks归档到MaxCompute,能够缩短我们在数据转化中的链路,很便捷的把我们整个前端的日志和后端的业务数据结合起来。因此,我们就开始基于DataWorks + MaxCompute 来构建我们最早期的大数据平台。早期大数据平台架构 基于这个我们还做了一件事情。最开始大家都是跑Mysql发邮件和Excel,毕竟那时人少,业务也相对聚焦。当业务规模变大,业务方人变多,每个小部门的需求越来越分化时,我们就需要做一个可视化的数据平台。最开始用redash+RDS+MaxCompute的流程, MaxCompute对数据进行处理,然后通过数据集层回写到RDS,再通过RDS连接前端报表可视化软件去做展示。但存在的不足之处就是链路长,需要先把业务数据同步到MaxCompute,然后MaxCompute再去跑任务,跑完任务再写RDS,写到RDS再去给可视化用。整个环节长,中间链路多,数据累积多了,对RDS占用大,存储成本非常高。 于是我们开始推进到第二个阶段。使用redash工具,发现阿里云MaxCompute有一个Pyodps 的sdk能够在我们的开源工具二次开发集成Pyodps能力,就可以直接用MaxCompute里的数据,不需要去回写,这样就节省了RDS 存储空间,并且缩短我们的数据链路。当时,把很多需要回写的任务逐渐往这个方向去改造。这个改造本身解决了链路长和存储问题。但又出现了新问题,就是MaxCompute毕竟是一个文件系统,读取数据的速度不太能够秒级返回。于是我们又对MaxCompute做了深入的了解,发现 lightning 这个功能是能够符合我们预期的,它相当于在离线的系统上面又封装了一层,类似数仓DB的概念。我们所有的结果表都比较小了,都可以通过lightning 返回到报表系统。我们的报表系统通过这样的迭代,最终形成了业务数据库到MaxCompute,再通过lightning 返回到报表系统这样一个架构,将近一年的时间里,一直是这样的架构来实现数据可视化和自动化报表。 我们在初期遇到的问题,除了由电商业务本身的发展带来,另外一个原因是电商以外的业务正在逐步孵化出来。比如我们有内容社区的业务,也有商家端的业务。除了业务本身,技术架构上原来的单库支持本身存在RDS的瓶颈,不可能无限制扩张。于是,我们就开始对技术架构进行平台化,服务化的建设。反馈到数据这边的话,就是业务开发那边开始进行整个平台的分库分表。一个业务应用,就跑只有这个业务应用的实例,然后这个业务应用的实例,底层可能会有多个表。同一个业务同一个逻辑表,底下可能还会分到各个不同的事实表里,到这个阶段,我们的大数据建设面临的问题就变成了有很多的读库,并且业务变复杂了,再通过访问源表的方式进行报表加工就很低效。为了解决这两个问题我们做了两件事情。 第一,基于DataWorks 和MaxCompute本身的能力对原来的这种一键式整库归档数据仓库的方式做了调整。通过调整多个串行的数据基线,每个基线再通过每个节点运行的耗时和对资源的占用去合理的分配基线启动的时间,减少并发请求业务读库的情况。因为数量太大,如果并发去请求,会导致读库 IO打满,触发一系列的报警。通过这种方式,首先是减轻了读库的压力,其次还能节省读库成本,让读库配置不用做的特别高。 第二,业务分化,我们开始做数仓建模。在整个分库分表业务变更的过程中,引入了更多不同的数据库形式。最早是RDS数据库,都是单体Mysql。后来有些业务应用的数据规模特别大,Mysql 单机不能支持。我们就引入了DRDS、Hbase等一系列方案来解决业务上的数据存储、计算和处理的问题。对于我们的数仓来说,因为业务数据分散在不同的介质里, 所以我们的诉求是对不同来源的数据进行数据质量监控。这就应用到了DataWorks 和MaxCompute的特性,能够对数据质量进行定时监控,通过既有的触发报警的功能,提醒我们某天某个业务的数据流入是有异常的。这样我们的数仓同学就能够及时介入并解决问题。当前大数据架构 当下的情况又会跟中期不太一样,因为平台的体量又到达了更高量级。现实的问题就是不管什么样的业务,单表的数据量是非常大的。单表的数据规模大,就不能再用原来通过DataWorks数据集成方式批量导入。既然批量导入不现实,我们就开始调研其他方式来把业务DB的数据同步过来,我们也看了阿里云的产品,包括我们本身的DTS,它有数据集成的功能,也能够指向到数仓。不过用起来感受没那么完善。比如说DRDS的数据,没有办法直接打到数仓。因为有很多分库分表,我们需要DRDS的数据能够平滑的进入到数仓里。我们就对数据集成进行了迭代。先引入了一个新的集成组件DTS 加DataHub,然后再到数仓。因为DataHub可以根据我的需求进行数据归档,我可以每十五分钟就把数据归档到数仓里面。整个架构就会变成了来源是业务DB,然后DTS,然后DataHub。然后再通过DataWorks 进入MaxCompute这样一个云原生的大数据平台体系。 随着准实时和实时需求越来越多,有两个问题是亟待解决。一是原来所有数据查询,甚至准实时数据查询都依赖于MaxCompute本身的计算能力。因为有准实时需求,我们每1小时、半个小时甚至十五分钟都有大量的任务运行。但算力其实是受限的。BI同学想要去查一个表的数据,此时计算资源可能在同步其他的表或计算其他的任务,导致数据查询效率不高。这时我们发现了Hologres,他能访问MaxCompute底层文件数据,且不占用MaxCompute 资源,形成一个独立的计算节点和集群,解决我们查询加速和资源隔离的问题。 另外,我们当前有很多榜单类的实时数据指标需要提供给业务方。今年下半年又上线了广告平台,商家可以在我们平台内部投广告。榜单,直播这类业务都依赖实时数据来产生业务价值。这时我们就引入了实时数仓。实时数仓建设依赖阿里云EMR,采用Flink 加Kafka,对我们的数据进行订阅消费分层。数据来源也有几种,一个是DTS 到DataHub。因为DataHub除了能归档到MaxCompute,DataHub数据也可以被Flink在这些场景里去订阅。我们搭建实时数仓时,也用了Flink on Yarn的方式,基于EMR 的Yarn,最终帮我们把实时数仓的框架搭建起来。实时数仓建好后,还有一个诉求是需要实时数据,我们需要对数据进行报表化和可视化,自动推送一系列数据给业务方。此时,我们又引入了查询引擎Druid和superset的数据可视化。因为Druid和superset天然绑定在一起的,我们的Kafka,可以直接被Druid的数据引擎消费,以此实现完整的实时的数据链路闭环,构成了我们目前的大数据平台。离线是MaxCompute+DataWorks+报表可视化。实时是Flink+Kafka+Druid+superset。 再说到未来的规划,就是引入湖仓一体的建设。这样的规划是从两方面来考虑的。 未来规划 一方面是通过湖仓一体的建设,可以让离线和实时两套系统拿到同一份数据,数据不需在多个地方存多个备份。能够节省存储成本的同时能够保证我们数据的一致性。并且统一存储还能避免数据孤岛问题。所有数据不管是存、写、读,整个平台内的数据都能做关联的分析,甚至跳出结构化数据去做一些非结构化、半结构化数据的研究都。 另一方面是需要做冷热数据的分离,从大数据的成本角度,存储成本是可以优化的。很多冷数据,没有必要放在支持密集访问的存储介质里。阿里云目前的湖仓一体,能帮助我们去满足这种冷热分离的数据需求。可以把冷数据归档到对象存储OSS 里面。而每天频繁访问的热数据,还是放在MaxCompute里。同时我放到OSS 里面,可以获得一个完整的数据备份, OSS 数据又能通过JindoFS给EMR集群使用,帮助我们将离线和实时整个集群的存储打通。数据交换,信息交换都可以通过同一介质来完成。这就是我们未来希望能够完成的目标。 DataWorks 官网 >> MaxCompute官网 >> MaxCompute 交互式分析(Hologres)>>【欢迎扫码关注玩物得志技术】【欢迎加入MaxCompute开发者社区钉钉群】
本文作者 阿里云智能 资深技术专家 陈颖达 引言阿里巴巴双11史上作业数最多,但人工干预最少的一次双11技术保障: 从动态并发调整带来的单日10亿计算节点的节省,到数据智能编排带来的高级基线单个作业数十个小时执行时间的缩短,再到全新Bubble执行模式在百万作业获取的30%以上的性能提升。 本文为大家介绍,在2020年阿里巴巴集团双11海量作业数目与突变的数据特性面前,阿里云MaxCompute 新一代 DAG 2.0 执行引擎,通过其自适应的动态执行能力和新架构上的全新计算模式,如何为双11大促数据的及时产出提供自动化保障。1. 挑战与背景作为阿里巴巴集团技术的练兵场,双11对于阿里核心计算平台的分布式执行调度框架而言,无疑是面对海量大规模作业时,稳定性与可扩展性方面的最好检验。今天平台上每天调度执行着超过千万的分布式作业,2020双11期间(11月1号到11月11号),作业总数超过了1.5亿,单日作业数峰值超过1600万,单日处理数据量超过1.7EB。而另一方面,如同鲁肃所言,"双 11 的「变态」, 最终会变成未来的「常态」":以计算平台每日调度执行的分布式作业数为例,每年双11的作业数,相比去年同期,都以50%以上的速度在增长,而每年双11的峰值,终究会成为来年的日常状态。Fig. 1 每天分布作业数目与此同时,稳定性是基石,但并不是全部。在大量的作业数目和海量数据量的背后,是作业运行模式和数据分布特点的日益多样化。尤其是在大促期间,数据的分布的变化更加剧烈。在每日千万级作业的这个量级上,尤其是面对今年"双截棍式双11"的延长大促模式,人肉运维和人工保障早已无法支撑整个大促期间,以亿为单位来计算的分布式作业。在这方面,作为MaxCompute(ODPS) 和PAI等多个计算引擎重要底座的调度执行框架,早早已经开始思考,怎样从"手拉肩扛"的人肉保障,升级到到由依赖平台自身动态能力,来针对各种规模和不同数据特点作业进行动态的自适应调优,确保即便在双11数据洪峰下,同样能减少人工干预的介入,准时准点完成数据的产出。在这样的大背景下,DAG 2.0项目,对计算平台的核心调度执行引擎,实现了架构的更新换代。使得分布式执行引擎具备更加完善的自适应能力,以及对于上层多种计算模式的灵活支持。从2019开始亮相FY20双11后,在FY21(2020年), DAG 2.0执行引擎为上层计算平台提供了更多动态执行的能力,以及对新计算模式的支持。这些工作在刚刚过去的2020年双11中,得到了很好的检验,并为整个大促期间数据的及时稳定产出,起了保驾护航的重要作用。2. 自适应的动态执行:"不一样"的双11对于分布式作业而言,提交的执行计划本身的质量,很大程度上取决于引擎优化器对于作业数据特点的预判。而实际线上数据本身特性的复杂多变,以及处理逻辑的多样化,对优化器的预判准确性,会带来很大的影响。在双11大促期间的数据特性,包括数据量以及数据的分布,相比平常会有许多的不同。这使得平日的一些对重点作业的针对性调优,在"不一样"的双11数据前,其有效性会大打折扣,甚至可能起反作用。除了在大促期间对这些作业进行人肉保障以外,系统的解决方案,是将一些执行计划上的优化选择时机,从作业提交前,推迟到作业运行期间:根据实时收集的数据统计分布,来进行执行计划的动态调整。DAG 2.0引擎所提供的动态计划调整与执行能力,为解决这些挑战提供了必要的技术支持。这里我们选择了一部分基于DAG 2.0执行引擎实现的,并在2020双11期间起关键作用的动态自适应执行的相关功能,与大家分享。2.1 Adaptive Shuffle: 智能数据编排,解决数据倾斜数据倾斜一直都是分布式系统中的一个痛点,虽然在整个数据处理链路中,包括存储,优化器,计算引擎运行时等各个组件,都会尽可能避免倾斜的产生,但是数据本身的分布特性,有着其自身不可改变的客观特点。而在双11大促期间,数据倾斜的场景更是随处可见。例如在商品维度,爆款单品的销量以及对应的商品数据将发生严重倾斜;而在时间维度,双11凌晨0点的成交量无疑也是倾斜的,等等等等。由于数据倾斜带来的单个计算节点处理数据成百上千倍的增长,对应的是作业运行时间由于单点长尾,而被相应的拉长,严重情况下造成多大数个小时,甚至数十个小时的延迟。这对于需要保障产出时间SLA的重点基线作业,是无法接受的。尤其是在双11大促期间,数据分布特点的变化带来的倾斜,对于平台更是巨大的挑战。在过去往往通过人肉保障,杀作业修改SQL脚本重跑等方式来确保作业的及时完成,但是本质上的解决方法,还是需要系统本身,能够通过实时数据特性的统计,自适应的做出灵活的动态数据编排方案。在DAG 2.0框架上实现的Adapative Shuffle,通过探索对Shuffle数据进行自适应数据编排,能在不引入文件碎片的前提下,系统解决动态分区写入场景上的数据倾斜问题。今年的双11,也是Adaptive Shuffle在今年全面线上打开后,接受的一个重要检验。Fig. 2(a) 数据倾斜造成运行时间的延长Fig. 2(b) 基于Adaptive Shuffle的数据智能重排,避免数据倾斜双11效果:DAG 2.0执行引擎对于数据倾斜的智能检测,通过Adaptive Shuffle 自动调度多计算节点来处理倾斜分区,在双11期间覆盖线上所有动态分区作业,双11高峰当天超过13万个分布式作业生效。其中在重点基线上,有效消除数据倾斜最高达到550倍,等效于将(无人工干预时)本需要运行59个小时的作业,自适应调整到在6分钟内完成。而在普通作业上,消除数据倾斜最高数千倍。有效实现了长尾的智能规避消除,保障大促期间基线作业的及时产出。Fig. 3 双11当天,Adaptive Shuffle生效的13万线上作业,消除倾斜程度的作业数分布2.2 智能动态并发度调整: 分区级别自适应数据分布, 达到资源的最优使用对于分布式作业的并发度动态调整,业界最常见的做法,是AM(application master)在获取上游输出总数据量后,直接通过“总数据量除以单个计算节点期望处理数据量”的方式来计算预期并发,并且据此缩减比例,直接合并相邻数据分区。这种简单的并发调整策略,在数据分布均匀时可能获得预期效果;但是对于线上作业,理想的均匀分布经常是不现实的,尤其是对于双11大促场景,数据的分布可能更加的不均匀。所以这种简单的调整,可能在合并数据后引入严重的数据倾斜。另一方面,平台本身对于重点基线作业,会基于历史信息来协助执行计划生成(HBO)。但在大促期间,数据特性发生较大变化时,即便是平日较为稳定的基线作业,也可能无法根据历史信息推断合理的并发。而DAG 2.0提供的根据实时数据分布,实现分区级别的自适应并发调整,能够更准确的做出实时的判断,并且避免常见的并发调整策略可能带来的数据倾斜等副作用,做到功能的普适性。今年的双11,也是平台在这个基础上,第一次对于有HBO信息的基线作业,同样打开动态并发调整,使得其覆盖的范围大大扩展。Fig. 4 简单 vs 自适应动态并发调整策略双11效果:MaxCompute离线作业通过DAG 2.0完善的动态图执行能力,面对数据计算量洪峰,能有针对性的进行自适应动态调整。在双11大促期间,其自适应的动态并发度调整,在超过1千万的大规模分布式作业上生效。其中11月1号小高峰,通过发动态调整节省了7.8亿个计算节点的调度;而在11月11号当晚,则节省了高达近10亿计算节点的调度。节省资源的同时,保证了计算节点处理数据分布的均匀,确保了集群资源在大促期间的有效使用。2.3 Conditional Join: 实时Join算法的最优选择对于传统的大数据作业,作业的执行计划由优化器在提交前确定,运行过程中无法对优化器提供的计划再进行调整。这中"一锤子买卖"的计划产生方式,对于优化器的预判能力有着非常高的要求,对线上实际作业而言,经常得不到满足。比如对SQL作业中常见的join操作,不同的join算法各有所长,一方面Broadcast Join在性能方面具备显著优势,而SortMerge Join本身更好的通用性,能处理更多的数据join。在实际线上场景中,要求优化器要在作业执行之前,就对起中间数据大小,做出"准确的判断",从而选择最优计划,是比较困难的,出现误判的情况在所难免。导致优化器"误判"的原因很多,包括准确统计数据的缺失,数据处理逻辑以及数据特性的复杂多变等等。而在双11的大促场景上,数据特性的大幅度变化,更可能出现类似某张小表因为数据量大增而变成了一张大表的场景。这种时候如果运维/用户没有及时人工干涉的话,依然按照小表特性来做优化,而使用broadcast join执行计划,会导致运行时OOM失败,损害pipeline产出的稳定性。Fig. 5 分布式SQL中,不同的join算法针对这种局限,DAG 2.0执行引擎的动态逻辑图调整能力,为优化器提供了新的选择:允许其在无法事先确定最优join算法时,来提供conditional的结合了不同执行可能性的"综合计划"。在这个基础上,由执行引擎负责在作业运行过程中,收集了足够多的准确数据分布信息后,动态对执行计划进行调整和最优选择。Fig. 6 DAG 2.0上支持的conditional join实现这种动态的选择调整,不仅支持单个join的场景,同时也支持通过作业中多个join节点,以及嵌套join的实现:Fig. 7 嵌套conditional join在执行过程中的动态计划变化双11效果:在双十一当天,有57万作业使用了conditional join,占全网带join操作的离线作业总数的40%。在这些conditional join作业中,均做出了正确的动态选择: 根据统计信息的指导,绝大多数(98.5%) 作业选择了适用的broadcast join算法来获取更优的性能,在这些选择broadcast join的作业中,无一发生OOM错误。相比去年,今年双11当天,全网选用broadcast join的生产作业绝对数目,几近翻倍,在join作业中的占比相对增长20%。这种基于实时信息的动态选择,使得系统能够无需因为少数不适用场景(1.5%),而放弃探索更优化的执行计划。同时对于部分数据膨胀作业,也能在避免人工运维干预的前提下,自动检测出broadcast join不再适用,采用merge join。3. 新一代执行框架:更灵活,更高效在DAG 2.0执行引擎的基础之上,计算平台在今年实现了对准实时执行框架的全面升级,采取了全新的资源管理与作业管理分离的架构,并支持了作业管理组件水平扩展的能力,为支持双11大促中的海量作业数目,做好了技术储备,并获得了较好的效果。同时在系统层面,执行引擎基于事件处理的核心状态机实现逻辑,今年也持续进行针对各种不同规模作业的性能调优。这些执行引擎核心性能的提升,带来的是全网每天千万以上作业性能的统一提升。3.1 系统层面各种指标优化在2.0全面上线和持续优化后,今年双十一期间,离线计算节点执行的overhead,相比于去年双十一降低2.8X。overhead在计算节点运行时间中的占比数倍降低。光这个调度overhead上的优化,就等同于为阿里集团节省了数千台物理机。同时准实时作业单天总量突破一千万,相比去年增长65%,准实时作业的overhead下降1.9X,亚秒级别的作业占比提升2.4X,准实时作业回退到离线模式的概率,降低2.9X。准实时作业数目调度计算节点总数2019 双11当天~7百万6亿+2020 双11当天1000万+8亿+3.2 双11高负载集群集中治理在今年双11前期压测中,发现集团线上几个大规模集群上,由于作业数目飙升,导致准实时服务QPS被打满,大量作业回退到离线模式运行。而这些离线作业,在fuxi master并发达到上限时,同样会引发排队,导致等待时间显著延长。针对这种情况,对于这些集群,借助准实时框架2.0升级,上线了作业管理组件水平等优化,使得更多作业可以准实时模式执行,大幅提升了这些作业的性能,并降低用户排队时间。保证在集群整体资源不变的情况下,支撑双十一大数据量和大业务量的冲击。Fig. 8 准实时执行框架2.0新架构以集团内部某大规模集群为例,打开准实时2.0框架的作业管理横向扩展能力后,每天由于QPS超限导致回退的作业数目降为0,新准入的每天13万个准实时作业,相比之前使用离线模式时,执行性能提升10倍。同时离线作业数量降低了23%:在集群整体机器资源不变的情况下,大大缓解了集群上大量离线排队导致的压力和延迟。此外飞天nuwa服务作为集团集群上统一分布式协调服务,承载了集群上各种作业的重要协调功能功能。DAG执行引擎通过与阿里飞天nuwa团队协作,双十一之前,重构了准实时框架调用nuwa服务的接口方式,有效的避免了在大规模服务重启时,对nuwa的峰值流量冲击和队列堆积,确保了双11期间其他分布式组件的的稳定。Fig. 9 准实时执行框架升级对nuwa服务峰值压力的降低3.3 PAI弹性批量推理引擎升级除了对MaxCompute作业实现全面对接,DAG 2.0执行引擎的升级,也为PAI平台上Tensorflow/PyTorch作业等执行模式,提供了原生支持。这包括对作业语义的准确描述,以及在动态性,容错方面的全面提升。而在今年双11前夕,PAI团队与执行调度框架团队通力协作,推动了基于资源伸缩的弹性批量推理引擎升级,大大提升了PAI推理作业的整体性能。在实现新的引擎升级之前,推理作业本质上还是贴着深度学习训练作业的计算模式实现,包括资源的申请使用逻辑,以及调度和failover处理等等方面。而事实上,推理作业本身的特性,与训练作业是有着较大区别,例如计算量的相对可预测性,计算的大规模化和可扩展性,计算节点运行相互独立等等。针对这些特点, 新的弹性批量推理引擎通过支持计算节点的弹性起停,利用部分超卖和超卖升级来解决GPU资源质量,以及动态数据分配等方法,对推理作业进行了大量针对性的优化。新一代的离线弹性推理引擎,在双11前通过PAI-EVPredict打开,服务了包括搜索、阿里妈妈、淘宝、优酷、ICBU、高德、饿了么、新零售等BU。升级后,PAI-EVPredict上任务排队时长平均减小95%,任务执行时长平均减少2X以上。下图展示了其在某算法推荐团队视频特征抽取任务上的具体效果。Fig. 10 算法推荐团队视频特征抽取任务日任务耗时趋势变化3.4 全新计算模式探索在DAG 2.0执行引擎上,原有的离线模式和准实时模式通过底层灵活的分层DAG模型得以统一。同时在此统一模型上,新的计算模式的探索成为可能。FY21财年期间,新的混合Bubble执行模式的开发,使得平台上规模多种多样的作业,能够在极致性能以及高效的资源利用率之间,探索更好的平衡点。这种全新的计算模式,使得各个规模的作业,均能够在等效资源消耗上,获取进一步的性能优化。Fig. 11 统一的DAG描述模型,使得混合Bubble执行成为可能截至今年的双11,Bubble执行模式正在集团内部稳步推进上线的过程中。并在双11前,完成了除高级基线以外全网3200+个project的升级,覆盖了离线作业70%流量。在双11高峰当天,有近150万作业使用Bubble模式执行。对于双11之前的一星期工作日统计的归一化效果如下:Fig. 12 Bubble vs 离线模式的执行性能和资源消耗对比在使用有限考虑资源使用效率的Bubble切割算法(具体Bubble切分算法可以参见Bubble执行专门的介绍)时,从实际生产作业统计来看,Bubble执行模式能在资源消耗基本不变的情况下,带来线上作业30% ~ 40%的性能提升。目前Bubble执行模式正在高级基线上稳步推进,期望在今年的双12和明年双11上取得全网作业上的性能提升。4. 展望DAG 2.0核心执行引擎的架构升级,旨在夯实计算平台长期发展的基础,并支持上层计算引擎与分布式调度方面结合,实现各种创新并以及新计算生态的创建。在2019双11基本完成架构本身的升级,向前迈出重要的第一步;在2020年期间,依托DAG 2.0新架构开发的多个新功能实现了落地,包括动态自适应执行能力和新计算模式的实现等等。这些新功能在刚刚过去的双11中经受住了考验。于此同时,我们也发现大促期间,还是存在比如数据特性变化后,join操作发生较严重的skew等一系列线上一直没有系统解决的问题。执行引擎将与计算引擎团队共同合作,通过adaptive skew join的动态监测方式,推动自适应解决方案的上线。新架构的能力也会与上层计算引擎,以及系统的其他组件进行进一步的深度整合,释放架构升级红利,共同推动平台整体的向前发展。面向分析的SaaS模式云数据仓库MaxCompute 官网 >>欢迎加入 “MaxCompute开发者社区”钉钉群,了解更多阿里巴巴大数据技术。
近日,全球权威研究机构Forrester、IDC分别发布《中国预测分析和机器学习Wave,2020Q4》和《Marketscape:中国大数据管理平台厂商评估,2020》报告,阿里云机器学习平台PAI和大数据平台MaxCompute分别位居领导者象限,且在战略维度上双双领先。 Forrester对中国市场预测分析和机器学习厂商从战略、产品和市场表现三个维度进行了全面评估,Forrester认为,阿里云机器学习平台PAI提供了灵活多样的AI服务,包括可视化建模、交互式编程、自动化建模、分布式训练加速服务等,覆盖语音、视觉、NLP、自动驾驶、搜索推荐等多个领域的实战经验。 今年5月,阿里云推出了面向AI开发的交互式建模平台PAI DSW 2.0,借助Docker和Kubernetes等云原生技术,可无缝对接大数据计算引擎,覆盖单机多卡训练、多机多卡分布式训练及在线推理等场景,帮助开发者快速完成环境搭建,极大减少了算法工程师的人力投入和企业自购异构计算资源的成本。 大数据方面,IDC同样给出了较高的评价,在2020中国大数据管理平台厂商评估中。阿里云位列领导者象限,且在战略愿景上领先。 IDC认为阿里云的大数据分析能力在零售行业场景得到证明,客户从互联网行业开始,逐渐拓展到零售、政府、金融等行业,典型客户如小影、Yeahmobi 点告、宝宝树、大润发等。 与此同时,阿里云提供了丰富的大数据计算引擎和易用的大数据研发与治理平台,涵盖数据构建、数据集成、数据分析等能力,全面满足各类客户在不同阶段的计算需求。 刚刚结束的2020天猫双11中,阿里云大数据平台再次刷新纪录:MaxCompute单日计算数据量达1.7EB,相当于为全球70多亿人每人处理230张高清照片;实时计算Flink峰值每秒处理达40亿条,相当于一秒看完500万本新华字典;实时计算Flink和MaxCompute交互式分析(Hologres)搭建的实时数仓首次在核心数据场景落地,菜鸟在大规模应用之后,整个链路的数据同步时间从1小时缩减到3分钟。 访问 MaxCompute 产品官网 >> 加入MaxCompute 开发者社区
SaaS模式云数据仓库概述 数据管理领域的技术演进以及云计算的蓬勃发展催生了基于云提供开箱即用的数据仓库服务的产品模式-Data Warehouse as a Service(DWaaS),最终用户无需关心基础设施、平台软件管理以及平台运维和优化升级工作。这部分工作由服务提供商完全托管并提供满足SLA要求的高质量服务,减少用户的前期投入并加速价值实现,让数据仓库服务回归服务的本质。阿里云MaxCompute正是基于云构建的SaaS模式的数据仓库服务,它的核心特点包括:1.按需使用的在线服务· MaxCompute预先准备了大规模资源池,无需预先资源开通、容量规划,用户可直接使用开展数据管理和分析工作;· MaxCompute提供存储计算分离和Serverless无服务器的架构设计,面向用户提供On-Demand的按需使用服务能力,用户可仅为实际使用付费; 2.集成现代数据仓库完善功能的多租户服务· MaxCompute内建了高性能存储引擎,多种主流的计算分析引擎(SQL、机器学习、Spark等)和内外部数据管理能力,满足现代化数据仓库分析需求;同时提供完善的API/SDK/CLI用户接口,并支持与广泛的生态集成;· MaxCompute是个多租户系统,通过完善的多租户隔离和管理能力。提供对不同组织的租户间进行资源、数据、任务的强隔离以保障安全。同时通过权限控制机制,支持组织内或组织间安全、受控地进行资源共享交换;同时为每个租户提供资源监控、任务管理、作业诊断能力,支持用户自助进行必要的管理工作;· 作为企业级数据仓库服务,MaxCompute提供完善的安全管理能力,包括:访问控制与授权、多租户/作业级别的安全隔离、操作审计、数据保护(隐私脱敏、数据加密、、备份恢复、异地容灾)等能力,满足企业级不同的安全、合规需求。 企业用户在关心数据仓库产品新的交付模式和特性之外,会更加关心如何借助利用这一技术平台满足企业实际的业务需求。本季直播将介绍借助MaxCompute这一SaaS模式云数据仓库服务的典型使用场景和价值,包括: 云数据仓库+BI:云数据仓库的低成本、高性能,赋能组织内众多用户按需使用,促进数据民主化;云数据仓库+AI:现代化的数据仓库服务在统一的企业数据资产之上,不仅提供历史分析,更需要是借助数据提供预测性分析,进行业务决策;云数据仓库+实时分析:传统数据仓库以T+1洞察为主,如何为企业提供实时洞察分析能力,让各级业务人员实时决策以提升业务效果成为数据仓库领域的热点话题;云数据仓库+实时搜索:如何利用数据仓库对多样的企业数据进行加工、整合,为企业内外部客户提供更有效的信息检索能力;云数据仓库+数据银行:SaaS模式能够在服务级别与外部服务高价值服务进行预先集成,特别是外部高价值数据的集成能够大大提升。MaxCompute与友盟数据银行服务集成,低成本扩展企业数据能力。 直播内容干货整理如下 第一讲 MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+Severless 简介:直播回看 >>文字版 >>第二讲 MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+BI 直播回看 >>文字版 >>第三讲 MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+AI 直播回看 >>文字版 >>第四讲 MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+实时分析 直播回看 >>文字版 >>第五讲 MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+实时搜索 直播回看 >>文字版 >>第六讲 MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+数据银行 直播回看 >>文字版 >>免费下载《SaaS模式云数据仓库手册》>> 更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【10月新功能发布】 1、MaxCompute 支持 sort by 不带 distribute by MaxCompute 支持 sort by 不带 distribute by,提供数据重排的解决方案,提高SQL执行的过滤性能。 适用客户开发者 发布功能MaxCompute 支持不带 distribute by 的sort by,提供数据重排的解决方案,提高谓词下推的过滤性能。当 sort by 语句前没有 distribute by 时能够增加 存储压缩率,同时读取的时候如果有过滤,能够利用这个信息减少真正从磁盘读取的数据量,提高后面进行的全局排序的效率。 查看文档 >>2、SEMI JOIN 支持 MAPJOIN Hint SEMI JOIN支持MAPJOIN Hint,提高 LEFT SEMI/ANTI JOIN的性能,为数据倾斜问题提供解决方案。 适用客户开发者,分析师 发布功能当一个大表和一个或多个小表JOIN时,用户可以在SELECT语句中显式指定MAPJOIN Hint以提升查询性能。目前MAPJOIN Hint进一步支持 LEFT SEMI JOIN和LEFT ANTI JOIN, 可以提高SEMI JOIN的性能,同时也为数据倾斜问题提供解决方案。 查看文档 >>3、OSS外部表CSV/TSV文件支持GBK编码格式 OSS外部表CSV/TSV文件支持GBK编码格式。 适用客户开发者 发布功能OSS 外部表 odps.text.option.encoding 原先支持三种格式:UTF-8/UTF-16/US-ASCII,在新版本中增加了对GBK编码格式的支持。 查看文档 >>4、批量 Drop Partition 支持条件筛选 使用条件表达式匹配选中的分区进行批量删除,满足用户希望一次删除符合某个规则的一个或多个分区的需求。 适用客户开发者、数据仓库管理员 发布功能支持条件筛选方式删除分区。如果用户希望一次性删除符合某个规则条件的一个或多个分区,可以使条件表达式匹配选中的分区进行批量删除。 查看文档 >>5、MaxCompute 新增支持更多内置函数 新增 WIDTH_BUCKET 函数,时间函数 year/quarter/month 等对 DateTime 输入数据类型的支持。 适用客户开发者、数据分析师 发布功能WIDTH_BUCKET函数:获取某个字段值落入的分组编号,设定分组范围的最小值和最大值,以及分组个数,构建指定个数的大小相同的分组,返回字段值落 入的分组编号。时间函数 year/quarter/month/day/hour/minute/second 增加对DateTime输入数据类型的支持 - 增加如下内建函数接口:• INT year(datetime date)• INT quarter(datetime date)• INT month(datetime date)• INT day(datetime date)• INT hour(datetime date)• INT minute(datetime date)• INT second(datetime date) 查看文档 >> 查看文档 >>6、MaxCompute 写表支持Zorder by语句 增加 SQL DML的 zorder by 语句,支持把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。 适用客户开发者、数据分析师 发布功能增加 SQL DML 的 zorder by 语句,支持DML语句的方式把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。 查看文档 >>阅读往期月刊 >> MaxCompute 产品官网 >> 免费下载《SaaS模式云数据仓库手册》>> 更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【10月新功能发布】 1、MaxCompute 支持 sort by 不带 distribute by MaxCompute 支持 sort by 不带 distribute by,提供数据重排的解决方案,提高SQL执行的过滤性能。 适用客户开发者 发布功能MaxCompute 支持不带 distribute by 的sort by,提供数据重排的解决方案,提高谓词下推的过滤性能。当 sort by 语句前没有 distribute by 时能够增加存储压缩率,同时读取的时候如果有过滤,能够利用这个信息减少真正从磁盘读取的数据量,提高后面进行的全局排序的效率。 查看文档 >>2、SEMI JOIN 支持 MAPJOIN Hint SEMI JOIN 支持 MAPJOIN Hint,提高 LEFT SEMI/ANTI JOIN的性能,为数据倾斜问题提供解决方案。 适用客户开发者,分析师 发布功能当一个大表和一个或多个小表JOIN时,用户可以在 SELECT 语句中显式指定 MAPJOIN Hint 以提升查询性能。目前 MAPJOIN Hint 进一步支持 LEFT SEMI JOIN 和 LEFT ANTI JOIN, 可以提高 SEMI JOIN 的性能,同时也为数据倾斜问题提供解决方案。 查看文档 >>3、OSS 外部表 CSV/TSV 文件支持 GBK 编码格式 OSS 外部表 CSV/TSV 文件支持 GBK 编码格式。 适用客户开发者 发布功能OSS 外部表 odps.text.option.encoding 原先支持三种格式:UTF-8/UTF-16/US-ASCII,在新版本中增加了对GBK编码格式的支持。 查看文档 >>4、批量 Drop Partition 支持条件筛选 使用条件表达式匹配选中的分区进行批量删除,满足用户希望一次删除符合某个规则的一个或多个分区的需求。 适用客户开发者、数据仓库管理员 发布功能支持条件筛选方式删除分区。如果用户希望一次性删除符合某个规则条件的一个或多个分区,可以使条件表达式匹配选中的分区进行批量删除。 查看文档 >>5、MaxCompute 新增支持更多内置函数 新增 WIDTH_BUCKET 函数,时间函数 year/quarter/month 等对 DateTime 输入数据类型的支持。 适用客户开发者、数据分析师 发布功能WIDTH_BUCKET函数:获取某个字段值落入的分组编号,设定分组范围的最小值和最大值,以及分组个数,构建指定个数的大小相同的分组,返回字段值落入的分组编号。时间函数 year/quarter/month/day/hour/minute/second 增加对DateTime输入数据类型的支持 - 增加如下内建函数接口:• INT year(datetime date)• INT quarter(datetime date)• INT month(datetime date)• INT day(datetime date)• INT hour(datetime date)• INT minute(datetime date)• INT second(datetime date) 查看文档 >> 查看文档 >>6、MaxCompute 写表支持Zorder by语句 增加 SQL DML的 zorder by 语句,支持把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。 适用客户开发者、数据分析师 发布功能增加 SQL DML 的 zorder by 语句,支持DML语句的方式把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。 查看文档 >>阅读往期月刊 >> MaxCompute 产品官网 >> 免费下载《SaaS模式云数据仓库手册》>> 更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
作者 |关涛、李睿博、孙莉莉、张良模、贾扬清(from 阿里云智能计算平台) 黄波、金玉梅、于茜、刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。 大数据领域发展20年的变与不变 1.1 概述 大数据领域从本世纪初发展到现在,已经历20年。从宏观层面观察其中的发展规律,可以高度概括成如下五个方面: 1、数据保持高速增长- 从5V核心要素看,大数据领域保持高速增长。阿里巴巴经济体,作为一个重度使用并着力发展大数据领域的公司,过去5年数据规模保持高速增长(年化60%-80%),增速在可见的未来继续保持。对于新兴企业,大数据领域增长超过年200%。 2、 大数据作为新的生产要素,得到广泛认可- 大数据领域价值定位的迁移,从“探索”到“普惠”,成为各个企业/政府的核心部门,并承担关键任务。还是以阿里巴巴为例,30%的员工直接提交大数据作业。随大数据普惠进入生产环境,可靠性、安全性、管控能力、易用性等企业级产品力增强。 3、数据管理能力成为新的关注点- 数仓(中台)能力流行起来,如何用好数据成为企业的核心竞争力。 4、引擎技术进入收敛期 - 随着Spark(通用计算)、Flink(流计算)、Hbase(KV)、Presto(交互分析)、ElasticSearch(搜索)、Kafka(数据总线)自从2010-2015年逐步占领开源生态,最近5年新引擎开源越来越少,但各引擎技术开始向纵深发展(更好的性能、生产级别的稳定性等)。 5、平台技术演进出两个趋势,数据湖 VS 数据仓库- 两者均关注数据存储和管理(平台技术),但方向不同。 图1. 阿里巴巴双十一单日处理数据量增长 1.2 从大数据技术发展看湖和仓 首先,数据仓库的概念出现的要比数据湖早的多,可以追溯到数据库为王的上世纪 90 年代。因此,我们有必要从历史的脉络来梳理这些名词出现的大概时间、来由以及更重要的背后原因。大体上,计算机科学领域的数据处理技术的发展,主要分为四个阶段: 1、阶段一:数据库时代。数据库最早诞生于 20 世纪的 60 年代,今天人们所熟知的关系型数据库则出现在 20 世纪 70 年代,并在后续的 30 年左右时间里大放异彩,诞生了很多优秀的关系型数据库,如 Oracle、SQL Server、MySQL、PostgresSQL 等,成为当时主流计算机系统不可或缺的组成部分。到 20 世纪 90 年代,数据仓库的概念诞生。此时的数据仓库概念更多表达的是如何管理企业中多个数据库实例的方法论,但受限于单机数据库的处理能力以及多机数据库(分库分表)长期以来的高昂价格,此时的数据仓库距离普通企业和用户都还很遥远。人们甚至还在争论数据仓库(统一集中管理)和数据集市(按部门、领域的集中管理)哪个更具可行性。 2、阶段二:大数据技术的「探索期」。时间进入到 2000 年附近,随着互联网的爆发,动辄几十亿、上百亿的页面以及海量的用户点击行为,开启了全球的数据量急剧增加的新时代。传统的数据库方案再也无力以可接受的成本提供计算力,巨大的数据处理需求开始寻找突破口,大数据时代开始萌芽。2003、2004、2006 年 Google 先后 3 篇经典论文(GFS、MapReduce、BigTable)奠基了这个大数据时代的基本技术框架,即分布式存储、分布式调度以及分布式计算模型。随后,几乎是在同一时期,诞生了包括 Google,微软 Cosmos 以及开源 Hadoop 为代表的优秀分布式技术体系,当然,这其中也包括阿里巴巴的飞天系统。此时人们兴奋于追求数据的处理规模,即『大』数据,没有闲暇争论是数据仓库还是数据湖。 3、阶段三:大数据技术的「发展期」。来到 21 世纪的第二个 10 年,随着越来越多的资源投入到大数据计算领域,大数据技术进入一个蓬勃发展的阶段,整体开始从能用转向好用。代替昂贵的手写 MapReduce 作业的,则是如雨后春笋般出现的各种以 SQL 为表达的计算引擎。这些计算引擎针对不同的场景进行针对性优化,但都采用门槛极低的 SQL 语言,极大降低了大数据技术的使用成本,数据库时代人们梦想的大一统的数据仓库终于成为现实,各种数据库时代的方法论开始抬头。这个时期技术路线开始出现细分。云厂商主推的如 AWS Redshift、Google BigQuery、Snowflake,包括 MaxCompute 这样的集成系统称为大数据时代的数据仓库。而以开源 Hadoop 体系为代表的的开放式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎(Hive、Presto、Spark、Flink 等)协同工作的模式,则形成了数据湖的雏形。 4、阶段四:大数据技术「普及期」。当前,大数据技术早已不是什么火箭科技,而已经渗透到各行各业,大数据的普及期已经到来。市场对大数据产品的要求,除了规模、性能、简单易用,提出了成本、安全、稳定性等更加全面的企业级生产的要求。 · 开源 Hadoop 线,引擎、元数据、存储等基础部件的迭代更替进入相对稳态,大众对开源大数据技术的认知达到空前的水平。一方面,开放架构的便利带来了不错的市场份额,另一方面开放架构的松散则使开源方案在企业级能力构建上遇到瓶颈,尤其是数据安全、身份权限强管控、数据治理等方面,协同效率较差(如 Ranger 作为权限管控组件、Atlas 作为数据治理组件,跟今天的主流引擎竟然还无法做到全覆盖)。同时引擎自身的发展也对已有的开放架构提出了更多挑战,Delta Lake、Hudi 这样自闭环设计的出现使得一套存储、一套元数据、多种引擎协作的基础出现了某种程度的裂痕。 · 真正将数据湖概念推而广之的是AWS。AWS 构筑了一套以 S3 为中心化存储、Glue 为元数据服务,E-MapReduce、Athena 为引擎的开放协作式的产品解决方案。它的开放性和和开源体系类似,并在2019年推出Lake Formation 解决产品间的安全授信问题。虽然这套架构在企业级能力上和相对成熟的云数据仓库产品相去甚远,但对于开源技术体系的用户来说,架构相近理解容易,还是很有吸引力。AWS 之后,各个云厂商也纷纷跟进数据湖的概念,并在自己的云服务上提供类似的产品解决方案。 · 云厂商主推的数据仓库类产品则发展良好,数仓核心能力方面持续增强。性能、成本方面极大提升(MaxCompute 完成了核心引擎的全面升级和性能跳跃式发展,连续三年刷新 TPCx-BigBench 世界记录),数据管理能力空前增强(数据中台建模理论、智能数仓),企业级安全能力大为繁荣(同时支持基于 ACL 和基于规则等多种授权模型,列级别细粒度授权,可信计算,存储加密,数据脱敏等),在联邦计算方面也普遍做了增强,一定程度上开始将非数仓自身存储的数据纳入管理,和数据湖的边界日益模糊。 综上所述,数据仓库是个诞生于数据库时代的概念,在大数据时代随云厂商的各种数仓服务落地开花,目前通常指代云厂商提供的基于大数据技术的一体化服务。而数据湖则脱胎于大数据时代开源技术体系的开放设计,经过 AWS 整合宣传,通常是由一系列云产品或开源组件共同构成大数据解决方案。 图2. 20年大数据发展之路 什么是数据湖 近几年数据湖的概念非常火热,但是数据湖的定义并不统一,我们先看下数据湖的相关定义。 Wikipedia对数据湖的定义: A data lake is a system or repository of datastored in its natural/raw format,usually object blobsor files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analyticsand machine learning. A data lake can include structured datafrom relational databases(rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data(emails, documents, PDFs) and binary data(images, audio, video). A data lake can be established "on premises" (within an organization's data centers) or "in the cloud" (using cloud services from vendors such as Amazon, Google and Microsoft).A data swamp is a deteriorated and unmanaged data lake that is either inaccessible to its intended users or is providing little value. 数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。储存数据湖的方式包括 Apache Hadoop分布式文件系统, Azure 数据湖或亚马逊云 Lake Formation云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案。数据沼泽是一个劣化的数据湖,用户无法访问,或是没什么价值。 AWS的定义相对简洁: A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions. 数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。 Azure等其他云厂商也有各自的定义,本文不再赘述。 但无论数据湖的定义如何不同,数据湖的本质其实都包含如下四部分: 1、统一的存储系统 2、存储原始数据 3、丰富的计算模型/范式 4、数据湖与上云无关 从上述四个标准判断,开源大数据的Hadoop HDFS存储系统就是一个标准的数据湖架构,具备统一的原始数据存储架构。而近期被广泛谈到的数据湖,其实是一个狭义的概念,特指“基于云上托管存储系统的数据湖系统,架构上采用存储计算分离的体系”。例如基于AWS S3系统或者阿里云OSS系统构建的数据湖。 下图是数据湖技术架构的演进过程,整体上可分为三个阶段: 图3. 数据湖技术架构演进 1、阶段一:自建开源Hadoop数据湖架构,原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体。缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性差。 2、阶段二:云上托管Hadoop数据湖架构(即EMR开源数据湖),底层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主。这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性,使企业的整体运维成本有所下降,但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理,即应用层的运维工作。同时因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不是最优。 3、阶段三:云上数据湖架构,即云上纯托管的存储系统逐步取代HDFS,成为数据湖的存储基础设施,并且引擎丰富度也不断扩展。除了Hadoop和Spark的生态引擎之外,各云厂商还发展出面向数据湖的引擎产品。如分析类的数据湖引擎有AWS Athena和华为DLI,AI类的有AWS Sagemaker。这个架构仍然保持了一个存储和多个引擎的特性,所以统一元数据服务至关重要,如AWS推出了Glue,阿里云EMR近期也即将发布数据湖统一元数据服务。该架构相对于原生HDFS的数据湖架构的优势在于: · 帮助用户摆脱原生HDFS系统运维困难的问题。HDFS系统运维有两个困难:1)存储系统相比计算引擎更高的稳定性要求和更高的运维风险 2)与计算混布在一起,带来的扩展弹性问题。存储计算分离架构帮助用户解耦存储,并交由云厂商统一运维管理,解决了稳定性和运维问题。 · 分离后的存储系统可以独立扩展,不再需要与计算耦合,可降低整体成本 · 当用户采用数据湖架构之后,客观上也帮助客户完成了存储统一化(解决多个HDFS数据孤岛的问题) 下图是阿里云EMR数据湖架构图,它是基于开源生态的大数据平台,既支持HDFS的开源数据湖,也支持OSS的云上数据湖。图4. 阿里云EMR数据湖架构 企业使用数据湖技术构建大数据平台,主要包括数据接入、数据存储、计算和分析、数据管理、权限控制等,下图是Gartner定义的一个参考架构。当前数据湖的技术因其架构的灵活性和开放性,在性能效率、安全控制以及数据治理上并不十分成熟,在面向企业级生产要求时还存在很大挑战(在第四章会有详细的阐述)。图5. 数据湖架构图(来自网络) 数据仓库的诞生,以及和数据中台的关系 数据仓库的概念最早来源于数据库领域,主要处理面向数据的复杂查询和分析场景。随大数据技术发展,大量借鉴数据库的技术,例如SQL语言、查询优化器等,形成了大数据的数据仓库,因其强大的分析能力,成为主流。近几年,数据仓库和云原生技术相结合,又演生出了云数据仓库,解决了企业部署数据仓库的资源供给问题。云数据仓库作为大数据的高阶(企业级)平台能力,因其开箱即用、无限扩展、简易运维等能力,越来越受到人们的瞩目。 Wikipedia对数据仓库的定义: In computing, a data warehouse (DW or DWH), also known as an enterprise data warehouse (EDW), is a system used for reportingand data analysis, and is considered a core component of business intelligence.DWs are central repositories of integrated data from one or more disparate sources. Extract, transform, load(ETL) and extract, load, transform(E-LT) are the two main approaches used to build a data warehouse system. 在计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,用于为整个企业的员工创建分析报告。比较学术的解释是,数据仓库由数据仓库之父W.H.Inmon于1990年提出,主要功能乃是将组织透过信息系统之在线交易处理(OLTP)经年累月所累积的大量数据,透过数据仓库理论所特有的数据存储架构,作一有系统的分析整理,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管信息系统(EIS)之创建,帮助决策者能快速有效的自大量数据中,分析出有价值的信息,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。 数据仓库的本质包含如下三部分: 1、内置的存储系统,数据通过抽象的方式提供(例如采用Table或者View),不暴露文件系统。 2、数据需要清洗和转化,通常采用ETL/ELT方式 3、强调建模和数据管理,供商业智能决策 从上述的标准判断,无论传统数据仓库(如Teradata)还是新兴的云数据仓库系统(AWS Redshift、Google BigQuery、阿里云MaxCompute)均体现了数仓的设计本质,它们均没有对外暴露文件系统,而是提供了数据进出的服务接口。比如,Teradata提供了CLI数据导入工具,Redshift提供Copy命令从S3或者EMR上导入数据,BigQuery提供Data Transfer服务,MaxCompute提供Tunnel服务以及MMA搬站工具供数据上传和下载。这个设计可以带来多个优势: 1、引擎深度理解数据,存储和计算可做深度优化 2、 数据全生命周期管理,完善的血缘体系 3、细粒度的数据管理和治理 4、完善的元数据管理能力,易于构建企业级数据中台 正因为如此,阿里巴巴飞天大数据平台建设之初,在选型的时候就采用了数据仓库的架构,即MaxCompute大数据平台。MaxCompute(原ODPS),既是阿里巴巴经济体的大数据平台,又是阿里云上的一种安全可靠、高效能、低成本、从GB到EB级别按需弹性伸缩的在线大数据计算服务(图6.是MaxCompute产品架构,具体详情请点击阿里云MaxCompute官网地址)。作为SaaS模式的企业级云数仓,MaxCompute广泛应用在阿里巴巴经济体、以及阿里云上互联网、新金融、新零售、数字政府等数千家客户。图6. MaxCompute云数仓产品架构 得益于MaxCompute数据仓库的架构,阿里巴巴上层逐步构建了“数据安全体系”、“数据质量”、“数据治理”、“数据标签”等管理能力,并最终形成了阿里巴巴的大数据中台。可以说,作为最早数据中台概念的提出者,阿里巴巴的数据中台得益于数据仓库的架构。图7. 阿里巴巴数据中台架构 数据湖 VS 数据仓库 综上,数据仓库和数据湖,是大数据架构的两种设计取向。两者在设计的根本分歧点是对包括存储系统访问、权限管理、建模要求等方面的把控。 数据湖优先的设计,通过开放底层文件存储,给数据入湖带来了最大的灵活性。进入数据湖的数据可以是结构化的,也可以是半结构化的,甚至可以是完全非结构化的原始日志。另外,开放存储给上层的引擎也带来了更多的灵活度,各种引擎可以根据自己针对的场景随意读写数据湖中存储的数据,而只需要遵循相当宽松的兼容性约定(这样的松散约定当然会有隐患,后文会提到)。但同时,文件系统直接访问使得很多更高阶的功能很难实现,例如,细粒度(小于文件粒度)的权限管理、统一化的文件管理和读写接口升级也十分困难(需要完成每一个访问文件的引擎升级,才算升级完毕)。 而数据仓库优先的设计,更加关注的是数据使用效率、大规模下的数据管理、安全/合规这样的企业级成长性需求。数据经过统一但开放的服务接口进入数据仓库,数据通常预先定义 schema,用户通过数据服务接口或者计算引擎访问分布式存储系统中的文件。数据仓库优先的设计通过抽象数据访问接口/权限管理/数据本身,来换取更高的性能(无论是存储还是计算)、闭环的安全体系、数据治理的能力等,这些能力对于企业长远的大数据使用都至关重要,我们称之为成长性。 下图是针对大数据技术栈,分别比较数据湖和数据仓库各自的取舍。图8. 数据湖和数据仓库在技术栈上的对比 灵活性和成长性,对于处于不同时期的企业来说,重要性不同。 1、当企业处于初创阶段,数据从产生到消费还需要一个创新探索的阶段才能逐渐沉淀下来,那么用于支撑这类业务的大数据系统,灵活性就更加重要,数据湖的架构更适用。 2、当企业逐渐成熟起来,已经沉淀为一系列数据处理流程,问题开始转化为数据规模不断增长,处理数据的成本不断增加,参与数据流程的人员、部门不断增多,那么用于支撑这类业务的大数据系统,成长性的好坏就决定了业务能够发展多远。数据仓库的架构更适用。 本文有观察到,相当一部分企业(尤其是新兴的互联网行业)从零开始架构的大数据技术栈,正是伴随开源 Hadoop 体系的流行,经历了这样一个从探索创新到成熟建模的过程。在这个过程中,因为数据湖架构太过灵活而缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加、数据治理效率降低,企业落入了『数据沼泽』的境地,即数据湖中汇聚了太多的数据,反而很难高效率的提炼真正有价值的那部分。最后只有迁移到数据仓库优先设计的大数据平台,才解决了业务成长到一定规模后所出现的运维、成本、数据治理等问题。还是举阿里巴巴的例子,阿里巴巴成功的数据中台战略,正是在 2015 年前后阿里巴巴全集团完成 MaxCompute(数据仓库) 对多个 Hadoop( 数据湖)的完全替换(登月项目)才逐步形成的。图9. 数据湖的灵活性 VS 数据仓库的成长性的示意图 下一代演进方向:湖仓一体 经过对数据湖和数据仓库的深入阐述和比较,本文认为数据湖和数据仓库作为大数据系统的两条不同演进路线,有各自特有的优势和局限性。数据湖和数据仓库一个面向初创用户友好,一个成长性更佳。对企业来说,数据湖和数据仓库是否必须是一个二选一的选择题?是否能有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本? 将数仓和数据湖融合在一起也是业界近年的趋势,多个产品和项目都做过对应的尝试: 1、数仓支持数据湖访问 · 2017年Redshift推出Redshift Spectrum,支持Redsift数仓用户访问S3数据湖的数据。 · 2018年阿里云MaxCompute推出外表能力,支持访问包括OSS/OTS/RDS数据库在内的多种外部存储。 但是无论是 Redshift Spectrum 还是 MaxCompute 的外部表,仍旧需要用户在数仓中通过创建外部表来将数据湖的开放存储路径纳入数仓的概念体系——由于一个单纯的开放式存储并不能自描述其数据本身的变化,因此为这些数据创建外部表、添加分区(本质上是为数据湖中的数据建立 schema)无法完全自动化(需要人工或者定期触发 Alter table add partition 或 msck)。这对于低频临时查询尚能接受,对于生产使用来说,未免有些复杂。 2、数据湖支持数仓能力 · 2011年,Hadoop开源体系公司Hortonworks开始了Apache Atlas和Ranger两个开源项目的开发,分别对应数据血缘追踪和数据权限安全两个数仓核心能力。但两个项目发展并不算顺利,直到 2017 年才完成孵化,时至今日,在社区和工业界的部署都还远远不够活跃。核心原因数据湖与生俱来的灵活性。例如Ranger作为数据权限安全统一管理的组件,天然要求所有引擎均适配它才能保证没有安全漏洞,但对于数据湖中强调灵活的引擎,尤其是新引擎来说,会优先实现功能、场景,而不是把对接Ranger作为第一优先级的目标,使得Ranger在数据湖上的位置一直很尴尬。 · 2018年,Nexflix开源了内部增强版本的元数据服务系统Iceberg,提供包括MVCC(多版本并发控制)在内的增强数仓能力,但因为开源HMS已经成为事实标准,开源版本的Iceberg作为插件方式兼容并配合HMS,数仓管理能力大打折扣。 · 2018-2019年,Uber和Databricks相继推出了Apache Hudi和DeltaLake,推出增量文件格式用以支持Update/Insert、事务等数据仓库功能。新功能带来文件格式以及组织形式的改变,打破了数据湖原有多套引擎之间关于共用存储的简单约定。为此,Hudi为了维持兼容性,不得不发明了诸如 Copy-On-Write、Merge-On-Read 两种表,Snapshot Query、Incremental Query、Read Optimized Query 三种查询类型,并给出了一个支持矩阵(如图10),极大提升了使用的复杂度。图10. Hudi Support Matrix(来自网络) 而DeltaLake则选择了保证以Spark为主要支持引擎的体验,相对牺牲对其他主流引擎的兼容性。这对其他引擎访问数据湖中的Delta数据造成了诸多的限制和使用不便。例如Presto要使用DeltaLake表,需要先用Spark创建manifest文件,再根据manifest创建外部表,同时还要注意manifest文件的更新问题;而Hive要使用DeltaLake表限制更多,不仅会造成元数据层面的混乱,甚至不能写表。 上述在数据湖架构上建立数仓的若干尝试并不成功,这表明数仓和数据湖有本质的区别,在数据湖体系上很难建成完善的数仓。数据湖与数据仓库两者很难直接合并成一套系统,因此作者团队,开始基于融合两者的思路进行探索。所以我们提出下一代的大数据技术演进方向:湖仓一体,即打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。 我们认为,构建湖仓一体需要解决三个关键问题: 1、湖和仓的数据/元数据无缝打通,且不需要用户人工干预 2、湖和仓有统一的开发体验,存储在不同系统的数据,可以通过一个统一的开发/管理平台操作 3、数据湖与数据仓库的数据,系统负责自动caching/moving,系统可以根据自动的规则决定哪些数据放在数仓,哪些保留在数据湖,进而形成一体化 我们将在下一章详细介绍阿里云湖仓一体方案如何解决这三个问题。 阿里云湖仓一体方案 6.1 整体架构 阿里云MaxCompute在原有的数据仓库架构上,融合了开源数据湖和云上数据湖,最终实现了湖仓一体化的整体架构(图11)。在该架构中,尽管底层多套存储系统并存,但通过统一的存储访问层和统一的元数据管理,向上层引擎提供一体的封装接口,用户可以联合查询数据仓库和数据湖中的表。整体架构还具备统一的数据安全、管理和治理等中台能力。图11. 阿里云湖仓一体整体架构 针对第五章提出的湖仓一体的三个关键问题,MaxCompute实现了以下4个关键技术点。 1、快速接入 · MaxCompute全新自创PrivateAccess网络连通技术,在遵循云虚拟网络安全标准的前提下,实现多租户模式下特定用户作业定向与IDC/ECS/EMR Hadoop集群网络整体打通能力,具有低延迟、高独享带宽的特点。 · 经过快速简单的开通、安全配置步骤即可将数据湖和购买的 MaxCompute数仓相连通。 2、统一数据/元数据管理 · MaxCompute实现湖仓一体化的元数据管理,通过DB元数据一键映射技术,实现数据湖和MaxCompute数仓的元数据无缝打通。MaxCompute通过向用户开放创建external project的形式,将数据湖HiveMetaStore中的整个database直接映射为MaxCompute的project,对Hive Database的改动会实时反应在这个project中,并可以在MaxCompute侧随时通过这个project进行访问、计算其中的数据。与此同时,阿里云EMR数据湖解决方案也将推出Data Lake Formation,MaxCompute湖仓一体方案也会支持对该数据湖中的统一元数据服务的一键映射能力。MaxCompute侧对external project的各种操作,也会实时反应在Hive侧,真正实现数据仓库和数据湖之间的无缝联动,完全不需要类似联邦查询方案里的元数据人工干预步骤。 · MaxCompute实现湖仓一体化的存储访问层,不仅支持内置优化的存储系统,也无缝的支持外部存储系统。既支持HDFS数据湖,也支持OSS云存储数据湖,可读写各种开源文件格式。 3、统一开发体验 · 数据湖里的Hive DataBase映射为MaxCompute external project,和普通project别无二致,同样享受MaxCompute数仓里的数据开发、追踪和管理功能。基于DataWorks强大的数据开发/管理/治理能力,提供统一的湖仓开发体验,降低两套系统的管理成本。 · MaxCompute高度兼容Hive/Spark,支持一套任务可以在湖仓两套体系中灵活无缝的运行。 · 同时,MaxCompute也提供高效的数据通道接口,可以让数据湖中的Hadoop生态引擎直接访问,提升了数仓的开放性。 4、自动数仓 · 湖仓一体需要用户根据自身资产使用情况将数据在湖和仓之间进行合理的分层和存储,以最大化湖和仓的优势。MaxCompute开发了一套智能cache技术,根据对历史任务的分析来识别数据冷热度,从而自动利用闲时带宽将数据湖中的热数据以高效文件格式cache在数据仓库中,进一步加速数据仓库的后续数据加工流程。不仅解决了湖仓之间的带宽瓶颈问题,也达到了无须用户参与即可实现数据分层管理/治理以及性能加速的目的。 6.2 构建湖仓一体化的数据中台 基于MaxCompute湖仓一体技术,DataWorks可以进一步对湖仓两套系统进行封装,屏蔽湖和仓异构集群信息,构建一体化的大数据中台,实现一套数据、一套任务在湖和仓之上无缝调度和管理。企业可以使用湖仓一体化的数据中台能力,优化数据管理架构,充分融合数据湖和数据仓库各自优势。使用数据湖做集中式的原始数据存储,发挥数据湖的灵活和开放优势。又通过湖仓一体技术将面向生产的高频数据和任务,无缝调度到数据仓库中,以得到更好的性能和成本,以及后续一系列面向生产的数据治理和优化,最终让企业在成本和效率之间找到最佳平衡。 总体来说,MaxCompute湖仓一体为企业提供了一种更灵活更高效更经济的数据平台解决方案,既适用于全新构建大数据平台的企业,也适合已有大数据平台的企业进行架构升级,可以保护现有投资和实现资产利旧。图12. DataWorks湖仓一体化数据中台 6.3 典型客户案例:新浪微博应用「湖仓一体」构建混合云AI计算中台 · 案例背景 微博机器学习平台团队,主要做社交媒体领域里的推荐主要做社交媒体领域里的推荐/排序、文本/图像分类、反垃圾/反作弊等技术。技术架构上主要围绕开源Hadoop数据湖解决方案,一份HDFS存储+多种计算引擎(hive、spark、flink),以满足以AI为主的多计算场景需求。但微博作为国内Top的社交媒体应用,当前的业务体量和复杂性已然进入到开源“无人区”,开源数据湖方案在性能和成本方面都无法满足微博的要求。微博借助阿里巴巴强大的飞天大数据和AI平台能力(MaxC+PAI+DW ),解决了超大规模下的特征工程、模型训练以及矩阵计算的性能瓶颈问题,进而形成了阿里巴巴MaxCompute平台(数仓)+ 开源平台(数据湖)共存的格局。 · 核心痛点 微博希望借助这两套异构的大数据平台,既保持面向AI的各类数据和计算的灵活性,又解决超大规模下的计算和算法的性能/成本问题。但因为这两套大数据平台在集群层面完全是割裂的,数据和计算无法在两个平台里自由流动,无形之中增加了大量的数据移动和计算开发等成本,进而制约了业务的发展。主要的痛点是:1)安排专人专项负责训练数据同步,工作量巨大 2) 训练数据体量大,导致耗时多,无法满足实时训练的要求 3) 新写SQL数据处理query,无法复用Hive SQL原有query。图13. 新浪微博业务痛点示意 · 解决方案 为了解决上述的痛点问题,阿里云产品团队和微博机器学习平台团队联合共建湖仓一体新技术,打通了阿里巴巴MaxCompute云数仓和EMR Hadoop数据湖,构建了一个跨湖和仓的AI计算中台。MaxCompute产品全面升级网络基础设施,打通用户VPC私域,且依托Hive数据库一键映射和强大完善的SQL/PAI引擎能力,将MaxCompute云数仓和EMR Hadoop数据湖技术体系无缝对接,实现湖和的仓统一且智能化管理和调度。图14. 微博湖仓一体架构图 · 案例价值 1)不仅融合了数据湖和数据仓库的优势,在灵活性和效率上找到最佳平衡,还快速构建了一套统一的AI计算中台,极大提升该机器学习平台团队的业务支撑能力。无须进行数据搬迁和作业迁移,即可将一套作业无缝灵活调度在MaxCompute集群和EMR集群中。 2)SQL数据处理任务被广泛运行到MaxCompute集群,性能有明显提升。基于阿里巴巴PAI丰富且强大的算法能力,封装出多种贴近业务场景的算法服务,满足更多的业务需求。 3)MaxCompute云原生的弹性资源和EMR集群资源形成互补,两套体系之间进行资源的削峰填谷,不仅减少作业排队,且降低整体成本。 总结 数据湖和数据仓库,是在今天大数据技术条件下构建分布式系统的两种数据架构设计取向,要看平衡的方向是更偏向灵活性还是成本、性能、安全、治理等企业级特性。但是数据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强。在这样的背景之下,MaxCompute 率先提出湖仓一体,为业界和用户展现了一种数据湖和数据仓湖互相补充,协同工作的架构。这样的架构同时为用户提供了数据湖的灵活性和数据仓库的诸多企业级特性,将用户使用大数据的总体拥有成本进一步降低,我们认为是下一代大数据平台的演进方向。 了解更多 “湖仓一体” 方案与技术详情 >> MaxCompute湖仓一体方案最佳实践 >>SaaS模式云数据仓库MaxCompute 官网 >>更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群 《2020数据湖高峰论坛》 10月23日 北京海航万豪酒店拉开序幕! 现在即可报名:https://yqh.aliyun.com/live/datalake
9月18日,2020云栖大会上,阿里云正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。大数据技术从本世纪初发展至今演进出了数据仓库和数据湖两种趋势,前者通常指云厂商提供的基于大数据技术的一体化服务,后者通常是由一系列云产品或开源组件共同构成的大数据解决方案。 当企业处在初创阶段,灵活性就非常重要,数据湖的架构更适用。当企业逐渐成熟,成长性成为最关键因素,数据仓库的架构就再适合不过了。那么,数据仓库和数据湖是否只能是一道单选题?能否有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性? 阿里巴巴集团副总裁、阿里云计算平台负责人贾扬清表示,MaxCompute湖仓一体方案打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合,从而构建数据湖和数据仓库融合的湖仓一体的全新计算平台。MaxCompute湖仓一体方案不仅可广泛用于支持超大规模的机器学习和深度学习,还能帮助企业高效提升自身大数据能力,实现敏捷运营,降本增效。 据悉,MaxCompute在原有的数据仓库架构上,融合了存储计算一体化数据仓库和云上存储计算分离的数据湖,最终实现了湖仓一体化的整体架构。在该架构中,尽管底层多套存储系统并存,但通过统一的存储访问层和统一的元数据管理,向上层引擎提供一体的封装接口,用户可以Join数据仓库和数据湖中的两张表,同时整体架构还具备统一的数据安全、管理和治理等中台能力。 在技术融合过程中,MaxCompute不仅实现了快速接入、统一数据/元数据管理、统一开发体验、自动数仓四个关键技术点,更持续提升了核心性能,在2020 TPCx-BigBench中,MaxCompute基于英特尔至强可扩展处理器在100TB规模保持性能不变的情况下,成本较去年下降了40%;30TB规模下,性能提升50%以上,成本下降了30%以上。 微博是“湖仓一体”的尝鲜者。此前微博拥有Hadoop数据湖和阿里云大数据及AI两套异构的大数据平台,且两套平台在集群层面完全割裂,数据和计算无法自由流动。为了解决这些难题,微博基于阿里云构建了湖仓一体化的AI计算中台,摆脱了繁重的数据搬迁,使得微博的数据工程师和算法工程师轻松无缝的借助阿里巴巴成熟的超大规模算力和算法赋能业务提效。同时,将MaxCompute云数据仓库(结构化数据)与数据湖(非结构化数据)构成闭环,极大提升了AI类作业效率,产生巨大的业务价值。 阿里云自研云数据仓库MaxCompute历经近10年技术沉淀,不仅稳定支撑阿里巴巴集团的数据存储和数据计算业务,更是云上客户大数据平台的重要组成部分。此次湖仓一体发布,为企业提供了一种更灵活更高效更经济的数据平台解决方案,既适用于全新构建大数据平台的企业,也适合已有大数据平台的企业进行架构升级,切实以技术加速了企业的数字化重构。 了解更多 “湖仓一体” 方案与技术详情 >> MaxCompute湖仓一体方案最佳实践 >>MaxCompute 产品官网 >>更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【9月新功能发布】 1. MaxCompute 作业监控诊断工具Logview功能升级发布 此次Logview功能升级,扩展了MaxCompute作业的监控指标,提供作业回放功能,新增Fuxi Sensor支持查看作业内存及CPU使用。 适用客户MaxCompute用户的数据开发者、运维人员 发布功能本次升级新增以下功能,· 支持以交互式DAG图展示作业处理逻辑架构,支持查看相应的Operation层级;· 支持回放作业运行过程;· 支持通过Fuxi Sensor查看内存及CPU使用情况; 查看文档 >>2. MaxCompute 改版控制台以优化全托管云数据仓库服务的管理和使用体验 新版控制台界面和新功能简化了用户在服务开通、项目创建、计算资源管理及监控以及SQL查询分析方面的操作。 适用客户适用所有MaxCompute使用者包括项目管理者、资源管理者、数据分析和数据开发者等。 发布功能MaxCompute 现已向 MaxCompute 用户提供新版Web控制台。 · 新版用户界面和新功能简化了用户在服务开通、项目创建、计算资源管理及监控以及SQL查询分析方面的操作使用,使用者可以在一个更简单易用的界面里快速创建数据仓库环境、管理和监控计算资源及作业、开展数据分析探查。 · 新版控制台简化了MaxCompute服务开通到项目创建过程;提供简单易用的数据查询分析编辑器(Query Editor),缩短了日常SQL分析的操作路径;同时提供电子表格(Web Excel)丰富、便捷的数据分析的功能,其操作与Office Excel高度一致,使用者可以快速上手实现线上数据查询、分析快捷操作。 · 默认开放MaxCompute公开数据集,可直接基于公开数据集直接进行体验、测试; · 集成了MaxCompute项目创建管理、资源管理相关功能,管理员可快速进行数据管理、计算资源管理及监控以及用户管理; 开通MaxCompute文档 >>创建项目文档 >>查询编辑文档 >>【2020云栖大会超人气主题演讲】 「下一代大数据平台演进-湖仓一体」>>「数据仓库技术的发展新趋势」>>【大数据&AI的16种可能,2020阿里云客户最佳实践合集】 免费下载 MaxCompute 产品官网 https://www.aliyun.com/product/odps阅读往期月刊 https://yq.aliyun.com/publication/49更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【9月新功能发布】 1. MaxCompute作业监控诊断工具Logview功能升级发布 此次Logview功能升级,扩展了MaxCompute作业的监控指标,提供作业回放功能,新增Fuxi Sensor支持查看作业内存及CPU使用。 适用客户MaxCompute用户的数据开发者、运维人员 发布功能本次升级新增以下功能,· 支持以交互式DAG图展示作业处理逻辑架构,支持查看相应的Operation层级;· 支持回放作业运行过程;· 支持通过Fuxi Sensor查看内存及CPU使用情况; 查看文档 >>2. MaxCompute改版控制台以优化全托管云数据仓库服务的管理和使用体验 新版控制台界面和新功能简化了用户在服务开通、项目创建、计算资源管理及监控以及SQL查询分析方面的操作。 适用客户适用所有MaxCompute使用者包括项目管理者、资源管理者、数据分析和数据开发者等。 发布功能MaxCompute 现已向 MaxCompute 用户提供新版Web控制台。 · 新版用户界面和新功能简化了用户在服务开通、项目创建、计算资源管理及监控以及SQL查询分析方面的操作使用,使用者可以在一个更简单易用的界面里快速创建数据仓库环境、管理和监控计算资源及作业、开展数据分析探查。 · 新版控制台简化了MaxCompute服务开通到项目创建过程;提供简单易用的数据查询分析编辑器(Query Editor),缩短了日常SQL分析的操作路径;同时提供电子表格(Web Excel)丰富、便捷的数据分析的功能,其操作与Office Excel高度一致,使用者可以快速上手实现线上数据查询、分析快捷操作。 · 默认开放MaxCompute公开数据集,可直接基于公开数据集直接进行体验、测试; · 集成了MaxCompute项目创建管理、资源管理相关功能,管理员可快速进行数据管理、计算资源管理及监控以及用户管理; 开通MaxCompute文档 >>创建项目文档 >>查询编辑文档 >>【2020云栖大会超人气主题演讲】 「下一代大数据平台演进-湖仓一体」>>「数据仓库技术的发展新趋势」>>【大数据&AI的16种可能,2020阿里云客户最佳实践合集】 免费下载 MaxCompute 产品官网 https://www.aliyun.com/product/odps阅读往期月刊 https://yq.aliyun.com/publication/49更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【8月新功能发布】 1. MaxCompute 数据备份与恢复功能 中国大陆区域(商业化)发布 MaxCompute备份与恢复功能提供持续备份用户修改/删除历史数据,支持快速恢复,持续保护数据安全。 适用客户· 对数据保护有强需求客户· 担心数据误删除的客户· 担心数据被恶意删除的客户· 适合广泛的企业级客户。 发布功能MaxCompute提供数据备份与恢复功能,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。 ☆ 备份与恢复功能具备以下特点: · 默认开启,不需要手动开通 - 该功能不依赖外部存储,系统默认为所有MaxCompute项目开放的数据保留周期为1天,备份和存储免费。 · 自动持续备份 - 系统自动对发生变更的数据进行备份,多次变更时将备份多个数据版本,相比固定周期性的备份策略,可以有效避免因误操作丢失数据。 · 恢复快速,操作简单 - MaxCompute具备先进的元数据和多数据版本管理能力,备份和恢复操作不占用额外的计算资源,您可以通过命令快速恢复不同规模的数据。 查看文档 >> 2. MaxCompute 数据科学Mars 中国大陆区域(商业化)发布 Mars 是基于张量的数据科学加速引擎,能分布式加速 numpy、pandas、scikit-learn 和 Python 函数。 适用客户· Python 数据分析师· 数据工程师· 开发者 发布功能Mars 能利用并行和分布式技术,加速 Python 数据科学栈,兼容 numpy、pandas 和 scikit-learn接口。新的 Remote API 能轻松并行执行 Python 函数,Mars能轻松与TensorFlow、PyTorch 和 XGBoost 集成。在 MaxCompute 上使用 Mars,支持简单易用的接口来拉起 Mars 集群,不需关心安装和维护集群,具备开箱即用的环境,如 DataWorks 的 pyodps3 节点,已经包含了 Mars。集群内的 Mars 任务可以直读和直写 MaxCompute 表。Mars 集群一旦创建,后续不再需要通过 MaxCompute 调度,任务可以直接提交到 Mars 集群执行。Mars 对于中小型任务(数据量 T 级别以下),具备优秀的性能表现。 查看文档 >>3. MaxCompute 查询加速(公测)发布 MaxCompute的MCQA(MaxCompute Query Acceleration)功能可以对中、小型查询作业进行加速优化,将执行时间为分钟级的查询作业缩减至秒级,且兼容原查询功能。 适用客户· BI工程师/数据分析师,对一份数据进行反复交互式探索;· 业务系统/数据分析师,进行快速超大规模历史明细数据的访问;· 数据开发工程师,查询验证和函数调试。 发布功能MaxCompute的查询加速(MCQA)功能可以使EB级数据仓库服务内提供弹性并发的秒级查询能力,在MaxCompute原先吞吐量优化的基础上,补足对延迟优先场景的支持能力。查询加速让MaxCompute一个服务同时满足数据准备(ETL)、数据挖掘(机器学习)、数据探索(Ad-hoc)、报表分析等多使用场景需要。通过自动识别短查询作业并加速处理、快速响应查询结果的方式,增强了 MaxCompute SQL的整体处理性能,满足报表分析、即席查询场景的使用要求。 查看文档 >> 【8月精选直播回顾】2020阿里巴巴大数据技术公开课第四季 | MaxCompute 持续定义SaaS模式云数据仓库— 云数据仓库+BI| MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+实时分析| MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+实时搜索| MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+Severless | MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+AI | MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+数据银行MaxCompute 产品官网 https://www.aliyun.com/product/odps阅读往期月刊 https://yq.aliyun.com/publication/49更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
【8月新功能发布】 1. MaxCompute 数据备份与恢复功能 中国大陆区域(商业化)发布 MaxCompute备份与恢复功能提供持续备份用户修改/删除历史数据,支持快速恢复,持续保护数据安全。 适用客户· 对数据保护有强需求客户· 担心数据误删除的客户· 担心数据被恶意删除的客户· 适合广泛的企业级客户。 发布功能MaxCompute提供数据备份与恢复功能,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。 ☆ 备份与恢复功能具备以下特点: · 默认开启,不需要手动开通 - 该功能不依赖外部存储,系统默认为所有MaxCompute项目开放的数据保留周期为1天,备份和存储免费。 · 自动持续备份 - 系统自动对发生变更的数据进行备份,多次变更时将备份多个数据版本,相比固定周期性的备份策略,可以有效避免因误操作丢失数据。 · 恢复快速,操作简单 - MaxCompute具备先进的元数据和多数据版本管理能力,备份和恢复操作不占用额外的计算资源,您可以通过命令快速恢复不同规模的数据。 查看文档 >> 2. MaxCompute 数据科学Mars 中国大陆区域(商业化)发布 Mars 是基于张量的数据科学加速引擎,能分布式加速 numpy、pandas、scikit-learn 和 Python 函数。 适用客户· Python 数据分析师· 数据工程师· 开发者 发布功能Mars 能利用并行和分布式技术,加速 Python 数据科学栈,兼容 numpy、pandas 和 scikit-learn接口。新的 Remote API 能轻松并行执行 Python 函数,Mars能轻松与TensorFlow、PyTorch 和 XGBoost 集成。在 MaxCompute 上使用 Mars,支持简单易用的接口来拉起 Mars 集群,不需关心安装和维护集群,具备开箱即用的环境,如 DataWorks 的 pyodps3 节点,已经包含了 Mars。集群内的 Mars 任务可以直读和直写 MaxCompute 表。Mars 集群一旦创建,后续不再需要通过 MaxCompute 调度,任务可以直接提交到 Mars 集群执行。Mars 对于中小型任务(数据量 T 级别以下),具备优秀的性能表现。 查看文档 >>3. MaxCompute 查询加速(公测)发布 MaxCompute的MCQA(MaxCompute Query Acceleration)功能可以对中、小型查询作业进行加速优化,将执行时间为分钟级的查询作业缩减至秒级,且兼容原查询功能。 适用客户· BI工程师/数据分析师,对一份数据进行反复交互式探索;· 业务系统/数据分析师,进行快速超大规模历史明细数据的访问;· 数据开发工程师,查询验证和函数调试。 发布功能MaxCompute的查询加速(MCQA)功能可以使EB级数据仓库服务内提供弹性并发的秒级查询能力,在MaxCompute原先吞吐量优化的基础上,补足对延迟优先场景的支持能力。查询加速让MaxCompute一个服务同时满足数据准备(ETL)、数据挖掘(机器学习)、数据探索(Ad-hoc)、报表分析等多使用场景需要。通过自动识别短查询作业并加速处理、快速响应查询结果的方式,增强了 MaxCompute SQL的整体处理性能,满足报表分析、即席查询场景的使用要求。 查看文档 >> 【8月精选直播回顾】2020阿里巴巴大数据技术公开课第四季 | MaxCompute 持续定义SaaS模式云数据仓库— 云数据仓库+BI| MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+实时分析| MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+实时搜索| MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+Severless | MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+AI | MaxCompute 持续定义SaaS模式云数据仓库 — 云数据仓库+数据银行MaxCompute 产品官网 https://www.aliyun.com/product/odps阅读往期月刊 https://yq.aliyun.com/publication/49更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
2022年12月
2022年11月
2022年10月
2022年09月
2022年07月
2022年06月
2022年05月
2022年04月
2022年03月
2022年01月
2021年12月
2021年11月
2021年10月
2021年09月
2021年08月
2021年07月
2021年06月
2021年04月
2021年03月
2021年02月
2021年01月
2020年12月
2020年11月
2020年10月
2020年09月
2020年08月
2020年07月
2020年06月
Flink主要用来做流计算 MaxCompute主要是批处理
开通链接 https://common-buy.aliyun.com/?spm=5176.12589905.1321512.1.385b2b30oUXuLs&commodityCode=odps&request=%7B%22region%22:%22cn-beijing%22,%22odps_specification_type%22:%22OdpsDev%22%7D#/buy
不能开通有什么提示吗? 或者加入社群做进一步交流
官网链接 https://www.aliyun.com/product/odps MaxCompute开发者社群钉钉群
可以加入 MaxCompute开发者社区与广大开发者及MaxCompute产品团队做更多交流了解。点击链接可以申请加入“MaxCompute开发者社群2群”钉钉群 https://h5.dingtalk.com/invite-page/index.html?bizSource=source&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745
LOCATION 必须指定一个 OSS 目录,默认系统会读取这个目录下所有的文件。https://help.aliyun.com/document_detail/45389.html
ECS 支持
RDS 支持
SLS 支持
大数据开发套件 支持
QuickBI 支持
DataV 支持
推荐引擎 暂不支持
机器学习 暂不支持
2017.9.7 00:00:00-11.11 23:59:59
华南1是深圳的数据中心,华东2是上海数据中心。
华南地区的用户体验会更好,更节省数据同步成本。
1、购买服务时长1年以上不参与本次活动,优惠价格按照官网价格;
2、第2次(非首单)购买华南1的订单用户;
3、已享受全网折扣的用户,则优;
4、深圳地区75折优惠为原始定价的75折,不折上折。
5、参与活动后退款再购则不能享受折扣;
1、未购买华南深圳的MaxCompute新老用户;
2、MaxCompute华南深圳首单用户;
3、购买华南深圳预付费订单;
4、购买时长3个月-1年方可享受75折优惠;优惠包含CU,不包括下载、存储;
请到MaxCompute工单咨询。