【ODPS 新品发布第 1 期】DataWorks 全新发布:增强分析 / 数据建模个人版等新能力

本文涉及的产品
对象存储 OSS,20GB 3个月
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 阿里云 ODPS 系列产品以 MaxCompute、DataWorks、Hologres 为核心,致力于解决用户多元化数据的计算需求问题,实现存储、调度、元数据管理上的一体化架构融合,支撑交通、金融、科研、等多场景数据的高效处理,是目前国内最早自研、应用最为广泛的一体化大数据平台。

DataWorks 新重点能力介绍

新产品 - DataWorks 增强分析
新产品 - DataWorks 智能数据建模个人版
新功能 - DataWorks 支持 EMR on ACK (Spark)
新功能 - DataWorks 数据集成入湖
新功能 - DataWorks 数据治理中心支持 EMR
新产品
新产品 - DataWorks 增强分析
DataWorks 与 DataV-Card 合作推出的 AI 增强分析产品,一站式完成从数据查询、分析、可视化、共享的完整链路。1 分钟即可形成数据报告,帮助互联网、金融、政务等各个行业客户表达数据观点,讲好数据故事。

应用场景:
简化程序,降低成本: 以往数据分析工作流中,从数据仓库取数查询、到数据可视化、数据共享,需要要横跨多个产品,致使用户使用步骤繁琐,产品学习成本高。
海量数据查询: 基于 MaxCompute 等计算引擎强大的分析计算能力,DataWorks 可直接针对海量数仓数据进行 SQL 取数查询,分析结果同时在 DataWorks 增强分析中进行可视化,形成数据「报告」并进行结果共享,极大提高了企业数据分析的效率。
功能特性:
数据查询: 基于 MaxCompute 等具有强大分析计算能力计算引擎,支持用户面向海量数仓数据进行 SQL 取数查询,具有追求极致简便、轻量化等特点。
数据卡片: 卡片内置常见图表,词云等组件。其作为数据运行结果的可视化资产,支持用户将观点备注至数据卡片中,形成专属数据可视化知识库,具有个性化,持久化等特点。
数据报告: 由多个数据卡片组成的数据可视化报告可以调整卡片顺序,挑选合适的报告主题。报告链接适配不同的展示需求,支持各行业用户表达自身数据观点,讲好数据故事,具有灵活性,多样化等特点。
产品 demo 演示 - DataWorks 增强分析
以公共数据集为例,浏览数仓数据进行 SQL 取数查询 —— 开启 DataWorks 增强分析,对于查询数据结果经过图表,主题等调整,保存为可视化的数据卡片 —— 卡片备注自身数据灵感,挑选数据卡片搭建数据报告,形成专属个人知识库 —— 数据报告一键分享。

点击链接查看:

新产品 - DataWorks 智能数据建模个人版
DataWorks 智能数据建模产品,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可持续发展方向演进。产品内置零售电子商务数据仓库行业模型模板,个人可以一键导入模板,DataWorks 智能数据建模个人版 6 个月 60 元,开通后可以免费获取零售模型模板,并按照文档进行学习操作 。

应用场景:
找数用数: 解决业务指标出现 “同名不同义,同义不同名”,业务找数难,找到的数不会不敢用,从而导致业务无法通过数据决策任务等用户痛点,并且解决数据异常,无法快速定位等业务问题。
降低成本: 数仓建模启动初期工作量巨大,人力成本高;线下建模效率低,缺少合适的工具;模型设计与数据研发、数据查找、数据消费工作脱节等痛点针对性解决。
功能特性:
与企业版功能一致: 数仓分层 / 维度建模 / 数据指标等功能与企业版功能均无区别,仅限主账号使用,为用户个人学习建模提供服务。
内置免费行业模型模版: 提供免费零售电子商务模型模板,数仓建模理论与实践结合,为用户个人学习数仓建模提供便利,提升学习效率。
与数据开发流程集成: 一站式模型设计与数据开发,多种建模方式,为用户个人快速完成多引擎模型物化与模型架构图绘制,自动生成 ETL 代码。
产品 demo 演示 - 基于零售电商模板实操流程
登录阿里云官网打开 DataWorks 智能数据建模寻找行业模型模板 —— 载入模板,查看数仓分层查看数据域,查看数据集市和主题域 —— 在维度建模中可以看到从模板导入的模型。也可选择创建模型,抑或通过代码模式来修改模型 —— 将模型与数据开发打通,通过模型物化的物理表可以自动生成模型对应的 ETL 代码。

点击链接查看:

新功能
新功能 - DataWorks 支持 EMR on ACK (Spark)
存量已适配 EMR on ECS(DataLake/Custom)以及开源

应用场景
集群切换或者双跑可以进行任务的无缝迁移: 如果用户之前用的是 ECS 集群,想切换成 ACK 集群,或者两种集群同时运行,Spark 任务都可以平滑的运行在这两种集群之上。

大数据的开发调度、分析和治理: 只需要开通一个 DataWorks,就可以形成这个大数据的全家桶的生态。数据集成模块可以实现数据入户、数据开发和调度、数据分析和治理等等,一应俱全,可以完成需要多个开源组件才能实现的产品功能,来助力企业的数仓团队实现研发的提效和体验的提升。

功能特性:
DataWorks 适配 EMR on ACK (Spark)具有以下特性

节省成本:
根据 ACK 容器服务弹性能力按需灵活调整计算资源 ,若之前已保有 ACK 服务支撑在线服务和应用,那么本次就无需为大数据引擎单独购买 ACK;

EMR Spark 集群部署在 ACK 容器服务中,在创建 EMR 集群直接选择已经有的 ACK,实现大数据服务和在线应用程序共享集群资源 ;

ACK 容器服务本身具备良好弹性扩展能力,无论是水平、定时还是垂直伸缩,都能够通过丰富的弹性扩容方案来充分应对计算高峰期,整体达到资源合理利用、节省成本的效果。

简化开发,稳定调度:
专注 Spark 原生开发模式,无需关心底层集群差异 ;

支持多种调度周期,提供超大规模稳定调度,每日可以支撑千万量级的实力调度,并提供丰富的任务运维手段帮助用户及时处理任务执行异常,并发送相应监控告警;

基于 ECS Spot 抢占式实例进行调度适配与优化,本次 DataWorks 适配 Spark 集群,根据 ACK 抢占式实例做了专门的调度优化。

事前检查,事后治理:
DataWorks 数据治理中心提供丰富检查项,融入大数据开发流程,并且涵盖研发、存储、计算等多个方面的治理建议,形成了可量化的健康分指标,可以帮助企业在整个大数据过程中进行持续治理优化。

DataWorks 相比开源大数据组件优势
DataWorks 作为阿里云一站式开发和管理平台,是一款云上全托管产品,可以即开即用,无需像开源一样经过前期产品部署、环境部署等繁琐的流程。DataWorks 相比开源具有以下几点优势:

数据集成 (DataX / Sqoop) :
基于 DataX 构建离线同步链路
基于 Flink 构建实时同步链路
封装多样化数据同步解决方案:提供多样化数据同步解决方案,覆盖整库同步、一次性全量同步、周期性增量同步等场景
数据通道丰富,配置链路简单,网络方案完备:在各种数据类型之间构建数据同步通道,让数据工具不再复杂和繁琐。
开发与调度(DolphinScheduler / Airflow):
丰富的原子任务类型 : DataWorks 面向各种计算引擎提供多样化的任务类型
智能 Web IDE + 可视化工作流编排:开发者可以通过可视化拖拽方式快速构建任务运行工作流,通过智能 Web IDE 高效编写任务代码
细粒度调度计划:对任务配置灵活的调度计划,无论是调度频率、重跑策略、复杂场景的依赖关系等等,都提供了非常完善和细致的功能;
全局运维大屏 & 单任务运维详情:任务上线以后,还可以通过运维大屏和运维手段来监控和处理运行的情况。
智能基线及时捕捉生产链路的异常
数据质量功能 — 严格监控控制脏数据污染下游
数据治理(Atalas 等):
全面元数据纳管(技术 / 业务 / 操作元数据等)
支持系统自动解析 / 用户自助上报数据血缘
数据目录加强数据管理 / 提升找数效率
提供健康分量化体系、多维评估治理成效
敏感数据有效识别与保护等这一系列丰富产品功能和生态来形成组合拳的效果
新功能 - DataWorks 数据集成入湖
离线及实时同步数据至 OSS/Hive

应用场景:
运维层面: 解决 flink/spark streaming/kafka 等运维优化调优,湖文件的管理:compaction, 清理历史文件, 清理过期分区,整个作业的实施性和高吞吐保障,开发 / 调试 / 部署 / 运维全生命周期等等都需要用户管理,运维难度大的痛点。

学习成本: 降低数据库 binlog 多样性解析需要专业知识储备,任务运维管理,flink、spark、kafka 等技术引擎用户学习成本。

功能特性:
DataWorks 数据集成入湖 OSS 具有以下特性

MySQL 整库同步至 Hive: 支持实例模式、全量数据与增量过滤,增量过滤靠增量条件拉取增量,增量条件做出 MySQL 的 VR 条件过滤数据,其数据可以设置同步周期,用户也可以按照需求拉取数据。
上手简单: 全白屏向导化操作 ,支持用户直观入湖同步配置。
元数据自动打通: 与阿里云 DLF 深度打通融合 ,数据可以在入湖同步时自动注入 DLF 中,无需用户人为干预。
实时同步: 支持数据实时同步至 OSS 湖中,实现秒级延迟 ,并且支持用户同步过程中进行数据处理。
DataWorks 入湖 OSS 能力支持的链路特性

MySQL 实时入湖 OSS:
支持 MySQL 数据增量实时入湖,秒级延迟

支持 MySQL 历史存量数据离线入湖,可以控制同步速率,避免影响源端业务

支持 MySQL 实例级别配置任务,同时同步一个实例下多库多表

支持按照正则感知 MySQL 端的库表变化,将增加的库表自动加入 OSS 湖端

支持 OSS 湖端自动建立元数据表

支持对接阿里云 DLF,入湖元数据自动导入,实时可查

支持自定义 OSS 湖端存储路径

支持 OSS 湖端分区按日期自定义赋值

Kafka 实时入湖 OSS:
支持 Kafka 数据增量实时入湖,秒级延迟

支持数据中间进行简单的数据处理,包括数据过滤、脱敏、字符串替换等

支持字段级别赋值操作

支持 kafka 非结构化的 JSON 数据,可以根据同步过程中实时的数据,进行动态增加字段

支持 OSS 湖端自动建立元数据表

支持对接阿里云 DLF,入湖元数据自动导入,实时可查

支持自定义 OSS 湖端存储路径

产品 demo 演示 - MySQL 入湖 OSS
DataWorks 控制台新建任务,输入任务名称,选择来源和去向,——demo 演示中选择 MySQL 到 OSS, 选择整个入湖,选择 mysql 数据源,资源组,OSS 数据源,然后进行联通测试。—— 测试完后,可以进入整个任务配置中,在任务配置中选取的来源需要同步表,选择外在存储路径,可以自动勾选是否同步到 DIF 中 —— 确定之后建立一个 OSS 的分区。演示 demo 中按时间分区,配置运行中高级参数 —— 点击完成配置整个任务配置完成

点击链接查看:

新功能 - DataWorks 数据治理中心支持 EMR
湖仓一体数据治理能力评估与优化

应用场景:
面向数据体量高速增长背景下,所需要完成的各类增效降本的治理场景,用户可通过 DataWorks 数据治理中心,面向存储、计算维度进行治理,系统提供数据计算任务优化、数据存储优化等治理功能,可帮助用户持续分析和优化数据存储及加工计算成本。

功能特性:
DataWorks 数据治理中心 on EMR 具有以下特性

综合型治理健康分评估: 基于阿里云 E-MapReduce 及 DLF 衔接, 形成衡量全局、团队及个人的数据治理健康体系,让用户以统一的标准来明确数据治理的现状与需要达成的治理目标。
多维度治理问题发现: 综合性的治理健康系统覆盖研发、存储、安全、质量等多治理维度,并提供各维度下内置治理项规则,让用户持续发现同步任务、调度任务、数据表的各类问题并解决。
主动式治理问题拦截: 深度打通 DataWorks 数据开发链路, 在开发的任务提交、发布环节,主动帮助用户发现潜在数据治理问题,及时进行问题预防,实现数据治理与数据开发流程的融合,
产品 demo 演示 - 基于 EMR 进行数据成本优化场景实操
通过 DataWorks 控制台进入数据治理中心,了解总体治理健康分数及各维度健康情况 —— 通过治理中心使用分析查看数据链路对于各类资源的总体消耗及数据调度任务的资源明细,在资源的明细里能针对 EMR 各类型任务去进行一个筛选,来查看具体资源消耗情况。—— 重点关注有大量资源异动消耗的任务,切换知识库查看系统当前支持的数据治理项,发现对应治理问题 —— 定位问题进行事前检查,配置管理选择到对应工作空间,一键开启对应智力检查项 —— 对于检查无法通过,拦截任务的提交,点击操作检查具体查看不符合治理规范内容,从而进行修复。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
114 2
|
5天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
54 15
|
6天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
11天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
9天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
9天前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
39 2
|
12天前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
35 1
|
23天前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
50 2
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
68 4
|
1月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
34 4

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    123
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    123
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    117
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    100
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    110
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    120
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    125
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    169
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    93
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    133