,时长06:38
49
一、关于DataphinDataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部实践及方法论的产品化输出,可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。产品优势:
- 计算引擎兼容更多选择
- 数据构建资产化导向
- 数据治理驱动价值释放
二、V3.11重点特性的应用场景示例
01 上线Notebook交互式数据分析笔记本
应用场景:
01、企业中运营同学不在开发项目内,但经常有查询数据并分析的需求,需要一个可以快速便捷查数的地方。
02、数据分析师希望一些历史查询结果可以被保存下来,再结合背景介绍、分析观点与结论文字,快速分享给相关同事。
03、数据开发同学时常会写一些复杂的SQL,希望可以将每一步的开发内容都自动保存成一张临时表,方便调试。
02 补数据任务满足各类自定义需求
应用场景:
01、某企业隔几天会下发收入分摊数据,需要每天更新最近两个自然月的数据。可配置一个日调度的补数据任务,每天定时补数据。
02、某企业需要每个月不定期手动上传数据表,并刷新该表及其上下游链路的数据。可以将该组任务配置为空跑调度的周期任务并为配置好上下游依赖关系,再配置一个手动运行的补数据任务将节点范围保存起来,设置空跑调度的任务补数据时正常跑,每次只需要配置业务日期运行一次补数据任务即可。
03、某企业为不影响周期任务的正常运行,经常在凌晨进行补数据,需要凌晨人工操作。现在设置补数据运行时间为2:00即可。
03研发建表过程中开展事中治理
应用场景:
01、创建表资产的人,往往最了解该资产。建表人(研发者)可以在建表阶段设置表字段的标准、质量约束和安全分类分级。
04通过逻辑运算组合业务限定
应用场景:
01、一个服饰企业的 T 恤可能存在很多业务限定,还有各类派生指标,如最近 1 天「纯棉、动漫风、修身、小码」销售金额,其中包含四种基础业务限定,不同基础业务限定可以组合出很多复杂的业务限定。
05SQL 编辑器优化升级
38
应用场景:
01、编写 SQL 代码,需要查看某个表的表结构信息
02、SQL 有语法错误,期望可以第一时间发现
03、不知道系统函数的使用方法,对传参不了解
04、需要 set 某个参数,但记不住该参数的全名,也不清楚取值范围
06 支持自定义标签属性配置及管理
应用场景:
01、某证券企业在开发标签时需要定义标签业务属性、技术属性。
其中业务属性除标签名称、描述,还包含业务场景、需求提出部门、需求提出人等,技术属性除标签code、技术负责人外还包含数据来源、度量单位等。
07 行为标签过滤条件、行为关系关联字段可搜索
应用场景:
01、开发者在配置行为标签添加筛选条件,或配置行为关系设置行为属性关联的物理表字段时,在可选标签或表字段数量较大的情况下,可通过关键字搜索方式选中目标标签或字段,大大降低配置成本。
08 离线视图、离线标签、实体、实体ID支持跨租户发布
应用场景: 01、某企业客户存在测试租户以及生产租户时,上线前开发者在测试租户中对标签进行开发调试达到可上线状态后,期望快速发布到生产租户进行上线应用。
09整库迁移新增同步模式,及目标表重名校验功能
应用场景:
01、整库迁移目前仅支持将数据写入新建的目标表中,如果目标库已经存在同名表,原先在整库迁移中提供了自动删除数据源中同名表的功能,容易导致目标库中已有的重要表被误删除。
02、原先的整库迁移默认生成每日调度的周期任务,但对于仅需要同步一次全量数据的场景来说,需要手动将所有任务下线,操作较为繁琐。在增全量同步的场景下,需要一次全量加每日增量的同步方式。
10 完善日志问题定位、任务失败告警
应用场景:
01、Flink 在运行过程中会产生大量的日志信息,当问题出现时,需要从这些日志信息中定位和分析问题,但是在使用过程中存在日志量大、分散、停止并再次启动后,会导致历史日志丢失等情况,增加了问题定位的难度。
02、现有的实时任务监控告警中支持报警原因:失败频率超过n次/分钟,但失败频率其实是通过restart次数计算的,这个指标记录了作业自动重启的次数,这个指标越高,说明该作业遇到了越多的故障情况,也可能意味着作业的可靠性存在问题。因此目前作业从运行中状态变为失败状态后无法触发监控报警,需要人工发现。
11 新增隐私计算平台
应用场景:
01、企业希望可以指定人群进行特定场景营销。例如,某银行期望在某电商平台,对【特定非活跃老客】用户进行老客营销,需要求两边客户交集,但两边客户ID不透出,此处可用ID安排匹配功能完成。
02、在一些查询场景,数据查询方不想向数据服务方透露要查询的内容。例如某企业期望通过第三方数商,对企业用户画像进行标签增补,但不想把用户信息透露给第三方数商,就可以用隐匿信息查询的功能。
03、电商平台在媒体平台进行了营销广告投放,投放结束后,电商平台期望能联合两边的数据,进行全链路的营销活动复盘分析,就可以借助联合分析功能实现。
04、某银行和某电商平台,分别拥有一部分客户数据,拥有的客户特征不一样,银行拥有客户的金融信用数据,电商拥有客户的电商消费数据,期望联合两方数据训练精准营销模型,则可使用联合建模。
12 数据安全支持行业化的分级分类
应用场景:
01、证券行业的客户,在构建自己公司的数据安全分类体系的时候,需要参考并遵守国标的证券期货业数据分类分级指引。完整的数据分类体系,有多级的业务+数据分类的划分,每一级分类又可以细分为多级子分类。因此为了能更好的按照国标建设企业的数据分类体系,就需要用到多级数据分类体系的能力。
13 数据质量支持按照业务视图进行查看
应用场景:
01、在实际的业务管控中,质量报告作为表的重要参考信息,一般是全局共享的。但是表的质量校验配置和校验详情,一般需要按照一定的权限范围进行管控,如按照项目或者个人,只有项目成员或者表的负责人可以配置监控和查看敏感数据的监控详情。
14 数据质量支持复杂分区校验
应用场景:
01、在多数按日期进行分区的场景下, 质量校验一般仅校验最新的分区,如ds=${yyyyMMdd}。但是在一些特殊场景下, 校验分区会有不同。
如:我只是浙江地区的负责人,只想看浙江地区的客户信息是否完整,则可以使用:province="浙江" and ds=${yyyyMMdd};
需要在每周日对本周的整体销售数据进行校验,则可以使用:ds>yyyyMMdd−7andds<=yyyyMMdd−7andds<={yyyyMMdd-7} and ds<={yyyyMMdd};
15 通过资产专题实现分类管理
应用场景:
01、从资产运营视角出发,按照资产的业务使用场景对资产进行分类并创建对应的专题和目录,根据资产可用性设置专题公开范围,解决数据资产分散难管理、视角不集中难搜索等问题。此外,支持为资产专题进行点赞、收藏,可快捷查看所有“我收藏的”资产,提升资产专题活跃度。
02、运营管理员可创建“精选”专题,用于管理符合企业数据资产建设架构要求、质量高、可直接申请消费的核心资产,减少相关业务人员因缺少资产价值评估依据找数难得问题,打通资产消费链路。
16 数据标准与质量联动,补全监控链路
应用场景:
01、在数据标准的梳理和定义过程中,往往有一部分产出物是数据标准与核心资产(字段、指标)的映射关系。针对已经线下梳理好的映射关系,支持通过 Excel 的方式手动批量导入,快速完成映射关系的定义。
02、创建完成数据标准属性及相关的监控配置后,从数据标准管理的视角出发,针对已经确认的映射关系直接添加质量监控规则作为是否符合数据标准的评判依据,并在“落标评估明细”中统一查看所有监控规则的评估通过率及评估详情。
17 数据服务支持注册外部 API
应用场景:
01、企业一些算法服务,需要开发人员通过编写代码来开发API,并实现对企业所有API的统一管理和监控。
例如:网约车行业的一些算法服务(例如获取最优线路),需要通过python语法,在指定的机器学习框架(如TensorFlow)下开发好算法模型,把算法服务直接注册到dataphin平台的数据服务,由数据服务统一管理和监控算法服务的调用。
02、企业的一些系统有对外开放的OpenApi,企业希望对这些OpenApi的调用进行运维监控。那么可以将这些OpenApi注册到Dataphin数据服务,利用数据服务原有的运维监控功能实现OpenApi的限流、告警、调用统计、调用日志查看等功能。
18 API开发支持多版本管理,不影响下游调用
应用场景:
01、一般下游应用调用API时是写死了API_ID,如果API的数据源或者查询条件发生变更后,可以通过多版本的方式开发、测试好后,再将新版本发布到线上,覆盖原来的版本,下游应用端不用调整调用配置。
02、在测试环境,支持API多个版本的共存,可以进行ABtest,对不同版本的API进行测试,然后根据测试的结果,将最终确定的版本发布到线上应用。
03、发布到线上的版本都会在版本管理有记录。当新版本修改数据源或者计算逻辑并发布到线上后,发现新版本调用出现数据问题后,可以基于之前的版本,新增一个版本发布到线上,覆盖原来的版本实现版本回退。
19 数据服务支持不停服升级
应用场景:
01、客户可在系统升级前,用超级管理员的角色,开启升级模式,开启后API依赖的所有子域数据会进行缓存处理,保障线上API的正常调用,完成升级后及时关闭升级模式即可。PS:在开启升级模式后,API发布、授权、申请都不能生效。
20 支持按应用维度统计API的调用情况,满足多场景的结算需求
应用场景:
01、客户日常结算中,存在需要按应用的维度统计在时间范围内调用API的次数以及各API调用的次数分布,满足客户多种结算场景。PS:支持网关:私有网关、公有网关(专享实例+开启sls)
三、总结与展望
本次发布的V3.11 版本中,核心重点能力主要有支持EMR 5.x 计算引擎;Hive 引擎支持 Impala 查询加速;新增隐私计算;支持研发事中治理;全新上线资产专题;SQL 编辑也做了重大改进优化,另外全新的分析平台可以给数据分析师带来全新的分析体验。在下一个版本中,将引入官方内置引擎 StarRocks,分析平台将引入更多分析工具,质量模块将开放全新的质量分,还有很多其他新增能力与功能升级,敬请期待。