Dataphin智能数据建设与治理官方出口。
Dataphin V3.13版本新增自定义注册调度集群功能。通过自定义注册不同集群并指定关联租户,可实现资源隔离管控;通过指定集成任务运行使用的资源组,可减少跨集群数据传输场景,降低流量带宽消耗,提高同步效率。
本次发布的V3.13 版本中,Dataphin 不仅提升了易用性,支持了计算任务批量操作(离线集成&实时计算任务)、运维列表查看及批量操作(实例排序、手动任务批量运行、逻辑表任务修改负责人)等功能;也新增了多个特色功能,如:任务传参及灵活调度(跨节点参数)、治理经验沉淀(质量知识库)、资产治理相关对象的跨租户发布(数据标准、安全)、跨集群资源调度、分析平台手工表等,以满足灵活、多样性的业务诉求。
Dataphin的标签平台提供了 丰富强大的标签加工能力,支持多种类型标签开发,包括离线、实时等标签可视化加工。基于离线视图、实时视图、行为关系,可通过配置化的方式构建属性类、统计类标签、偏好类标签,以及与已有的标签创建衍生组合标签。通过构建及管理标签,形成良好的标签资产,可供上层的应用及业务系统使用。本文将介绍如何通过Dataphin OpenAPI圈选群组以及群组分页查询服务,让应用系统集成标签平台的标签及群组加工能力,进行群组的圈选、分析及投放。
实时数据大屏是实时计算的重要应用场景之一,广泛应用在电商业务中,用于实时监控和分析电商平台的运营情况。通过大屏展示实时的销售额、订单量、用户活跃度、商品热度等数据指标,帮助业务人员随时了解业务的实时状态,快速发现问题和机会。同时,通过数据可视化和趋势分析,大屏也提供了决策支持和优化运营的功能,帮助业务人员做出及时的决策和调整策略,优化电商业务的运营效果。 下面以电商业务为背景,介绍如何构建经典实时数仓,实现实时数据从业务库到ODS层、DWD层、DWS层全链路流转,基于Dataphin和Quick BI实现实时数据大屏。
Datatphin V3.11版本全新上线补数据任务功能,支持将单次补数据保存为补数据任务,保存补数据节点范围及运行规则;支持补数据任务定时调度,自动定期回刷历史数据;支持手动运行补数据任务。满足企业复杂多样的回刷历史数据的需求,减少人工操作成本。
本次发布的V3.12 版本中,核心重点能力主要有 支持 StarRocks计算引擎适配;部署去除OSS/Ceph等存储依赖;分析平台支持query任务;质量分,数据标准结构升级支持标准模板,批量导入导出;实时研发支持等Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表等 在下一个版本中,将支持自定义消息渠道,支持质量知识库,标准、安全支持跨租户发布,分析平台支持手工表等功能,还有很多其他新增能力与功能升级,敬请期待。
在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。
OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~
Dataphin依赖周期和依赖策略详解
在数据质量最佳实践(3):通过质量治理工作台,实现质量问题的跟踪和处理这篇文章中,我们详细的介绍了如何通过治理工作台,对系统出现的一个一个具体质量问题进行治理。 但是对于企业整体的数据质量情况,我们该如何评估呢?以及如何寻找当前企业的数据质量短板,并有针对性的进行改进和提升呢? 在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。
升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。
我们在享受数据便利的同时,数据隐私安全问题也成为了困扰。Dataphin隐私计算可以帮助企业在遵循法律法规的要求下,既充分发挥数据的价值,同时又不会影响用户的数据隐私安全。
瓴羊Dataphin(智能数据建设与治理),一直在探索数据安全管理能力的产品化最佳实践,即如何帮助企业利用产品工具能力,基于法律法规、主管部门要求和自身行业和业务的需要,建立起规范的分级分类制度,并对敏感数据制定相应的保护策略。企业通过Dataphin构建起合规的数据安全体系,将数据安全风险降至最低,让数据资产在安全合规的基础上,得到最大的价值释放。
瓴羊旗下开发云核心产品Dataphin(智能数据建设与治理)近期升级到V3.11版本,全新上线Notebook数据分析空间,以及Dataphin隐私计算平台,在数据采、建、管、用的基础上,进一步强化数据消费和数据流通能力,帮助企业用标准化的产品能力,在大数据时代构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产,促进数据价值释放。
Dataphin V3.11 版本,全新上线隐私计算平台、数据分析平台、资产专题,SQL 编辑也做了重大改进优化。为企业建设贯穿事前、事中、事后的全链路数据治理能力添砖加瓦,助力提升资产价值。 在下一个版本中,还有很多其他新增能力与功能升级,敬请期待。
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
随着数据量的不断增长以及消费场景的多样化,当前单一的数据目录已经很难满足数据管理者和消费者对于资产管理和查找的需求。 种种困难和吐槽的背后,核心原因是缺少一套有效的资产管理及运营体系,数据难以与业务形成有效连接,数据资产价值无法发挥放大。基于此背景,Dataphin 全新推出资产专题功能,希望打造面向主题的精品数据资产建设和运营生态,提升数据生产者和消费者的工作效率。 通过专题,您可以灵活高效地组织、管理并运营精品数据资产,交流并沉淀业务知识,形成数据与业务更多更强的连接,让数据更好地驱动业务。
在DataphinV3.11版本中,Dataphin支持了API开发多版本管理,对API变更过程进行记录和维护,便于追溯历史版本和保障下游调用不受影响。
在DataphinV3.11版本中,我们支持了注册外部API的能力,用于支持客户统一管理企业所有的API,打造企业的数据服务中心。API注册到Dataphin之后,可以由Dataphin统一纳管,和其他方式创建的API共用相同的服务市场、权限管控、运维监控能力。 同时我们支持了Json文本解析能力,支持编写类似正则表达式的语法定义注册API返回参数的取值路径,满足企业自定义取数的场景。
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系通过落标映射规则来管理,对象是否遵循了映射到的标准定义则通过落标监控规则来判断。本文为您介绍落标监控评估的基本概念和监控逻辑。Dataphin 支持通过定义标准属性和资产对象元数据字段之间的匹配关系,自动生成数据标准和资产对象的映射关联;针对已确定的映射关系,可结合数据标准的定义对关联的资产对象进行落标监控,包括元数据监控和内容质量监控。上篇,我们为大家介绍了数据标准监控的分类和配置方式,本期我们将为您介绍配置好的落标监控如何生效以及如何查看监控结果。
企业首次上云的时候,会有数据表批量同步与同步增全量数据的需求,Dataphin的离线整库迁移提供了生成批量集成管道任务的途径,适用于该场景。在Dataphin V3.11中,整库迁移功能在目标表重名检查与同步方式上都做了功能升级,一起来了解一下吧~
集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要应对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法长时间卡住,无法完成。
分析平台是Dataphin V3.11推出的全新模块,旨在为各个角色的数据工作者提供一个便捷高效的数据查询与分析平台。本期分析模块上线了Notebook,一个集文本、SQL代码与查询结果于一体的交互式数据分析笔记本,全面提升取数体验。
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
本次发布的V3.10版本中,Dataphin新增了ArgoDB作为计算引擎;针对客户不同的管控诉求,提供了自定义审批模版、自定义下载和权限审批策略的管控能力;优化了自定义数据源的元数据获取和创建流程;在数据集成、实时研发、数据服务中都新增了多种数据源的适配;在资产治理中,也支持了质量整改、异常数据归档、标准关联质量。
细说Dataphin自动解析
实时计算场景由于其需要24小时不间断的运行,对于任务的稳定性、时效性要求异常的高。在通常情况下,为了保证结果能够高准确、低延迟地产出,生产环境中需要双链路甚至三链路来实现主备的容灾处理。那么对于相同的一套指标,我们需要维护的代码就会根据链路数量成倍往上翻。特别是在变更的时候,人工操作有可能会带来很多的不一致。 考虑到主备任务处理逻辑需要保持强一致性,差异仅仅在于输入流/表以及输出流/表,dataphin针对这种场景设计了专门的处理方案,引入了模版和模版任务的概念,可以高效的解决上述问题。
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系通过落标映射规则来管理,对象是否遵循了映射到的标准定义则通过落标监控规则来判断。本文为您介绍落标监控评估的基本概念和监控逻辑。Dataphin 支持通过定义标准属性和资产对象元数据字段之间的匹配关系,自动生成数据标准和资产对象的映射关联了;针对已确定的映射关系,可结合数据标准的定义对关联的资产对象进行落标监控,包括元数据监控和内容质量监控。
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系当前可以通过落标映射规则来管理;生成映射关系后,对象是否遵循了映射到的标准定义则通过落标监控评估来判断。本文为您介绍落标映射关系的分类和管理方式。
前言:在Dataphin 3.9中新增支持Hologres引擎的适配。Hologres是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving)。通过Dataphin的研发平台能力以及数据资产治理能力,可提供更好的即席分析及实时数仓的构建能力。
分区表是指拥有分区空间的表,在集成任务中指定来源表的分区数据进行抽取,可以避免全表扫描,提高处理效率。但是来源表为分区表时也会遇到一些问题,如某些分区不存在,或者是需要抽取多个分区的数据,下面介绍一下Dataphin为这些场景提供的对应能力。
V3.10 版本中,Dataphin 全新上线调度资源分组管理的功能,能够帮助您统一管理部署Dataphin实例的物理机集群资源。您可以将资源划分为不同的配额组,不同资源组之间的资源配额互相独立,并支持为不同租户、统一租户下不同项目内的任务单独指定调度时使用的自定义资源组,从而保障核心任务的资源不被抢占,同时也提升整体资源利用率。
在DataphinV3.9版本中,对于API数据源的认证方式配置与URL相对路径配置等场景进行了功能优化,并且新增支持了通过离线集成管道中的API输出组件向API数据源写入数据的功能。
本次发布的V3.9版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理中,做完了事前的质量规则的配置和事中的质量规则校验后,会产生大量的质量问题待治理项,这时候需要有一个完整的工作流程去管理质量问题,实现从质量规则配置,到质量问题发现,到质量治理修复问题,最终提升数据质量的完整PDCA流程。
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。
以计算促销活动期间GMV为例,介绍Dataphin如何基于Flink流批一体的任务开发流程,实现实时数据处理。