Dataphin智能数据建设与治理官方出口。
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
Dataphin v4.0提升了即席查询体验,新增支持多条SQL语句同时执行并查看独立日志,允许用户移动或隐藏列,以及全屏查看结果。此外,为增强数据安全,引入了禁止数据复制的功能。新版本还优化了细节,如单行详细信息查看和更灵活的列管理,旨在提高数据分析效率并保障数据安全。
Dataphin V3.14 重磅升级,平台支持企业级适配,适配企业特色;研发体验易用性提升,数据研发更高效、任务运维更便捷;数据治理能力更完备,支持多对象批量操作,规则级告警配置、分级分类自动继承继承!
有些业务数据是手工excel维护的,这时我们要如何将数据上传至dataphin并进行维护?
实时研发一直以来的都是通过local-debug的方式来调试开发中的Flink SQL任务,该方式有如下不足: 1. 支持的采样数据有限,且非是流式数据的调试。 2. 手动上传构造数据的方式较为繁琐,局限性较大。 为便于Flink SQL任务的调试,DataphinV3.14版本支持Flink SQL任务基于Session集群调试,期望做到像离线即席查询般方便地获取实时任务的输出结果,方便用户对线上的真实数据进行代码逻辑上的调试。
研发任务列表
hello,大家好: 为了更好地引导广大用户深入探索和高效利用Dataphin全方位的数据智能能力,我们特别推出“Dataphin功能小Tips”系列,旨在通过生动直观的场景描述与对应的功能应用方案,以简洁明快的语言呈现,力求让每一位用户都能轻松解锁Dataphin中的每一个实用功能点。 这一系列内容专为提升您的使用体验而设计,期待能为大家解决实际问题、优化数据管理工作带来切实的帮助,在此,我们也诚挚邀请所有用户积极参与互动,随时分享您宝贵的使用心得与建议。您的反馈将是我们不断迭代优化的重要动力!
Dataphin 在 V3.14 版本中对标准审批设置功能进行了全面升级,支持按照标准集粒度对不同数据标准的审批流程进行配置:上线、下线审批可独立配置,支持免审批;此外,Dataphin 支持设置不同模块的审批流程使用的审批系统(内置或第三方审批系统),从而将标准管理流程和且 OA 流程进行更好的结合,助力提升组织流程的管理效率,推动业务发展。
在一些场景中,常常需要支持通过筛选指定条件快速定位目标实时任务并进行批量操作,如:为了保证大促期间实时指标及时准确产出,在大促前需要找出一批相关的实时任务进行资源配置的调整,更高效利用可用计算资源,实现资源的动态分配和优化;当系统需要紧急响应某些情况(如故障恢复、资源冲突等)时,批量操作使得快速下线、替换或重启一组任务。 Dataphin V3.13版本中,新增实时计算任务列表,支持快速筛选任务和批量操作任务的功能,可以帮助更加高效地处理大量计算任务。
离线集成任务列表提供了一个展示集成任务详细信息的页面,便于查看集成任务的各类信息。同时还支持根据任务的各类属性进行筛选。还支持根据来源与目标数据源或数据表进行任务的查找与筛选。便于在一些业务变更的时候,能快速筛选到所有任务,进行查看或批量修改的操作,提高开发与运维的效率。
Dataphin V3.13版本新增自定义注册调度集群功能。通过自定义注册不同集群并指定关联租户,可实现资源隔离管控;通过指定集成任务运行使用的资源组,可减少跨集群数据传输场景,降低流量带宽消耗,提高同步效率。
本次发布的V3.13 版本中,Dataphin 不仅提升了易用性,支持了计算任务批量操作(离线集成&实时计算任务)、运维列表查看及批量操作(实例排序、手动任务批量运行、逻辑表任务修改负责人)等功能;也新增了多个特色功能,如:任务传参及灵活调度(跨节点参数)、治理经验沉淀(质量知识库)、资产治理相关对象的跨租户发布(数据标准、安全)、跨集群资源调度、分析平台手工表等,以满足灵活、多样性的业务诉求。
Dataphin的标签平台提供了 丰富强大的标签加工能力,支持多种类型标签开发,包括离线、实时等标签可视化加工。基于离线视图、实时视图、行为关系,可通过配置化的方式构建属性类、统计类标签、偏好类标签,以及与已有的标签创建衍生组合标签。通过构建及管理标签,形成良好的标签资产,可供上层的应用及业务系统使用。本文将介绍如何通过Dataphin OpenAPI圈选群组以及群组分页查询服务,让应用系统集成标签平台的标签及群组加工能力,进行群组的圈选、分析及投放。
实时数据大屏是实时计算的重要应用场景之一,广泛应用在电商业务中,用于实时监控和分析电商平台的运营情况。通过大屏展示实时的销售额、订单量、用户活跃度、商品热度等数据指标,帮助业务人员随时了解业务的实时状态,快速发现问题和机会。同时,通过数据可视化和趋势分析,大屏也提供了决策支持和优化运营的功能,帮助业务人员做出及时的决策和调整策略,优化电商业务的运营效果。 下面以电商业务为背景,介绍如何构建经典实时数仓,实现实时数据从业务库到ODS层、DWD层、DWS层全链路流转,基于Dataphin和Quick BI实现实时数据大屏。
Datatphin V3.11版本全新上线补数据任务功能,支持将单次补数据保存为补数据任务,保存补数据节点范围及运行规则;支持补数据任务定时调度,自动定期回刷历史数据;支持手动运行补数据任务。满足企业复杂多样的回刷历史数据的需求,减少人工操作成本。
本次发布的V3.12 版本中,核心重点能力主要有 支持 StarRocks计算引擎适配;部署去除OSS/Ceph等存储依赖;分析平台支持query任务;质量分,数据标准结构升级支持标准模板,批量导入导出;实时研发支持等Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表等 在下一个版本中,将支持自定义消息渠道,支持质量知识库,标准、安全支持跨租户发布,分析平台支持手工表等功能,还有很多其他新增能力与功能升级,敬请期待。
在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。
OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~
Dataphin依赖周期和依赖策略详解
在数据质量最佳实践(3):通过质量治理工作台,实现质量问题的跟踪和处理这篇文章中,我们详细的介绍了如何通过治理工作台,对系统出现的一个一个具体质量问题进行治理。 但是对于企业整体的数据质量情况,我们该如何评估呢?以及如何寻找当前企业的数据质量短板,并有针对性的进行改进和提升呢? 在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。
升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。
我们在享受数据便利的同时,数据隐私安全问题也成为了困扰。Dataphin隐私计算可以帮助企业在遵循法律法规的要求下,既充分发挥数据的价值,同时又不会影响用户的数据隐私安全。
瓴羊Dataphin(智能数据建设与治理),一直在探索数据安全管理能力的产品化最佳实践,即如何帮助企业利用产品工具能力,基于法律法规、主管部门要求和自身行业和业务的需要,建立起规范的分级分类制度,并对敏感数据制定相应的保护策略。企业通过Dataphin构建起合规的数据安全体系,将数据安全风险降至最低,让数据资产在安全合规的基础上,得到最大的价值释放。
瓴羊旗下开发云核心产品Dataphin(智能数据建设与治理)近期升级到V3.11版本,全新上线Notebook数据分析空间,以及Dataphin隐私计算平台,在数据采、建、管、用的基础上,进一步强化数据消费和数据流通能力,帮助企业用标准化的产品能力,在大数据时代构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产,促进数据价值释放。
Dataphin V3.11 版本,全新上线隐私计算平台、数据分析平台、资产专题,SQL 编辑也做了重大改进优化。为企业建设贯穿事前、事中、事后的全链路数据治理能力添砖加瓦,助力提升资产价值。 在下一个版本中,还有很多其他新增能力与功能升级,敬请期待。
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
随着数据量的不断增长以及消费场景的多样化,当前单一的数据目录已经很难满足数据管理者和消费者对于资产管理和查找的需求。 种种困难和吐槽的背后,核心原因是缺少一套有效的资产管理及运营体系,数据难以与业务形成有效连接,数据资产价值无法发挥放大。基于此背景,Dataphin 全新推出资产专题功能,希望打造面向主题的精品数据资产建设和运营生态,提升数据生产者和消费者的工作效率。 通过专题,您可以灵活高效地组织、管理并运营精品数据资产,交流并沉淀业务知识,形成数据与业务更多更强的连接,让数据更好地驱动业务。
在DataphinV3.11版本中,Dataphin支持了API开发多版本管理,对API变更过程进行记录和维护,便于追溯历史版本和保障下游调用不受影响。
在DataphinV3.11版本中,我们支持了注册外部API的能力,用于支持客户统一管理企业所有的API,打造企业的数据服务中心。API注册到Dataphin之后,可以由Dataphin统一纳管,和其他方式创建的API共用相同的服务市场、权限管控、运维监控能力。 同时我们支持了Json文本解析能力,支持编写类似正则表达式的语法定义注册API返回参数的取值路径,满足企业自定义取数的场景。
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系通过落标映射规则来管理,对象是否遵循了映射到的标准定义则通过落标监控规则来判断。本文为您介绍落标监控评估的基本概念和监控逻辑。Dataphin 支持通过定义标准属性和资产对象元数据字段之间的匹配关系,自动生成数据标准和资产对象的映射关联;针对已确定的映射关系,可结合数据标准的定义对关联的资产对象进行落标监控,包括元数据监控和内容质量监控。上篇,我们为大家介绍了数据标准监控的分类和配置方式,本期我们将为您介绍配置好的落标监控如何生效以及如何查看监控结果。
企业首次上云的时候,会有数据表批量同步与同步增全量数据的需求,Dataphin的离线整库迁移提供了生成批量集成管道任务的途径,适用于该场景。在Dataphin V3.11中,整库迁移功能在目标表重名检查与同步方式上都做了功能升级,一起来了解一下吧~
集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要应对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法长时间卡住,无法完成。
分析平台是Dataphin V3.11推出的全新模块,旨在为各个角色的数据工作者提供一个便捷高效的数据查询与分析平台。本期分析模块上线了Notebook,一个集文本、SQL代码与查询结果于一体的交互式数据分析笔记本,全面提升取数体验。
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
本次发布的V3.10版本中,Dataphin新增了ArgoDB作为计算引擎;针对客户不同的管控诉求,提供了自定义审批模版、自定义下载和权限审批策略的管控能力;优化了自定义数据源的元数据获取和创建流程;在数据集成、实时研发、数据服务中都新增了多种数据源的适配;在资产治理中,也支持了质量整改、异常数据归档、标准关联质量。
细说Dataphin自动解析
实时计算场景由于其需要24小时不间断的运行,对于任务的稳定性、时效性要求异常的高。在通常情况下,为了保证结果能够高准确、低延迟地产出,生产环境中需要双链路甚至三链路来实现主备的容灾处理。那么对于相同的一套指标,我们需要维护的代码就会根据链路数量成倍往上翻。特别是在变更的时候,人工操作有可能会带来很多的不一致。 考虑到主备任务处理逻辑需要保持强一致性,差异仅仅在于输入流/表以及输出流/表,dataphin针对这种场景设计了专门的处理方案,引入了模版和模版任务的概念,可以高效的解决上述问题。
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系通过落标映射规则来管理,对象是否遵循了映射到的标准定义则通过落标监控规则来判断。本文为您介绍落标监控评估的基本概念和监控逻辑。Dataphin 支持通过定义标准属性和资产对象元数据字段之间的匹配关系,自动生成数据标准和资产对象的映射关联了;针对已确定的映射关系,可结合数据标准的定义对关联的资产对象进行落标监控,包括元数据监控和内容质量监控。
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系当前可以通过落标映射规则来管理;生成映射关系后,对象是否遵循了映射到的标准定义则通过落标监控评估来判断。本文为您介绍落标映射关系的分类和管理方式。
前言:在Dataphin 3.9中新增支持Hologres引擎的适配。Hologres是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving)。通过Dataphin的研发平台能力以及数据资产治理能力,可提供更好的即席分析及实时数仓的构建能力。
分区表是指拥有分区空间的表,在集成任务中指定来源表的分区数据进行抽取,可以避免全表扫描,提高处理效率。但是来源表为分区表时也会遇到一些问题,如某些分区不存在,或者是需要抽取多个分区的数据,下面介绍一下Dataphin为这些场景提供的对应能力。
V3.10 版本中,Dataphin 全新上线调度资源分组管理的功能,能够帮助您统一管理部署Dataphin实例的物理机集群资源。您可以将资源划分为不同的配额组,不同资源组之间的资源配额互相独立,并支持为不同租户、统一租户下不同项目内的任务单独指定调度时使用的自定义资源组,从而保障核心任务的资源不被抢占,同时也提升整体资源利用率。
在DataphinV3.9版本中,对于API数据源的认证方式配置与URL相对路径配置等场景进行了功能优化,并且新增支持了通过离线集成管道中的API输出组件向API数据源写入数据的功能。
本次发布的V3.9版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理中,做完了事前的质量规则的配置和事中的质量规则校验后,会产生大量的质量问题待治理项,这时候需要有一个完整的工作流程去管理质量问题,实现从质量规则配置,到质量问题发现,到质量治理修复问题,最终提升数据质量的完整PDCA流程。
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。
以计算促销活动期间GMV为例,介绍Dataphin如何基于Flink流批一体的任务开发流程,实现实时数据处理。