5. 资产治理:高价值数据,助力企业高质量发展
随着各行各业数字化转型进程的加速,业务数字化的基础日渐扎实,数据驱动业务或数据化运营,不再是传统头部企业及大型互联网公司的专利,越来越多的企业也在拥抱数据、消费数据。因此,数据治理的诉求呈现出日渐强烈的趋势。
治理的价值在于构建企业内一份质量可靠、安全可控、服务便捷的好数据,让数据价值得以释放。然而,数据治理并非一蹴而就。一般围绕四大关键领域“成本、质量、安全、服务”开展工作,进行目标设定:
∙ 生产经济:以控制甚至节约成本为目标,实际运作则需要拆解到业务线或者不同领域范围的成本控制,比如销售业务线、市场投放线等;
∙ 质量可靠:以减少数据质量问题、收窄数据质量风险敞口为目标,实际运作则需要拆解到应用场景或不同数据等级,如优先保障高管数据看板、驱动业务运行涉及的数据质量等;
∙ 安全可控:以满足合规要求、防止数据泄漏为目标,实际运作则需要拆解到不同的数据类型或流程环节,如隐私数据、监管报送数据等;
∙ 服务便捷:以盘点供给丰富的数据、驱动数据消费为目标,实际运作则需要拆解到不同的业务线、数据类型及服务场景,如营销推广、业务决策等。
下面,我们就来详细看一下每个具体的功能模块在全链路资产治理中发挥的重要作用。
1) 数据盘点,厘清数据资产现状
数据资产盘点往往是企业评估数字化转型进程、确定数据治理的领域、范围、核心目标的第一步。通过对企业所有数据的盘点及管理,可以在数据供给侧汇聚全域数据,体系化地组织数据并丰富数据信息,同时结合数据运营培训及推广,建立良好的资产检索和确信体验,并连接消费渠道,实现数据资产在需求侧消费扩大。
Dataphin提供了元数据的采集与管理能力,帮助企业用户快速了解数据概貌,并基于统一的元数据支撑数据开发与治理的全链路。
a)自动化元数据采集
针对不同来源的资产数据, Dataphin 支持不同的采集方式,以更好地适配使用诉求。
∙ 域内数据:Dataphin 系统支持自动、定时采集仓内数据资产(即项目绑定的计算源中存储的数据资产)的技术元数据信息,无需用户手动配置,并在资产目录进行统一的呈现,便于数据开发人员能及时获取最新元数据,并便捷查看和校验。
∙ 全域数据:针对数据源中的资产对象,Dataphin 支持配置元数据采集任务,可根据配置的采集频率、采集范围、过滤条件等参数信息,实现端到端的自动化元数据采集,实现全局资产盘点。此外,针对临时性的元数据获取需求,也支持临时手动运行已配置好的采集任务,一次性获取最新元数据。
b)标准化元数据管理
Dataphin 提供完善的“元数据管理”和“元数据丰富”功能。
∙ 元数据管理:对于直接从源端信息采集到的元数据,可自动、手动创建版本生成定版元数据,并支持不同版本之间的差异对比。 Dataphin 也提供了元数据的变动及影响分析统计报告,可查看不同时间段内元数据总量的变化趋势、变动频率即变动百分比等信息,便于资产管理人员和开发人员快速了解上游系统的稳定性。此外,支持自定义元数据变动预警通知,及时获取变更通知,并在统计报告中查看发生变更的对象对下游的相关影响,提前识别潜在风险。
∙ 元数据丰富:资产对象上架到资产目录前,还可以通过资产盘点功能实现管理元数据和业务元数据的丰富。通过配置资产上架规则,可快速批量为上架资产添加管理部门、相关业务需求、资产标签等信息,并归属到不同的资产目录,便于统一管理。此外,系统也会采集不同元数据之间的血缘关系并统一呈现,可以更清晰直观的了解元数据之间的关联关系。
结合从源端系统采集到的技术元数据和资产盘点过程中丰富的业务管数据,资产管理人员可快速了解数据资产概貌,资产开发和使用人员可快速找到所需要的资产并查看资产详情,大大降低了沟通成本,快速打通资产消费链路。
c)全方位资产信息呈现
Dataphin 支持管理多种类型的资产对象,包括:数据表( 8 种细分表类型)、字段、指标、数据源、项目、API、标签等。每种资产对象根据使用场景和使用方式,在资产目录展示了不同的信息项,便于消费人员更直接、更快捷的找到自己需要的信息,并评估是否满足使用诉求。
如:数据表资产,除了基本的表结构和字段信息,还展示了血缘和影响分析,便于在数据变更时准确评估下游影响并通知到相关人员;可快捷查看已配置的质量监控规则和质量报告,便于了解数据质量,判断是否可用于开发或分析任务;支持快捷发起数据探查以了解数据分布概要、识别是否有主键重复、空值等影响数据准确性的潜在风险等等。
d)多样化元数据应用
基于统一的元数据采集与管理,下游应用也更加灵活丰富。
∙ 数据开发链路:数据集成任务中配置来源表和目标表时可实时获取已选数据源的最新元数据信息,便于开发人员进行选择;实时研发任务可以直接读取数据源表的元数据进行代码开发,简化流程;标签开发可以通过统一的元数据实现简化来源数据集加工和下游调用服务开发的工作量,提升开发效率。
∙ 资产治理链路:数据标准可以结合采集到的元数据,对资产进行落标映射与监控,规范开发;质量规则可以基于采集到的元数据,监控源端数据表结构的变更并根据配置阻断下游任务运行或发出告警,防止数据入仓任务运行异常产生脏数据。
统一的元数据中心不仅帮助企业管理者更清晰的盘点企业资产现状,快速识别现有资产问题,更好地评估资产价值做出决策,也帮助数据开发与消费人员快速找到可用、能用、易用的资产,是企业进行标准化数据开发与全链路数据治理的基石。
2) 定标、落标、核标一体化数据标准管理
数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,通常从业务、技术、管理三方面进行定义,使组织内外部使用和交换的数据是一致且准确的。然而,数据标准需求缺乏统一管理、不同系统间标准制定依据各异、资产建设缺乏和标准的关联,使得数据标准的建设和应用都面临很大困难。
作为资产治理的重要一环,Dataphin 数据标准模块为数据标准的建设提供统一的产品化能力,支持:数据标准在线创建于管理、关联研发链路提供规范引导、结合质量监控能力实现对资产对象的落标稽核,以帮助企业解决数字建设管理过程中遇到的规范性、统一性问题,提升企业整体数字能力建设的标准化成熟和资产的健康度。
a)高效便捷的数据标准定义
相较于传统模式下用Excel等文件分散管理数据标准的方式,Dataphin支持在线创建数据标准,结合标准模板和标准目录的能力,支持一次定义多次复用和分类管理,减少了定义不统一、理解不一致、落地执行难等问题的产生,真正实现了标准的统一管理,让开发和治理工作都有据可循。
∙ 模板化在线管理:不同企业对于数据标准的定义不同,应用范围和使用场景也有所差异,为了满足不同组织对数据标准的灵活定义诉求,Dataphin 支持创建标准模板,用于管理创建数据标准时需要填写的属性信息。通过定义每一个标准属性的填写规范(如是否必填、填写方式、取值范围约束等),保证基于该模板创建的相同类型的数据标准都遵循统一的结构定义,便于后续的传播和使用。
∙ 批量导入导出:Dataphin 也支持快捷将已经梳理好的标准明细文件导入系统进行统一管理,或者将已创建的数据标准批量导出,批量修改后再一次性录入更新。只需要下载标准模板并配置冲突策略,就可以实现数据标准的批量录入和更新,大大提升操作效率。
b)灵活的数据标准分类管理
随着企业治理工作的深入,沉淀的数据标准可能会越来越多,需要对标准进行分类管理,便于查找和统计。此外,部分敏感字段对应的数据标准可能会存在一些不便于公开的机密信息,需要控制这类标准的查看详情权限。
针对上述诉求,Dataphin 支持最多五级标准目录管理;此外,“标准集”作为一种特殊的标准目录,除了分类的作用外,还承载标准查看权限管控和审批流程定义的作用。数据标准需要先唯一归属一个标准集,并跟随标准集归属到不同的标准目录,实现灵活分类管理。
实际应用中,建议一张表(如客户信息维度表)或一个业务实体(如客户、商品)对应一个标准集,并根据业务相关性将标准集上挂到不同的标准目录下;其次,每个标准类型对应一个标准模板(如基础标准、指标标准),从而简化标准规范定义的工作,同时也能满足灵活、多样化的管理诉求。
c)完整的数据标准生命周期管理
Dataphin支持数据标准的全生命周期管理。
∙ 开发态:数据标准创建完成后默认生成“草稿态”版本,确认填写无误后可以提交标准上线申请并生成对应的审批任务。审批通过前,标准的状态为“修订中”。注意,开发态的数据标准不支持参与落标映射和评估监控。
∙ 发布审批:Dataphin支持设置标准发布审批模板,以适配不同的管理规范。标准上线后根据设置的标准生效时间,自动生成“待生效”“已生效”、“已失效”的标准。注意,审批中的数据标准不支持参与落标映射和评估监控。
∙ 生产态:上线后标准的支持在线修订,会生成“修订中”的版本;为了保障生产链路稳定性,修订中的版本再次发布并审批通过前,不会影响线上“已生效”的标准版本。基于该流程,用户可以实现灵活完整的标准生命周期管理。
d)多样化的数据标准映射关系配置
标准创建完成后,需要和对应的资产对象关联起来才能真正实现其应用价值,实现对资产的规范性约束。Dataphin支持多种映射关系配置方式:
∙ 研发过程关联:在编辑逻辑表或物理表时,可以快捷给每个字段配置“关联标准”,表对象提交发布后,就会针对开发表和生产表自动生成和指定标准之前的关联关系。
∙ 落标映射规则:落标映射规则通过定义标准属性值和资产对象元数据字段值的匹配关系,实现标准和资产对象的映射关联,自动生成映射关系。根据映射关系更新要求,还可以配置规则执行的频率,包括自动执行和手动执行。
∙ 手动批量导入:Dataphin 也支持导入 Excel 文件的方式实现手动批量导入映射关系,只需要下载配置模板,根据配置说明提示填写配置文件后上传,并根据需要配置更新策略,即可完成映射关系的批量导入。
此外,针对已经生成的映射关系,支持人工审核后根据映射是否正确将其划分为“有效映射”和“无效映射”,仅有效映射关系会参与到后续的落标评估监控环节,避免产生误告警影响正常使用。
e)有效的数据标准落地评估和监控
映射关系配置完成后,如何判断映射成功的资产对象是不是真正的遵循了对应的标准?
基于元数据采集和数据质量监控功能,Dataphin 提供了完善的数据标准落地评估能力,据监控类型的不同可分为“元数据监控”和“内容质量监控”。Dataphin 当前支持通过引用内置落标监控的系统属性来实现快捷的监控配置,从而降低对标准管理和录入人员的技术能力要求,同时也能降低操作成本,提升管理效率。
∙ 元数据监控:用于评估“资产对象的元数据字段值”和“标准定义的属性值”是否一致,如:数据类型、数据分类、数据分级,因此需要配置参与监控的对象元数据字段以及相对应的标准属性字段。此外,还需要配置校验通过逻辑(如:值相等则通过)和校验过程中是否大小写敏感。
∙ 内容质量监控:指针对标准映射到的资产对象(如字段、指标),评估其具体内容(如字段值)是否符合标准的约束,如:值域是否在指定范围内、字段值是否唯一等,将结合 Dataphin 数据质量模块的功能来实现。
落标监控评估的结果统一在“落标评估明细”页面呈现。落标评估明细提供了两种查看视角。针对不满足关联标准定义的资产,标准管理人员可以推动研发人员可以尽早进行整改,从源端保障数据规范性和统一性。
∙ 标准视角:以每个具体的数据标准出发,查看每一个标准映射到的字段列表以及每个字段的监控结果,常适用于标准管理人员。
∙ 资产对象视角:从资产对象视角出发,查看指定人员负责的资产是否遵循了相关标准的定义以及整体的核标通过率;如果存在异常情况,支持展开详情查看具体哪个字段、哪个属性和标准定义不一致,并推进整改,常适用于资产负责人。
f)全方位的参考数据管理
数据标准常常需要和参考数据一起使用,才能更好地适配业务需求。常见的参考数据包括码表、词根。码表可用于约束标准属性字段的取值范围,提升标准定义的准确性。
词根常用作词缀并作为数据表、字段等研发对象命名的参考依据,以提升命名规范性减少数据消费时的不一致性和理解误差。Dataphin数据标准模块支持码表和字根的创建和管理,研发链路中也支持基于已定义的词根自动推荐字段规范化命名和关联标准,大大降低了标准管理人员的操作成本。
总体来说,作为资产治理的重要一环,Dataphin 数据标准功能为标准的统一管理提供了灵活的产品化能力支持,同时也能减少人工监控成本,为标准的落地执行提供了强有力的保障,让数据消费通畅无歧义。
3) 快速建设高质量数据,支撑业务发展
数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:
良好的数据质量 |
糟糕的数据质量 |
数据支撑业务顺利开展,如: ∙ 更精确的用户偏好,通过推荐提高用户消费额 ∙ 更实时的物流信息,优化物流分配和配送效率 ∙ 更准确的仓储信息,优化仓储补货和管理 ∙ 及时、准确的数据,支持高效的商务决策 |
业务开展受阻,如: ∙ 无法正确开具发票,导致无法走财务流程 ∙ 登记了错误的用户联系方式,导致无人接收 ∙ 数据错误导致业务决策出错 |
可见,数据质量问题的来源众多,业务方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。
Dataphin数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。
a) 多类型资产全面覆盖
全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控。Dataphin能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:
监控对象 |
支持范围 |
质量校验能力 |
Dataphin表 |
支持Dataphin上的物理表和逻辑表的质量校验 |
支持7种质量性质下28个模版共计100+不同监控指标的质量规则校验 该部分详见质量规则模版 |
全域表 |
支持MySQL、Oracle、Hive、Maxcompute等 14 种数据源表的质量检测 |
支持7种质量性质下28 个模版共计100+不同监控指标的质量规则校验 该部分详见质量规则模版 |
数据源 |
注册到Dataphin上的数据源的稳定性,支持20+常见数据源的质量校验 |
∙ 数据源连通性 ∙ 表结构变动监控 |
实时元表 |
Dataphin的实时元表 |
∙ 实时指标监控 ∙ 实时离线对比 ∙ 实时多条链路对比 |
指标 |
Dataphin生产的指标 |
指标的稳定性、唯一性等监控 |
b) 丰富的内置质量规则模版
Dataphin数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定SQL等7种质量模版分类下28 个模版共计100+不同监控指标的质量规则校验:
质量规则分类 |
分类说明(主要基于DAMA) |
举例 |
完整性 |
∙ 对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整 ∙ 判断字段填充率、必填/非空(填充率100%)等 |
企业有1000员工,只有600人有联系方式 |
唯一性 |
∙ 对字段是否唯一进行校验。 ∙ 判断主键/业务实体的唯一性、重复率等 |
员工身份证号码应该只出现一次 |
及时性 |
∙ 对数据时间更新的频率和间隔进行验证 ∙ 判断业务日期是否最新,时间间隔是否合理等 |
A上午8点入职,10点才能在系统看到相关信息 |
有效性 |
∙ 对数据内容填写是否符合规范进行校验 ∙ 对数据的类型/范围/长度格式进行校验 |
员工年龄-1岁,无效 |
一致性 |
∙ 对比不同列、不同表之间的数据一致性或者业务一致性 ∙ 比较不同数据表的主键是否相同、单价乘数量是否等于总价等 |
A在员工系统的公司职务是总监,在销售系统是主管 |
稳定性 |
∙ 校验数据产出是否稳定,也可以用于校验业务数据是否稳定 ∙ 校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等 |
客户数量在10000家,当一个月波动20%的时候可能存在异常 |
自定义SQL |
支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控 |
/ |
提示:此处仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见Dataphin产品手册。
c) 完整的校验记录和异常归档
校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin质量的校验记录列表展示了每次质量规则校验的时间、执行状态和校验结果;此外,每条规则的校验详情中,展示了规则配置和关键指标,如:正常行数、总行数、异常行数等,便于进行日常检查和错误排查。
此外,Dataphin 还提供了异常数据归档能力。在质量规则配置时,可以选择开启异常归档;开启后,在质量校验过程中识别到的异常数据都将根据配置存储到指定位置,后续可在即席查询中对异常数据进行二次分析,便于进一步识别问题根源。
通过归档和分析异常数据功能,质量负责人和管理员可以快速定位质量问题,并进行整体统计分析,为后续制定整改计划提供参考依据。
d) 清晰直观的质量分大盘
在企业数据质量工作开展过程中,不同角色关心的重点有所差异:
∙ 对于企业的CDO来说,更关注的指标是企业质量的整体水平,当前质量是优秀还是一般;以及整体水平的走势,是越来越好还是越来越差,从而做出决策,针对平台质量的薄弱点进行针对性提升。
∙ 对于企业的数据质量管理员来说,希望看到哪些项目、数据源、以及个人负责的资产质量是优秀的,并结合沉淀的治理经验进行推广;同时也希望了解哪些对象的质量是待提升的,以便实现制定好的治理目标。
∙ 对于开发或分析人员来说,关心自己负责的表或数据源当下最新的质量情况,以及上游相关依赖对象的质量是否符合预期,针对有质量问题的对象,可以通过快捷、高效的方式及时进行整改,避免影响下游使用。
以上这些场景,都可以通过质量分的能力进行支持。用户可以针对表和规则配置不同的质量权重和打分方式。在质量校验之后,会自动按照校验效果和配置的打分方式,自动进行全局的打分。支持按照全局、项目、数据源、个人、表的不同视角,查看质量分详情、质量分走势、质量排行榜、质量分分布等数据,协助用户做好企业的质量优化。
e) 质量治理工作台助力全链路闭环治理
除了强大的v存在的所有质量问题,支持快捷发起整改任务并指派到具体的整改人。
∙ 发起整改流程:整改人收到整改任务后,可以根据质量校验详情的提示,或者查看问题的历史操作记录,了解历史问题和治理方案并进行整改。
∙ 整改结果验收:整改完成后可以重跑校验规则查询最新的校验结果,校验通过后可主动发起验收。整改任务发起人收到整改完成的通知后,可以通过重跑等操作检查整改结果,并执行验收通过、不通过的操作。
此外,对于暂时不需要治理的治理项, 可以放入“治理白名单”进行统一管理,在白名单有效期内,质量校验仍会正常执行,但不会生成待治理项。在治理白名单页面,可以针对白名单进行统一管理,如修改白名单生效时间、删除白名单等。
f) 质量知识库
治理工作开展到一定阶段的时候,往往会沉淀一些治理经验,此时可以借助 Dataphin 的“质量知识库”功能将这些经验整理为在线文档进行统一管理。在创建质量监控规则时,可以主动关联相关的知识库,便于校验不通过时可快捷查看关联的知识库查找解决方案。此外,在发起或验收通过整改流程时,也可以快捷将当前整改流程新建为知识库或关联到已有知识库,快捷沉淀解决方案。
4) 数据分类分级和敏感数据保护,让数据流通更放心
近几年,随着消费者个人意识的崛起和对隐私的重视,数据安全成为了一个越来越热门的话题,国家也陆续发布了一些相关规定来规范数据的使用。而《数据安全法》的正式发布,标志着数据的开发利用和数据的安全保障正式进入法律范畴,对企业的数据安全管控提出了更高的要求。
Dataphin的数据安全能力,提供了数据生命周期中统一的敏感数据识别与保护能力。通过数据分类分级、敏感数据识别、敏感数据脱敏、数据同步加解密等措施,将整个安全体系和数据研发生产紧密结合,建立完善的数据安全体系,确保数据从流入、流出的全链路都安全可控。
a) 内置行业数据分类模型,开箱即用
数据分类是安全模块的基础,数据分类的定义包含了业务场景、识别方式、敏感等级的信息。安全的自动识别和脱敏保护都依赖于数据分类。
Dataphin内置了“通用”和“金融”两个行业模型,包含了大量行业常用的数据分类信息,用户可以根据自己的需要,一键引入内置的数据分类,并支持根据企业自身特性进行自定义修改,快速实现企业数据安全分类体系的冷启动。
b) 智能的敏感数据识别
定义好数据分类之后,Dataphin 支持多种方式快速定义字段和数据分类之间的映射关系,并基于映射的数据分类进一步关联到该分类对应的的脱敏策略,从而实现敏感数据保护。Dataphin 内置了丰富的“识别特征”,如身份证号、手机号、姓名等;根据对字段内容的智能分析,自动匹配到对应的数据分类,无需人工编写判断条件,大大降低操作门槛。
∙ 自动识别规则:支持配置参与扫描的数据范围和可映射到的数据分类范围,以及识别规则的运行时间、运行频率、优先级。识别规则执行时,会根绝在数据分类中定义的该分类参何与字段之间进行关联匹配。 此外,针对识别逻辑比较复杂的分类,也支持自定义扫描方式,支持按字段名称、内容、描述等多类信息、结合正则表达式、包含/属于等判断条件定义扫描规则,不同规则之间可以配置“且/或”组合关系,从而综合判断数据分类结果,提供了极大的灵活性。
∙ 手动指定识别结果:针对已经人工梳理好的敏感数据,支持直接手动添加识别结果或者通过 Excel 批量上传识别结果,从而实现字段分类分级的快速、准确定义。
通过自动识别和人工打标,可以快速生成企业的敏感数据清单,该结果可用于后续权限申请审批规则的配置(如公开数据免审批、绝密数据需要三级审批等)、敏感数据查询脱敏等使用场景中(如”个人信息“分类的数据在即席查询中需要进行脱敏),以提升企业整体的数据安全性,用数更放心。
c) 内置丰富的脱敏算法,动/静态脱敏更好保障敏感数据
Dataphin支持对已经识别出的敏感数据配置脱敏算法,在不改变底层数据的情况下,保障日常流转中展示的数据都是加密脱敏后的数据,确保敏感数据不泄漏。
Dataphin 内置 30 余种脱敏算法(如:证件号码隐藏长度、地址遮盖、MD5 等),覆盖遮盖掩码、哈希脱敏等多种算法类型,可满足多样化的脱敏诉求。支持在线测试每个脱敏算法产出的结果,以判断是否满足使用场景和业务诉求。基于丰富的内置算法,Dataphin 支持动态脱敏和静态脱敏两种脱敏规则的配置:
∙ 动态脱敏:不改变底层数据存储,仅在特定场景下进行查询脱敏,如:数据查询、生产数据写开发表。此外,为了更好的适配复杂查询需求,支持配置不同的脱敏方式:“底层脱敏”是指在数据被查询出来的时候就进行脱敏;“展示脱敏”是指仅在数据最后对外展示的时候进行脱敏,但在中间处理过程中,都使用原文进行处理,可以支持简单的where/join等条件,对业务使用更友好。
∙ 静态脱敏:支持用户主动调用脱敏算法进行脱敏,常用于数据测试、数据分享等场景。
此外,为了更加灵活的适配特殊的敏感数据使用场景,Dataphin 支持配置“脱敏白名单”,通过白名单对用户、场景、范围进行设置,以满足特定时段、特定场景下数据不脱敏的诉求。如:上市公司未公开的财务数据,特殊人员(如财务负责人、公司宏观决策支持分析师)在一定时间段(比如公司财报发布前一个月)可以查看明文,但是其他人员或指定人员在非指定时间段内不可以查看,就可以通过设置脱敏的白名单的方式来满足该场景。
d) 内置加解密算法,加强数据流通安全保障
敏感数据保障不仅存在于查询使用过程中,在数据集成场景下,如果涉及到敏感数据的传输,也需要对敏感数据进行保护,如:来源数据库已加密,数据同步入仓的时候需要统一恢复为明文,此时需要和之前加密的参数一致进行解密;或来源数据库是明文,但是需要对敏感字段进行加密才能传入目标数据库等等。
Dataphin 内置多种常用的加解密算法,并支持密钥的权限管理和使用审计,确保客户数据集成链路上的数据安全,主要包括以下功能:
∙ 内置加解密算法库:支持常用的商密、国密等算法,并结合密钥管理支持对称和非对称加解密场景。
∙ 数据集成加解密:支持调用加解密算法和密钥对数据传输结果进行加解密配置。
∙ 密钥管理:支持密钥生成、外部密钥注册、密钥权限管理、密钥使用审计等。
在新的法律环境和数据安全的挑战下,Dataphin 将持续增强数据安全建设能力,来帮助企业建立完善的数据安全体系,为业务发展保驾护航。
e)降本增效,减少资源浪费
数智时代,海量的数据为业务创造了巨大的价值,但同时也带来了不断上升的计算成本和存储成本,甚至会出现“IT成本增速大于业务增速”,“赚来的每一分钱都用在了购买服务器上”的极端情况。每一个企业的数字化转型道路上,可能否无法绕开这些难题:
∙ 数据资源消耗方式完全黑盒
∙ 数据资源量大、成本极高
∙ 数据价值链路断层
∙ ……
以上问题的解决,不仅需要有先进的方法论支撑,还需要有成熟的产品能力来支持。Dataphin的资源治理功能,基于阿里巴巴多年数据资源管理经验,提供了强大的资源分析与统计能力,可智能识别当前系统内低价值的数据资源和数据任务,让数据成本、业务收益做到清晰透明可评估,从而可以针对性的对数据资源进行运营,降低数据成本,提升数据效益。
a) 内置丰富元数据和治理项,快速定位资源问题
资源使用情况的分析离不开元数据的支撑。Dataphin对系统内部的数据计算和存储流程相关的元数据进行了采集,可用于识别问题项。
此外,为了提升识别精准度、打通上下游相关系统,Dataphin 也支持自定义注册外部元数据用于治理项的定义:可从数据源中选择存储了相关元数据的表,并定义不同字段对应的统计指标,用于治理问题分析。
基于丰富的元数据支撑,Dataphin 内置了最常见的存储和计算治理项,如:生命周期过长、空表、废弃表等,支持开箱即用。除了内置治理项, Dataphin 也支持自定义治理项,为不同行业、不同业务需求的资源治理场景提供了灵活的支撑。比如想进行小表格的检测,就可以新建治理项【小于1MB的表】,从而自动检验出这部分的数据表,并进行针对性治理。
b)资源问题可干预
针对系统识别出来的待治理事项,支持推送治理任务。对检验出来的治理事项,可以直接在治理工作台进行处理。此外,Dataphin的治理模块和数据研发模块进行了紧密的结合。处理方式直接在研发任务和资产存储等方面生效,如:修改长期不使用的数据表的生命周期、暂定未被使用的表对应的调度任务、将无需使用的表或计算任务移入回收站等,从而做到一站式做好资源治理工作。
治理效果可评估
Dataphin 支持预览全域当前整体的资源消耗概况及治理效果统计,主要包括:
∙ 资源管理:提供全局资源分析报告,包括:计算及存储健康分统计、当日计算及存储资源消耗量及变动趋势、资源健康度最低的项目和待提升的个人排行榜等,主要要用于总览全局资源健康度,快速识别风险。可以快速看到全局的资源情况,并进行相应的优化分析。
∙ 治理概览:由“治理分析”和“治理效果”组成,分别从计算和存储视角,展示已创建的治理项、项目粒度的治理明细统计,以及治理效果分析。