数据治理最新理念:
★数据治理的目的不是只为了管好数据,而是让要用数据的人(如:数据科学家)随时能找到他要的数据。
★数据治理不是只做元数据管理和数据质量管理,更关键的是要建立数据资产目录。
★没有AI和Machine Learning的技术是无法建立真正的数据资产目录的。
★靠开源是无法开发出具有AI和机器学习能力的数据目录平台的。
一、概述
当前,数据治理主要倾向于“组织”:包括成立数据治理委员会,设置数据所有者和数据管理的角色,同时制定用于定义和批准数据策略的流程和制度。众多情况下,靠的是“人海战术”,例如手动采集和存储元数据。通常这些活动的重点就所谓的“数据生命周期”管理,即从数据采集、存储到交付到数据仓库或决策支持系统的过程。在数字化时代,数据类型越来越多,数据体量越来越大,将数据治理活动限制在固定的组织机构内或无需思考的手工任务上,很难实现数据治理关键目标,例如:
■扩大数据可用性和提高数据访问便利性,使更多数据消费者能够查找和访问共享数据资产;
■标准化数据语义,为数据使用者如何使用共享数据资产提供共同的理解;
■供应可测量的高质量数据,用户高度信任数据的可靠性。
数据治理目标有一个共同的驱动因素:数据消费或数据使用。然而,无法实现这些基本目标会降低企业数据有效共享和利用数据的能力,更不能解决来自企业内部业务策略变化、外部法律法规或符合行业标准性要求的数据遵从性和可审计性。
行业趋势表明:企业对定义数据战略以及对数据资产获取、转换、资产化、共享和隐私保护实施更加关注。数据治理越来越多地包含将传统的理解数据资产的使用和统一业务术语与新出现的数据前景的关键需求包括盘点、分类和记录整个企业的数据资产相结合的解决方案,以指导数据的可知、可信和可用。这意味着确保数据资产的效能——保证数据资产的一致性,对共享数据资产的访问是透明的,以及向数据消费者提供他们在选择和使用数据资产时所需要的所有信息。
机器学习能力的提升提高了数据目录可用于发展综合数据治理策略的方式。智能数据资产目录有助于数据生产者和数据使用者协同工作,减少数据管理者在描述数据方面的负担。扩大数据的可用性和可访问性是提高企业数据资产意识的重要因素。大多数企业都有各种各样的数据,但是,当没有数据资产清单时,这些资产实际上是隐藏的。这意味着需要一个数据盘点过程来遍寻整个企业,识别并分类公司数据资产。基于机器学习的的元数据系统可以扫描每个数据资产的内容,无论是结构化的、半结构化的还是非结构化的,都能够推断数据资产的元数据,甚至根据嵌入内容的敏感性对数据资产进行分类。从扫描推断的元数据可以根据已知的参考领域和元数据进行分类和标签,并与定义的业务术语保持一致,这有助于标准化语义和提供对共享数据的共同理解。
在智能数据资产目录中收集的可搜索的公司数据资产清单增强了数据的可访问性和可用性。使数据使用者能够通过目录或标签搜索数据资产,使广大数据使用者能够找到最能满足其需求的数据集。智能数据资产目录可用于共享不同类型的元数据,包括:
■描述源系统结构的物理元数据,如表和字段。
■描述语义信息的逻辑元数据,如数据库描述、数据质量评估和相关的数据管理策略。
■描述如何在各种业务场景中使用数据资产的行为元数据。行为元数据可能是最重要的,因为它可以自动洞察系统中的每个对象,比如模型、表和超级用户的使用频度。
通过简化数据发现、自动推断元数据、提高这些推断的准确性,以及提供业务术语表、数据元素定义、数据血缘和数据资产、数据义务(例如隐私保护)的可见性,有助于提供正确的数据资产,并简化数据使用者查找和使用公司数据资产的能力。更大程度发挥数据资产的价值。
二、AI或机器学习与数据治理的关系
随着大数据在各个行业领域应用的不断深入,数据作为基础性战略资源的地位日益凸显,如何构建大数据环境下的数据资产,以最大程度发挥数据要素资产价值成为企业关注的焦点,数据治理也随之成为数字经济和大数据生态中的新热点。与此同时,在政策、技术、需求等多重因素的推动下,以自动驾驶、智能客服、语音识别为代表的人工智能应用快速兴起,AI已经成为全球科技巨头的布局重点。那么,当数据治理遇上AI(人工智能),将碰撞出怎样的火花,又如何相互促进和发展呢?
1、数据治理是AI应用和发展的前提
当前,企业对全面数据治理的需求从未如此强烈。监管机构希望企业能更加清晰地了解数据,对它进行有效的管控;企业管理层希望理清数据资产,降低数据应用的复杂性,对企业进行更高效的管理;企业员工也开始认识到数据的重要性,更多地采用数据驱动的方式来开展工作。数据治理正迅速发展成一种企业核心策略,只有做好数据治理,让数据更加准确完整,并且安全合规,才能释放出数据的无限潜能,挖掘出更多有价值的数据应用。
人工智能技术在应用和实践中,确保数据质量和数据安全是最基础的底层保障。由于人工智能的落地应用效果会受到数据质量和安全的影响,更多的企业开始反思并转而去推动数据质量和安全的提升,建立好的数据环境,再进行人工智能应用的同步研发。大数据是人工智能技术研发、训练的关键,是人工智能长期发展的重要保障。只有当人工智能系统能够获取更为准确、及时、一致的高质量数据,才能提供更有效、有用、精准性高的智能化服务。
人工智能发展的另一个重点保障就是数据安全,人工智能系统的基础是大数据,要对外提供服务,就会涉及数据的安全保护,在这个过程中,一系列的数据安全防护手段是必不可少的,如数据脱敏管理,对敏感信息的风险评估、使用监控,对数据的泄露检测,数据库保密检查等。人工智能需要海量的数据,人工智能技术的进步取决于各种来源数据的可用性,如何确保这些数据的安全性与保证用户数据的隐私性是数据治理的重要领域。同时,通过对业务数据应用语义计算、数据挖掘、机器学习、知识图谱、认知计算等人工智能技术,也可以促进企业数据安全保障体系完善。
2、AI是智能化数据治理的有效保障
经过多年的理论更新、技术演进和应用实践,数据治理从概念到技术已经发生了很多变化。特别是随着人工智能的兴起,数据治理技术和人工智能技术有效的融合在一起,使智能化数据治理成为可能。数据治理工作中,通过对大数据应用机器学习技术,作数据挖掘和分析,从而识别哪些是用户隐私性数据、哪些数据可能有异常,一旦数据特征被确认,打上标签,未来再做数据管理时,就可以使用元数据管理的方法机制,对外提供服务。比如当碰到涉及的某特殊标记数据,就会有相应的流程启动,或在相关的数据对外服务提供过程中,自动识别数据涉及的个人隐私,避免引起政策方面的风险。通过AI技术的应用,可以增强数据安全管理和元数据管理的能力。
在开展数据质量核查过程中,机器识别技术配合预置的质量核查规则进行核查,仅针对少量核心核查规则,从大数据中选取训练数据样本,经过预处理,利用机器学习算法进行深度分析,提取公共特征和模型,可以定位数据质量原因,做数据质量问题的预测,并进一步形成知识库。这样就可以更进一步增强大数据生态下数据质量管理的能力。
对于数据模型的管理,机器学习技术可用来分析数据库中数据实体的引用热度,通过聚类算法自动识别数据模型间的内在关系,还可以用于数据模型质量的检测和评估。对于非结构化数据的管理,像文档内容,图像,音频,视频,可以充分利用人工智能中的自然语言处理、图像识别、语音识别、视频处理等技术进行实现。
3、AI在数据治理中的应用
当前,企业数据治理将逐步发展为基于大数据的数据治理。大数据包括社交数据,机器数据等,大数据对传统数据治理工作带来很多的扩展。在政策和流程上,大数据治理应覆盖大数据的获取、处理、存储、安全等环节;在数据生命周期管理各阶段,如数据存储、保留、归档、处置时,要考虑大数据保存时间与存储空间的平衡;大数据量大,因此应识别对业务有关键影响的数据元素,检查和保证数据质量;大数据还需要定义与其内容相关的元数据,需与传统数据定义标准保持一致,术语字典应包含大数据的术语,需要为非结构化数据提供分类、语义支持,Hadoop、NoSQL数据库的技术元数据也同样需要纳入元数据存储库管理;此外,在隐私方面,应考虑社交数据的隐私保护需求,制定相应政策,还要将大数据治理与企业内外部风险管控需求建立联系。
数字化时代,大数据治理和人工智能技术的深度结合,将在数据治理领域发挥重要的作用:
■自动化数据发现和分类
机器学习数据目录可以为自动化数据发现过程提供种子, 提供数据结构、类型和敏感性的分类。发现过程的早期迭代的结果可以提交给数据管理员和主题域业务专家,他们将审查推论,在必要时进行更正,并提供额外的信息类别和标签。
机器学习算法将从这些人类互动中学习,以完善发现分类过程,提高推理逼真度,同时减少人类交互的需要。
■提供数据消费者建议
不同的数据使用者可以使用智能数据资产目录搜索满足需求的数据资产。机器学习算法利用主动学习通过结合用户选择和动作来迭代精炼预测模型,以改善搜索结果和推荐,将搜索结果显示给不同类型的数据消费者。
可以利用机器学习技术确认现有的业务术语定义,预测哪些有关数据资产可能满足数据消费者的需求,以便更快地将正确的数据资产提供给正确的用户,以满足他们的报告和分析需求。
■评估数据的敏感性和遵从性
不同的法律对个人隐私数据有不同的定义,个人信息被认为是“个人”或“私人”的,通过与人类的交互,智能数据发现可以学会自动将数据属性分类为个人/私人数据,并确定哪些数据资产包含敏感数据,这些数据必须遵守规范。
■识别高价值的元数据
企业使用机器学习,分析员工使用过哪些数据,为员工生成画像,打上特定的标签,来做数据的推荐和优化员工对数据应用的搜索结果。
这些描述员工数据消费形为、偏好特征的元数据信息,将成为企业的核心数据资产,并发挥更大的洞察价值。
■智能化数据质量管理
机器学习可以识别信息系统中的异常数据,那它也可以检测工业制成品中的异常情况。
企业可以通过将实体物品生产过程数字化,然后使用经过训练的机器学习系统来识别不符合标准或规格的产品数据,挑出异常数据,从而部分替代人类检测员的工作。
■数据共享和数据服务
企业可以充分利用人工智能技术,以信息化、自动化方式,共享和开放一部分数据或数据加工结果,对外提供服务,提升企业竞争力。
最典型的就是现在各种客户服务机器人,可以使用自然语言处理技术处理回答客户提出的常见问题,并随着时间的推移提高答案的质量。
三、人工智能在大数据治理系统的应用
基于人机交互的智能大数据治理系统的目的是建立人机结合的数据治理流程,同时结合基础知识库可以实现针对不同类型数据的智能处理,包括数据的自动感知、智能推荐转换、数据丰富以及团队协作等功能。
基于人机交互的智能大数据治理系统,利用统一的门户系统进行数据治理项目和数据源的管理,其中数据源包括,结构化数据源和非结构化数据源。同样数据的治理过程也分为结构化数据治理和非结构化数据治理。结构化数据治理主要是基于机器学习算法,智能感知每一列数据的数据类型,并根据数据类型进行智能的数据治理操作推荐。完成对数据规范化和清洗后,基于数据丰富知识库智能的进行语义层面的数据丰富操作。非结构化数据治理主要基于自然语言处理算法,自动的对非结构化数据进行命名实体的提取,以及各实体之间关系的提取,并可根据提取的数据类型,自动完成规范化的数据变换,人工可修正机器提取的实体和关系。同时,对非结构化数据也会基于数据丰富知识库智能的进行语义层面的数据丰富关联。治理后的数据,经过数据发布流程,可对数据融合系统或其他数据分析系统提供,可直接使用的数据。
基于人机交互的智能大数据治理系统的核心功能包括统一门户、项目管理、结构化数据治理、非结构化数据治理、算法库、知识库、数据发布和运维管理七大功能。
统一门户是基于人机交互的智能大数据治理系统的人机交互接口,主要实现数据治理项目管理和数据源管理。
项目管理实现数据治理任务的拆解、进度跟踪和人员分配,具体包括项目的和任务的增删改查。在创建任务时,可选择参与本次任务的人员进行治理任务的分工与协作。
数据源管理实现数据源的导入和存储,可将待整理的原始数据进行备份,具体包括数据源的导入、列表、维护和详情。在数据源导入时,可设定数据源的密级、权限、置信度、标签、来源等属性信息。数据源的标签,可根据机器学习算法自动生成,也支持业务人员手动添加。
结构化数据治理是基于机器学习算法,对结构化类型的数据源进行数据识别、数据重组、数据清洗、数据修复、数据丰富、数据校验等数据治理操作。数据采样是基于数据采样算法,按行对数据进行智能的异常点采样,可得到相互独立、完全穷尽的异常点。数据识别是自动对数据进行类型的识别,不仅可以识别基础类型,如字符串、整数、小数,还可以智能的识别数据的业务类型,如住址、身份证、手机号、银行卡等。基于人机交互的智能大数据治理系统具有自主学习的能力,可以自动的记忆用户业务的专用数据类型,如交易号等。随着人员的使用,系统可自动识别的数据类型会越来越多,识别准确率会越来越高。
智能推荐是指对不同的数据对象和数据类型,系统可理解数据的语义推荐最合适的数据转换操作。如针对列数据、行数据和值数据(单元格数据)会提供不同的建议命令,针对每种模式下不同的数据类型,如日期型数据、电话数据,系统同样会推荐最合适的变换操作。命令集是针对某一具体变换要求的数据处理指令,通常需要调用机器学习算法。
非结构化数据治理是基于NLP算法,从非结构化数据源提取实体和关系的数据治理流程。文档解析是将原始文档,解析为可在线标注的模式,该模式下,可人工修正或提取文档中的实体和关系。实体识别是在文档解析后,可根据NLP算法和参数,识别文档中的实体数据,实体识别后,通常需要对其进行规范化处理。关系提取与实体识别的原理类似,主要是调用的算法和参数不同,同时,输出的结果是实体间的关系(事件信息)。人工修正是对系统识别结果的校验与确认。
算法库是系统的算法平台,是系统最为核心的部件。算法让数据治理从丰富数据层面上升到语义层面,为数据治理过程服务,让数据治理过程更高效、更智能。包括NLP算法、推荐算法和丰富算法等算法模型。
数据知识库是辅助算法对数据进行语义层面的扩展和丰富。包括位置库、标准规范库和各类标注语料库。位置库包括网络空间的所有可与地理位置进行关联的知识库,如IP地址、MAC地址、基站、WIFI、手机等网络实体所对应的物理位置。标准规范是各类数据的清洗与规划,如全球手机地域编码等。标准的语料库,如中、英、维、阿拉伯语等机器翻译所需语料。
数据发布是指对治理后的数据进行输出的过程。包括数据的共享交换与数据下载输出,也包括与数据融合或数据分析系统进行在线数据传输的总线接口。
运维管理是系统的辅助功能模块,实现系统的用户管理、系统监控和日志管理。用户管理包括用户的维护以及用户的认证与授权。系统监控包括业务的状态监控与管理。日志管理包括系统日志和用户操作日志,日志一方面用于安全审计,一方面用于算法分析学习,让系统更智能。
用户通过统一门户访问和使用基于人机交互的智能大数据治理系统,在登录过程中需要从认证授权服务器获得访问令牌和权限,整个访问使用过程中的操作,均被运维管理服务器进行记录。
用户登录后,可选择进行整理的数据源,系统根据数据源的类型自动启动结构化数据治理任务或非结构化数据治理任务。数据治理的过程中,按需调用算法库和数据丰富知识库。治理完成后进行数据的发布操作,为下游系统提供治理后的数据。
四、基于人工智能的数据治理展望
随着数字时代的到来,数据治理和人工智能研究研发的关系日渐紧密。近年来,一些互联网企业在享受人工智能技术红利的同时,存在数据认知不清、数据治理不当、客户隐私数据使用不合规等现象,出现了不少负面事件。要防止大数据和人工智能的滥用和失控,应该从人工智能的源头——大数据上开始建立科学的数据治理体系,包括数据的质量规范、制度政策、管理流程、职责定位和技术管控工具。数据治理体系是对商业价值和用户隐私,以及企业长期利益和短期利益选择的基础,建立数据治理体系是一个长期的过程,对于大型企业,都应当在数据治理的规范和约束下应用大数据,挖掘数据资产价值,提供人工智能服务。
数据治理是人工智能的基础,数据治理的目的是在业务价值驱动下提供高质量的大数据,而人工智能本身是大数据应用的一种商业模式,数据治理和人工智能就好比一枚硬币的正反面一样密不可分,两者的有机结合助力将加速开启智能化数据治理的新时代。