大数据治理不容忽视

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:  本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。 当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。

 本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。

当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。或者我们可以将其理解为大数据定义中的第三个V,即Value(价值)。大数据的价值密度相对于传统交易数据会比较低,在大数据时代,我们不必去追求每一条数据都准确无误,数据的混杂以及相互作用让我们从之前的探寻因果关系转化为寻找事物之间的相关性。

那是不是意味着大数据时代,我们将不再需要进行数据治理(Data Governance)?答案是否定的!在2013 IBM技术峰会上,TechTarget中国记者采访了IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士,他认为大数据治理比传统数据治理更困难,存在更多的挑战。而用户需要从数据开始生成的时候就开始考虑以大数据的方式来进行治理。

大数据带来治理难题

大数据的魅力在于为提升公司的竞争优势提供必要的洞察力:公司可以利用它发现客户及其他与业务息息相关的元素。对于走在大数据前沿的实践者来说,缺乏正确的数据治理流程会造成数据错误,从而导致分析结果的偏差以及无形成本的增加。

Ron Ben Natan博士认为,大数据治理的难度体现在:首先既要考虑传统数据的治理,又要兼顾新型数据存储方式的变化,比如NoSQL;其次大数据来自于多个数据源,这些数据源有内部的数据也有来自外部的数据;第三,大数据的数据结构更多,如JSON、Avro等,数据治理的复杂程度更高;最后,大数据的量非常大,海量数据给治理带来了更大的压力。

为了从大数据中获得有意义的业务信息,我们需要完成所有的相关工作,如数据的语义分析,然后再将它转变为概念模型或知识。因此整个过程就需要数据治理的参与。Ron Ben Natan博士把大数据治理比作“把所有的鸡蛋都放在一个篮子里”,如果这些大数据的数据质量不高,在商业决策上就会产生巨大的风险。Ron Ben Natan博士表示:“大数据的治理不只是说当你有了这些数据之后开始治理,而是从数据开始生成的时候就开始考虑要以大数据的方式来进行治理,需要整个生命周期的大数据治理。”

IBM的大数据治理最佳实践

在发布大数据战略之初,IBM就一直强调治理的重要性。Ron Ben Natan博士表示,IBM在大数据治理方面已经有了三年多的积累,并总结出一套大数据治理的最佳实践。这其中包括:

1、 让现有的数据转换成大数据可以使用的数据集,同时提供双向的转换。IBM提供了一系列工具,可以在现有企业的关系型数据和大数据需要的数据模型下进行自由的转换。

2、 大数据环境下进行数据屏蔽。当把所有的数据放在一起,数据中很多部分跟企业和个人相关的数据是具有敏感性的,在不同的人手里这些敏感的数据用做不同的用途,有一些是有害的,企业需要在这些数据流入流出的过程当中避免敏感数据的泄露。

3、 对大数据进行加密。我们需要保证不同节点中的数据不被他人非法利用。这里谈到数据的加密,可以提供透明的方式,保证只有特定的用户使用特定的应用程序,或特定的方法来访问到真实的数据。

4、 Hadoop环境下的数据保护。Hadoop是大数据时代最流行的数据存储方式,企业大量数据存储在HDFS中,因此需要对这部分数据进行充分的保护。Ron Ben Natan博士介绍,IBM对开源Hadoop以及IBM的BigInsights都提供这样的数据保护方案。

Ron Ben Natan博士介绍,IBM结合了传统数据治理的经验,在过去几年中积累并且建立了大数据治理的策略和Guardium产品,同样也是迄今为止市场中最完整的大数据治理产品组合。而未来IBM也会尽力去投资增加在大数据环境,尤其是NoSQL环境治理的工具和方案。对此Ron Ben Natan博士表示,尽管NoSQL并不是IBM传统关注的领域,但NoSQL对传统数据库的增强作用是显而易见的,因此IBM有许多客户都开始进行NoSQL的尝试。而包括电商等互联网客户,也存在着与传统供货商直接的业务交流,这其中可能就会涉及到相关NoSQL数据的治理。

“客户有这样的需求,IBM就会为客户提供你所需要的所有工具。” Ron Ben Natan博士说。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
47 1
|
9天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
37 2
|
5月前
|
数据采集 监控 大数据
大数据时代的数据质量与数据治理策略
在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。
1448 3
|
6月前
|
存储 SQL 分布式计算
闲侃数仓优化-大数据治理和优化
闲侃数仓优化-大数据治理和优化
68 0
|
6月前
|
存储 数据采集 算法
大数据平台治理——运营的角度看数仓
大数据平台治理——运营的角度看数仓
53 0
|
5月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用问题之dataworks仅支持maxcompute上面的数据治理吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
236 0
|
6月前
|
存储 SQL 分布式计算
大数据平台治理资源成本化
大数据平台治理资源成本化
88 0
|
6月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
156 0
|
6月前
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
下一篇
无影云桌面