大数据治理不容忽视

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:  本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。 当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。

 本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。

当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。或者我们可以将其理解为大数据定义中的第三个V,即Value(价值)。大数据的价值密度相对于传统交易数据会比较低,在大数据时代,我们不必去追求每一条数据都准确无误,数据的混杂以及相互作用让我们从之前的探寻因果关系转化为寻找事物之间的相关性。

那是不是意味着大数据时代,我们将不再需要进行数据治理(Data Governance)?答案是否定的!在2013 IBM技术峰会上,TechTarget中国记者采访了IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士,他认为大数据治理比传统数据治理更困难,存在更多的挑战。而用户需要从数据开始生成的时候就开始考虑以大数据的方式来进行治理。

大数据带来治理难题

大数据的魅力在于为提升公司的竞争优势提供必要的洞察力:公司可以利用它发现客户及其他与业务息息相关的元素。对于走在大数据前沿的实践者来说,缺乏正确的数据治理流程会造成数据错误,从而导致分析结果的偏差以及无形成本的增加。

Ron Ben Natan博士认为,大数据治理的难度体现在:首先既要考虑传统数据的治理,又要兼顾新型数据存储方式的变化,比如NoSQL;其次大数据来自于多个数据源,这些数据源有内部的数据也有来自外部的数据;第三,大数据的数据结构更多,如JSON、Avro等,数据治理的复杂程度更高;最后,大数据的量非常大,海量数据给治理带来了更大的压力。

为了从大数据中获得有意义的业务信息,我们需要完成所有的相关工作,如数据的语义分析,然后再将它转变为概念模型或知识。因此整个过程就需要数据治理的参与。Ron Ben Natan博士把大数据治理比作“把所有的鸡蛋都放在一个篮子里”,如果这些大数据的数据质量不高,在商业决策上就会产生巨大的风险。Ron Ben Natan博士表示:“大数据的治理不只是说当你有了这些数据之后开始治理,而是从数据开始生成的时候就开始考虑要以大数据的方式来进行治理,需要整个生命周期的大数据治理。”

IBM的大数据治理最佳实践

在发布大数据战略之初,IBM就一直强调治理的重要性。Ron Ben Natan博士表示,IBM在大数据治理方面已经有了三年多的积累,并总结出一套大数据治理的最佳实践。这其中包括:

1、 让现有的数据转换成大数据可以使用的数据集,同时提供双向的转换。IBM提供了一系列工具,可以在现有企业的关系型数据和大数据需要的数据模型下进行自由的转换。

2、 大数据环境下进行数据屏蔽。当把所有的数据放在一起,数据中很多部分跟企业和个人相关的数据是具有敏感性的,在不同的人手里这些敏感的数据用做不同的用途,有一些是有害的,企业需要在这些数据流入流出的过程当中避免敏感数据的泄露。

3、 对大数据进行加密。我们需要保证不同节点中的数据不被他人非法利用。这里谈到数据的加密,可以提供透明的方式,保证只有特定的用户使用特定的应用程序,或特定的方法来访问到真实的数据。

4、 Hadoop环境下的数据保护。Hadoop是大数据时代最流行的数据存储方式,企业大量数据存储在HDFS中,因此需要对这部分数据进行充分的保护。Ron Ben Natan博士介绍,IBM对开源Hadoop以及IBM的BigInsights都提供这样的数据保护方案。

Ron Ben Natan博士介绍,IBM结合了传统数据治理的经验,在过去几年中积累并且建立了大数据治理的策略和Guardium产品,同样也是迄今为止市场中最完整的大数据治理产品组合。而未来IBM也会尽力去投资增加在大数据环境,尤其是NoSQL环境治理的工具和方案。对此Ron Ben Natan博士表示,尽管NoSQL并不是IBM传统关注的领域,但NoSQL对传统数据库的增强作用是显而易见的,因此IBM有许多客户都开始进行NoSQL的尝试。而包括电商等互联网客户,也存在着与传统供货商直接的业务交流,这其中可能就会涉及到相关NoSQL数据的治理。

“客户有这样的需求,IBM就会为客户提供你所需要的所有工具。” Ron Ben Natan博士说。


原文发布时间为:2013-12-20


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 JavaScript Java
ROS CDK魔法书:点亮博客上云新技能(Java篇)
在阿里云资源编排服务ROS的Cloud Development Kit(ROS CDK)中,开发者可以使用编程语言(如TypeScript、Java等)定义云资源,简化了基础设施即代码(IaC)的管理。ROS CDK的Asset模块是用于处理本地文件到云端对象存储(如OSS)的工具,它通过元数据封装本地资源,然后配合ROS CDK的部署工具将文件上传至云端。通过一个将本地博客网站部署到OSS的案例,文章展示了如何使用ROS CDK的Asset模块和BucketDeployment来实现这一过程。
|
11月前
|
XML Java 数据格式
BeanFactory 和 ApplicationContext 的区别
【10月更文挑战第24天】在 Spring 框架中,`BeanFactory` 和 `ApplicationContext` 是两个核心的容器接口。`BeanFactory` 提供基本的 Bean 管理功能,支持延迟加载,适用于轻量级应用和资源受限环境。`ApplicationContext` 则在 `BeanFactory` 基础上扩展了丰富的企业级功能,如国际化、事件处理和资源管理,适用于企业级和 Web 应用开发。两者各有特点,需根据具体需求选择使用。
187 2
|
Web App开发 JavaScript 前端开发
浏览器内小脚本开发
【8月更文挑战第31天】
343 1
|
存储 安全 区块链
区块链与游戏:颠覆传统的数字娱乐新纪元
**区块链技术颠覆游戏行业,赋予玩家真实所有权,增强资产安全与经济系统创新。去中心化、不可篡改的特性确保公平性,智能合约驱动新盈利模式。虽有技术复杂性与扩展性挑战,但未来区块链游戏有望带来更丰富、安全、公平的体验,推动行业持续革新。**
区块链与游戏:颠覆传统的数字娱乐新纪元
|
SQL 关系型数据库 MySQL
FlinkCDC支持哪些数据库?
FlinkCDC支持哪些数据库?
|
机器学习/深度学习 人工智能 自然语言处理
【LangChain系列】第五篇:大语言模型中的提示词,模型及输出简介及实践
【5月更文挑战第19天】LangChain是一个Python库,简化了与大型语言模型(LLM)如GPT-3.5-turbo的交互。通过ChatOpenAI类,开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键,ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据,便于应用处理。LangChain提供可重用性、一致性、可扩展性,并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。
618 0
|
Go
新手向:Go语言发送邮件简易教程
新手向:Go语言发送邮件简易教程
616 0
|
JavaScript API 项目管理
聊聊SAP系统架构有多牛逼?(2)
聊聊SAP系统架构有多牛逼?
1126 0
|
存储 Python
Pandas | value_counts() 的详细用法
Pandas | value_counts() 的详细用法
1155 0
Pandas | value_counts() 的详细用法