本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。
当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。或者我们可以将其理解为大数据定义中的第三个V,即Value(价值)。大数据的价值密度相对于传统交易数据会比较低,在大数据时代,我们不必去追求每一条数据都准确无误,数据的混杂以及相互作用让我们从之前的探寻因果关系转化为寻找事物之间的相关性。
那是不是意味着大数据时代,我们将不再需要进行数据治理(Data Governance)?答案是否定的!在2013 IBM技术峰会上,TechTarget中国记者采访了IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士,他认为大数据治理比传统数据治理更困难,存在更多的挑战。而用户需要从数据开始生成的时候就开始考虑以大数据的方式来进行治理。
大数据带来治理难题
大数据的魅力在于为提升公司的竞争优势提供必要的洞察力:公司可以利用它发现客户及其他与业务息息相关的元素。对于走在大数据前沿的实践者来说,缺乏正确的数据治理流程会造成数据错误,从而导致分析结果的偏差以及无形成本的增加。
Ron Ben Natan博士认为,大数据治理的难度体现在:首先既要考虑传统数据的治理,又要兼顾新型数据存储方式的变化,比如NoSQL;其次大数据来自于多个数据源,这些数据源有内部的数据也有来自外部的数据;第三,大数据的数据结构更多,如JSON、Avro等,数据治理的复杂程度更高;最后,大数据的量非常大,海量数据给治理带来了更大的压力。
为了从大数据中获得有意义的业务信息,我们需要完成所有的相关工作,如数据的语义分析,然后再将它转变为概念模型或知识。因此整个过程就需要数据治理的参与。Ron Ben Natan博士把大数据治理比作“把所有的鸡蛋都放在一个篮子里”,如果这些大数据的数据质量不高,在商业决策上就会产生巨大的风险。Ron Ben Natan博士表示:“大数据的治理不只是说当你有了这些数据之后开始治理,而是从数据开始生成的时候就开始考虑要以大数据的方式来进行治理,需要整个生命周期的大数据治理。”
IBM的大数据治理最佳实践
在发布大数据战略之初,IBM就一直强调治理的重要性。Ron Ben Natan博士表示,IBM在大数据治理方面已经有了三年多的积累,并总结出一套大数据治理的最佳实践。这其中包括:
1、 让现有的数据转换成大数据可以使用的数据集,同时提供双向的转换。IBM提供了一系列工具,可以在现有企业的关系型数据和大数据需要的数据模型下进行自由的转换。
2、 大数据环境下进行数据屏蔽。当把所有的数据放在一起,数据中很多部分跟企业和个人相关的数据是具有敏感性的,在不同的人手里这些敏感的数据用做不同的用途,有一些是有害的,企业需要在这些数据流入流出的过程当中避免敏感数据的泄露。
3、 对大数据进行加密。我们需要保证不同节点中的数据不被他人非法利用。这里谈到数据的加密,可以提供透明的方式,保证只有特定的用户使用特定的应用程序,或特定的方法来访问到真实的数据。
4、 Hadoop环境下的数据保护。Hadoop是大数据时代最流行的数据存储方式,企业大量数据存储在HDFS中,因此需要对这部分数据进行充分的保护。Ron Ben Natan博士介绍,IBM对开源Hadoop以及IBM的BigInsights都提供这样的数据保护方案。
Ron Ben Natan博士介绍,IBM结合了传统数据治理的经验,在过去几年中积累并且建立了大数据治理的策略和Guardium产品,同样也是迄今为止市场中最完整的大数据治理产品组合。而未来IBM也会尽力去投资增加在大数据环境,尤其是NoSQL环境治理的工具和方案。对此Ron Ben Natan博士表示,尽管NoSQL并不是IBM传统关注的领域,但NoSQL对传统数据库的增强作用是显而易见的,因此IBM有许多客户都开始进行NoSQL的尝试。而包括电商等互联网客户,也存在着与传统供货商直接的业务交流,这其中可能就会涉及到相关NoSQL数据的治理。
“客户有这样的需求,IBM就会为客户提供你所需要的所有工具。” Ron Ben Natan博士说。