如今的组织知道他们需要充分有效地利用所有的数据,这包括日益增长的通信数字化,以及从灯泡到智能手机的所有数据。他们也知道,必须捕获各种各样的数据,以便通过能够访问的方式存储数据,并根据业务快速变化的需求查询数据。他们也知道,他们无法忍受刻板的、预先安排好的模式。然而他们发现,这说起来容易做起来难。
那么是什么妨碍了他们实施?有很多事情,而组织必须克服的五大挑战是为了充分利用其数据以及合作伙伴的数据和其他外部数据源。
(1)无法使用多种数据类型和格式。如今的数据有各种格式,规模和形式,必须实时处理和分析。这包括不适合传统关系数据库系统的行和列的数据。更重要的是,这些不同的形式和类型的数据需要无缝地一起使用。丰富的结构化数据,图形数据,地理空间数据和非结构化数据可能都被视为单个查询或事务。
(2)基于传统系统的创新步伐缓慢。如今,技术和业务需求几乎每天都在变化,组织需要进行创新,以保持竞争力和合规性。许多公司却几乎无法处理他们手头上的数据,更不用说未来会发生什么,例如物联网生成的数据。在创新方面进行投资时,他们常常感到沮丧,因为他们需要处理拥有组织的大量数据资产的传统系统,这些系统将成为减缓其进展以及提高有效竞争能力的阻碍。
(3)企业数据仓库的扩散。各种数据的快速增长和企业为客户提供的服务数量的增长,在造成了企业中数据孤岛的扩散。为了更好地服务于客户、监管者和他们自己,企业需要对客户、产品等业务对象创建360度的视图。但是,创建这种整体景观是一项艰巨而耗资巨大的任务。一直以来,企业正在建立更多的数据孤岛。更糟糕的是,数据质量和这些观点的治理常常是事后的结果,甚至会导致监管处罚。
(4)ETL和模式优先系统的使用。关系数据库实际上是大多数组织中存储数据的标准。一旦填充了关系模式,使用SQL进行查询就很简单。这听起来不错,但这是一个大问题,但是组织必须创建查询将被发布的模式。整合所有现有的模式(可能是主机数据和文本内容)需要在业务部门,主题专家和实施者之间进行大量的时间和协调。然后,一旦模型被各利益相关者最终确定,必须将数据从源系统中提取,转化为适合新的模式,然后加载到新的称之为ETL过程(即数据抽取、转换、装载的过程)。这些过程不需要太长时间(平均6-18个月)。而且,它永远不会结束。数据源发生变化。添加新的来源。提出了不同的问题。ETL一直在接受,而不是给予。
(5)背景缺失。也许当今组织最大的问题是认为他们知道他们不知道的东西。没有背景的数据是无用的。这些数据意味着什么?它与其他数据有什么关系?数据的出处是什么?在什么情况下,可以和谁分享?在大多数情况下,这些问题的答案不会在数据库中捕获。它可能在开发人员的头脑中,或者设计文档中,或者ETL脚本里,或者更糟糕的是在所有的这些地方中,但不是一致的。传统数据库并不侧重于存储,管理和查询元数据,而典型的ETL流程通常会将此信息丢弃在本地。放弃背景意味着放弃从数据中获得的最大价值。
那么组织需要做什么呢?越来越多的组织转向多模型数据库。使用多模型数据库,他们可以捕获数据的背景并将其与数据进行存储,从而提供最大的数据敏捷性和可审计性。并且在将来防范数据库系统对任何新类型的数据,转移数据范例或监管要求,不可避免地出现偏移。
考虑采用多模型数据库平台的公司应该寻求:
•多结构的本地存储(结构感知)
•按原样加载数据的能力(在加载数据之前不需要模式)
•能够有效地对这些不同的模型进行索引
•能够无缝地使用所有模型,并进行组合
•企业级安全性和可用性
当然,数据库技术的转变并不轻松,许多IT专业人员在整个职业生涯只专注一种或几种技术。 但是,如果组织有时间确保他们能够有效地收集,分析和利用他们掌握的数据的话,那么现在正是时候。