“大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。数据源的数量、速度和价值正在迅速增加。数据管理必须在五个广泛领域发生变化:从更广泛的来源提取数据,使用新的数据库和集成方法改变数据管理的组织方式,在运行分析项目中使用敏捷原则,强调数据技术将数据与噪声分开的解释,以及精心设计的可视化的重要性使该数据更容易理解。这意味着我们不需要大的分析项目,相反我们希望新的数据思维渗透到我们的日常工作中。
- 数据在我们的活动中扮演的角色发生了重大变化。
- 尽管大数据这个词经常被用来描述这种变化,但这不仅仅是我们希望使用多少数据。
- 你可能想把“大”应用到数据的重要性上——数据在我们的生活中发挥着更大的作用,而不只是从字面上理解“大数据”。
- 大数据是一个引起大量炒作的术语。但我认为在这种情况下抵制我们通常对炒作的厌恶很重要——思维正在发生重大变化。
- 这种转变迫使我们改变许多长期以来对数据的假设。它开辟了新机遇,但也需要新思维和新技能。
一 数据世界正在发生怎样的变化
数据是凌乱的
在结构上
- 传统上,数据被认为来自组织良好的数据库,这些数据库具有受控模式,具有强大的验证条件。
- 但我们现在看到的数据有多种形式:日志文件、消息队列、电子表格。这些数据分散在整个组织及其生态系统中。
- 通常很少或没有模式来控制其结构。
- 数据通常是不统一的,每个元素都具有不同的属性。
在内容上
- 由于存在多个数据源、众包甚至自动推理和发现数据——数据质量存在很大问题。
数据是分散式
- 通过Internet的广泛可用性和易于访问意味着数据来自更多的贡献者。
- 这引发了处理来自不同来源的许多更新、确保人们输入有用数据以及考虑如何检查输入数据的一致性和准确性等问题。
我们曾经想过从信息系统获取数据,
但是现在有很多设备需要考虑。
非洲98%的互联网接入点是移动的,还有更多需要考虑的:
数据是量大的
- 沃尔玛:每小时100万笔交易†
- eBay:每天50PB的数据†
- Facebook:400亿张照片
庞大的数据量足以击败许多长期采用的数据管理方法,集中式数据库系统无法处理大量数据,因此不得不使用集群。
最重要的是数据是有价值的
- 每年3000亿美元:美国医疗保健
- 60%增长:零售利润率
- 尽管很难获得关于充分利用数据的价值的确切数字,但亚马逊和谷歌等公司的成功在很大程度上归功于它们对数据的有效利用。
二 如何应对这些变化
数据世界中正在发生的变化,我们需要了解软件开发世界如何响应这些变化。
数据来自许多来源
提取数据很复杂,但真正的问题是知道去哪里找
- 由于有用数据存在于如此多的地方,挑战往往更多地在于认识到其中一些数据的价值。
- 通常只有每天使用应用程序的技术人员才知道有用数据隐藏在哪里。他们可能知道数据是什么,但通常不知道它的潜在价值有多大。
- 业务人员通常意识到问题,但不知道数据如何帮助他们,如果数据存在,它在哪里。
所以跨职能协作必不可少
- 如果要将重要问题与数据匹配,则需要具有业务知识的人员、知道存在哪些数据的人员以及能够了解如何处理数据以揭示问题的人员之间的协作。
- 了解哪些数据可用也是一项多学科工作。数据库人员通常都非常了解数据库,但要考虑更多的来源,让广泛的技术专家参与进来就很重要了。
数据管理的作用需要重新思考它是
- 旨在实现企业中单一、连贯和一致的数据模型
- 主要基于关系数据库
- 专注于仅存储经过验证的数据
这些变化需要新的策略
- 需要新的数据库技术来更直接地支持应用需求。应用程序团队现在需要考虑哪种数据库技术适合他们的情况,而不是对所有事情都使用单一(关系)技术。
- 数据的集中管理正在让位于管理其自身数据需求的特定应用程序。中央小组现在需要专注于实现应用程序团队之间的有效共享。
关系单一文化的时代已经结束,我们现在不得不问什么是满足我们需求的正确数据库
- 二十多年来,关系数据库一直是企业中占主导地位的数据存储技术。
- 他们过去曾抵制过许多挑战,但NoSQL数据库的兴起正在打破这种控制。
面向聚合的数据库
适合
- 作为单个工作单元(聚合)读取和操作的单一层次数据结构。
- 集群操作,因为聚合是很好的分布单位。
不是为了
- 以不同的结构对数据进行切片和切块时
面向聚合的数据库将复杂的数据结构存储在一个单元中,而不是将数据分布在许多表中的许多行上。
图数据库
适合
- 具有丰富连接结构的小数据单元
图数据库将数据表示为节点和弧形图结构。它们专为快速遍历图形结构而设计,并支持可以根据图形构建的查询。
我们发现NoSQL数据库适合企业应用
- 现在大型集团已经使用多个NoSQL数据库构建了关键的生产系统,特别是Couchbase、Riak、MongoDB(面向聚合)和Neo4J(图形)。项目团队报告了出色的生产力,我们会推荐这些用于未来的项目。
但这并不意味着关系已死
- 关系数据模型以其简单的表格结构和强大的查询语言,是多种数据的正确选择。
- 关系数据库是成熟的技术,很多人都熟悉并且拥有良好的工具。除非对其他事情有充分的论据,否则它们目前仍然是默认选择。
NoSQL、Relational和其他数据库技术都摆在桌面上
- 关键点是数据存储不是决定的时候结束了。现在必须根据如何使用该数据来主动选择数据库。
我们称之为多语言持久性
- 企业应该期待针对不同应用程序的多种数据存储技术。
- 当数据集具有不同的特征时,即使是单个应用程序也可以使用多语言持久性。