漫谈对大数据的思考(上)

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: “大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。

“大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。数据源的数量、速度和价值正在迅速增加。数据管理必须在五个广泛领域发生变化:从更广泛的来源提取数据,使用新的数据库和集成方法改变数据管理的组织方式,在运行分析项目中使用敏捷原则,强调数据技术将数据与噪声分开的解释,以及精心设计的可视化的重要性使该数据更容易理解。这意味着我们不需要大的分析项目,相反我们希望新的数据思维渗透到我们的日常工作中。

d98e4af4a8a535e739749746476668e1.png

  • 数据在我们的活动中扮演的角色发生了重大变化。
  • 尽管大数据这个词经常被用来描述这种变化,但这不仅仅是我们希望使用多少数据。
  • 你可能想把“大”应用到数据的重要性上——数据在我们的生活中发挥着更大的作用,而不只是从字面上理解“大数据”。
  • 大数据是一个引起大量炒作的术语。但我认为在这种情况下抵制我们通常对炒作的厌恶很重要——思维正在发生重大变化。
  • 这种转变迫使我们改变许多长期以来对数据的假设。它开辟了新机遇,但也需要新思维和新技能。

0dcaea0a868ec7153fcc1315546416ff.png

一 数据世界正在发生怎样的变化

3eb881bc53217c500a47169f3489aecf.png

数据是凌乱的

在结构上

  • 传统上,数据被认为来自组织良好的数据库,这些数据库具有受控模式,具有强大的验证条件。
  • 但我们现在看到的数据有多种形式:日志文件、消息队列、电子表格。这些数据分散在整个组织及其生态系统中。
  • 通常很少或没有模式来控制其结构。
  • 数据通常是不统一的,每个元素都具有不同的属性。

在内容上

  • 由于存在多个数据源、众包甚至自动推理和发现数据——数据质量存在很大问题。

数据是分散式

  • 通过Internet的广泛可用性和易于访问意味着数据来自更多的贡献者。
  • 这引发了处理来自不同来源的许多更新、确保人们输入有用数据以及考虑如何检查输入数据的一致性和准确性等问题。

我们曾经想过从信息系统获取数据,

b14911059ed924e1f02e35bd8f7f0693.png

但是现在有很多设备需要考虑。

af9c52bf03c5810dfd39038937c5144e.png

非洲98%的互联网接入点是移动的,还有更多需要考虑的:

8617df22b068c9c96b9cdc614eadd1e5.png

数据是量大的

  • 沃尔玛:每小时100万笔交易†
  • eBay:每天50PB的数据†
  • Facebook:400亿张照片

庞大的数据量足以击败许多长期采用的数据管理方法,集中式数据库系统无法处理大量数据,因此不得不使用集群。


最重要的是数据是有价值的

  • 每年3000亿美元:美国医疗保健
  • 60%增长:零售利润率
  • 尽管很难获得关于充分利用数据的价值的确切数字,但亚马逊和谷歌等公司的成功在很大程度上归功于它们对数据的有效利用。

262bd8a4e681cf32b0c5903e8f24ac58.png

二 如何应对这些变化

数据世界中正在发生的变化,我们需要了解软件开发世界如何响应这些变化。

ed7925e4f086e306872a7714778a1790.png

数据来自许多来源

32dd05fc670e91c7e78a334f69697f41.png

ea0be0a0b2e47a4735ecdb4ff08b4dd3.png

ef6f6f4124c1e45515530c79902bc6c6.pngda121606bf21c5966f99c3d185c36bd5.png

ae63e00fd7b424aa8befcb1f6a029cff.png

f41b8772b2af0cd4f0b77a1ef5f7bc98.png

提取数据很复杂,但真正的问题是知道去哪里找

  • 由于有用数据存在于如此多的地方,挑战往往更多地在于认识到其中一些数据的价值。
  • 通常只有每天使用应用程序的技术人员才知道有用数据隐藏在哪里。他们可能知道数据是什么,但通常不知道它的潜在价值有多大。
  • 业务人员通常意识到问题,但不知道数据如何帮助他们,如果数据存在,它在哪里。

所以跨职能协作必不可少

  • 如果要将重要问题与数据匹配,则需要具有业务知识的人员、知道存在哪些数据的人员以及能够了解如何处理数据以揭示问题的人员之间的协作。
  • 了解哪些数据可用也是一项多学科工作。数据库人员通常都非常了解数据库,但要考虑更多的来源,让广泛的技术专家参与进来就很重要了。

数据管理的作用需要重新思考它是

  • 旨在实现企业中单一、连贯和一致的数据模型
  • 主要基于关系数据库
  • 专注于仅存储经过验证的数据

这些变化需要新的策略

  • 需要新的数据库技术来更直接地支持应用需求。应用程序团队现在需要考虑哪种数据库技术适合他们的情况,而不是对所有事情都使用单一(关系)技术。
  • 数据的集中管理正在让位于管理其自身数据需求的特定应用程序。中央小组现在需要专注于实现应用程序团队之间的有效共享。

关系单一文化的时代已经结束,我们现在不得不问什么是满足我们需求的正确数据库

  • 二十多年来,关系数据库一直是企业中占主导地位的数据存储技术。
  • 他们过去曾抵制过许多挑战,但NoSQL数据库的兴起正在打破这种控制。

1ef3a6ff8a7c2b1c2d8a5329a16bacf2.png

面向聚合的数据库

适合

  • 作为单个工作单元(聚合)读取和操作的单一层次数据结构。
  • 集群操作,因为聚合是很好的分布单位。

不是为了

  • 以不同的结构对数据进行切片和切块时

bfb22659cb81682e9b04f2771049239f.png

面向聚合的数据库将复杂的数据结构存储在一个单元中,而不是将数据分布在许多表中的许多行上。

图数据库

适合

  • 具有丰富连接结构的小数据单元

b5ed54f9dd44fde8adb99b1968b91e56.png

图数据库将数据表示为节点和弧形图结构。它们专为快速遍历图形结构而设计,并支持可以根据图形构建的查询。

我们发现NoSQL数据库适合企业应用

  • 现在大型集团已经使用多个NoSQL数据库构建了关键的生产系统,特别是Couchbase、Riak、MongoDB(面向聚合)和Neo4J(图形)。项目团队报告了出色的生产力,我们会推荐这些用于未来的项目。

但这并不意味着关系已死

  • 关系数据模型以其简单的表格结构和强大的查询语言,是多种数据的正确选择。
  • 关系数据库是成熟的技术,很多人都熟悉并且拥有良好的工具。除非对其他事情有充分的论据,否则它们目前仍然是默认选择。

NoSQL、Relational和其他数据库技术都摆在桌面上

  • 关键点是数据存储不是决定的时候结束了。现在必须根据如何使用该数据来主动选择数据库。

我们称之为多语言持久性

  • 企业应该期待针对不同应用程序的多种数据存储技术。
  • 当数据集具有不同的特征时,即使是单个应用程序也可以使用多语言持久性。

7123cdd635fd71f0e91822a805bd1908.png


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
供应链 大数据 数据挖掘
大数据应用
大数据应用
112 1
|
SQL 数据采集 算法
大数据到底应该如何学?
大数据到底应该如何学?
114 0
|
SQL 分布式计算 大数据
大数据初了解
了解大数据行业
129 0
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1314 0
|
存储 人工智能 大数据
|
人工智能 算法 大数据