漫谈对大数据的思考(下)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: “大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。

许多组织将应用程序与共享数据库集成

  • SQL作为标准查询语言的存在实现了共享数据库集成。
  • 它通过共享数据库结构将应用程序相互耦合,使应用程序更难快速更改。
  • 它为所有应用程序使用单一的数据库技术和模式,这使得针对单个应用程序的需求使用适当的数据库技术变得更加困难。
  • 这使得简单案例的报告更容易,因为SQL的报告工具很多。但报告需求通常会降低应用程序的速度,并且只能报告共享数据库中的数据。

a35bd24d995fbc33f367882f463a7ced.png

现在我们封装数据库并通过服务API共享

8b6f0c9fd7908b0fac02c6761ae3946d.png

  • 应用程序数据库仅由单个应用程序使用。任何外部集成都是通过该应用程序构建和公开的API完成的。
  • 通过应用程序API封装数据库,客户端不再直接耦合到数据库技术和结构。
  • 应用程序API提供比底层数据库模型范围更广的数据模型。
  • 一个问题是分析客户可能需要专门为他们创建的API才能以有效的方式获取重要数据。如果这对应用程序开发团队不重要,可能会出现令人沮丧的延迟和交接。ServiceCustodian方法可以帮助解决这个问题。

90c1366730362360d93526b7afb6c6e7.png

三 大数据分析过程

  • 业务领导使用他们的战略目标来指示应该使用哪些指标进行分析。

21ad280471e71fbeba34a45c825c56e3.png

eb1361117d8043840f29c56f948cd214.png

94f31e58146ecfaf6d21217b6d67feb1.png

e8e56ea9cc2a58e603d063165de381e7.png

6个月对于有效行动来说太长了

  • 迅速采取行动具有竞争优势。
  • 长周期时间会导致白费力气,因为在您开始尝试使用数据之前,很难理解哪些数据是重要的。
  • 最重要的是,缓慢的循环时间会降低学习能力。每次通过该循环时,都会了解到哪些分析形式是有价值的,并且对下一步应该做什么有更深入的了解。学习的速度放大了整个循环中速度的优势。

因此,需要一种具有快速周期的敏捷方法

  • 缩小每个周期的范围,以便可以快速运行整个周期。
  • 使用一个周期的结果来决定下一个周期要做什么。

一个敏捷分析的例子

首先建立一个高层次的业务目标:我们如何识别即将离开的高价值客户并激励他们留下来?

接下来,选择目标的一个小而简单的方面作为分析起点: 离开的客户有哪些共同特征?

a6c910a72d7b6fc2e8386d97b4da15dc.png

离开的顾客有哪些购物行为?

与业务利益相关者一起验证结果的有用性和可操作性,并选择另一个方面进行探索。

4205751950d7488e4c7e9379e27999e7.png

使敏捷分析方法发挥作用的一些指南

  • 构建小团队,一次只专注于一个方面。
  • 不要试图构建一个宏大的分析平台,而是解决特定问题并收获一个平台。
  • 利用轻量级的工具,可以根据需要逐渐建立能力。
  • 将分析操作视为一个敏捷软件开发项目,遵循敏捷应用程序开发的常规原则。

f074227d3b59dd04e762c96a51c1d0a7.png

一项针对美国3,141个县的肾癌发病率的研究揭示了一个显着的模式。肾癌发病率最低的县大多是农村,人口稀少,位于中西部、南部和西部的传统共和党州。你怎么看这个?

难道是因为...

  • 共和党统治?
  • 农村空气和环境干净吗?

现在考虑肾癌发病率最高的县。这些境况不佳的县往往大多是农村、人口稀少,并且位于中西部、南部和西部的传统共和党州。

这是由于小数定律

  • 农村人口少
  • 人口少是样本量小
  • 较小的样本量倾向于极端

对这种结果的解释就像张三和李四各自从罐子里抽出彩球。每个罐子里装有相等数量的红球和白球。张三抽了四个球,李四抽了七个。就概率而言,张三会比李四看到更多的所有相同颜色球的平局(8倍)。

这是统计数据进行错误直觉推理的一个例子

  • 人们通常会错误地将原因归因于偶然事件。
  • 这种在随机中看到模式的倾向可以通过多种方式来欺骗我们。

e2d30ddf58db7886d31b490013d0fa26.png

  • 小数定律是概率错觉的现象的众多例子之一
  • 就像光学错觉混淆了眼睛一样,概率错觉混淆了我们的推理。
  • 随着我们更多地使用数据,这个问题可能会变得更加普遍,因为有太多人患有概率文盲。事实上,即使是科学家和数学家也经常被这些错觉所愚弄。

我们有责任对自己和用户进行概率错觉教育

如果我们要构建工具来让人们挖掘大数据中的意义,我们有责任确保人们发现的信息不仅仅是统计噪声。自我教育我们需要确保更好地掌握概率和统计数据——至少足以提醒我们可能出现的问题。结合统计技能参与分析的团队需要具有统计学背景的人员,他们具有区分信号和噪声的经验和知识。教育用户我们必须通过帮助客户和用户理解数字的实际意义来确保客户和用户不是很可能是文盲。

数据科学家是新的热门职位

“数据科学家”很快将成为我们行业中最被夸大的职位。很多人会把它附加到他们的简历中,以期获得更好的职位

但尽管大肆宣传,还是有一套真正的技能:

  • 探索问题并将其表述为可以用统计数据检验的假设的能力。
  • 业务知识、咨询和协作技能。
  • 了解机器学习技术。
  • 编程能力足以实现他们正在使用的各种模型。

尽管大多数数据科学家会很乐意使用专门的工具,但这不仅仅是知道如何使用R语言。了解何时使用模型通常比能够使用它们更重要,如何避免概率错觉和过度拟合也很重要。

502f8e25c98909578a975df95dfa3437.png

可视化在将数据转化为洞察力方面发挥着关键作用

  • 很难看出原始数据发生了什么。
  • 良好的可视化应该侧重于数据如何告知分析目标。
  • 现代可视化工具可以使用交互性和动态性来探索和挖掘细节,同时保留整体视图。
  • 了解可视化的一个好方法是探索不同方法的示例。

6958459ce7a2ef10de4d01b1a64db14e.png

这个“元素周期表”是一个交互式显示,是使用不同可视化技术的重要灵感来源。

4ebc84284e533457b950007e934b8a50.png

  • d3.js是构建可视化的重要工具。
  • d3.js是一个允许从javascript数据绑定到DOM元素的框架,对于创建动态svg可视化特别有价值。
  • 上述照片展示了许多使用d3构建的有趣的可视化效果,并为可视化和实现技术提供了灵感。

探索可能性

f08693163029a924511229de68d27969.png

  • 令人印象深刻的可视化可能非常有价值,值得为创建它们付出相当大的努力。
  • 但是不要纠结于复杂性,通常可以毫不费力地构建有用的可视化效果。

7c67fc7e3181280fade436a1eb871b24.png

  • 可以尝试使用迷你图为值提供历史背景。
  • 在没有任何先验知识的情况下,花了几个小时搜索有用的显示(使用jquerysparklines)。
  • 只有在构建迷你图后,才会意识到不需要其他一些数据显示。

e2f4505935889f70f04847e7c6820c66.png

四 大数据是大炒作吗

  • 炒作层出不穷,但硝烟背后却是大火。
  • 数据呈现给我们的方式发生了重大变化,这些变化导致了行业响应的适当重大行动。
  • 许多权威人士,都会对未来几年的确切变化做出错误的预测。然而,我相信会有重大变化。
  • 与任何技术计划一样,大数据工作需要由业务驱动。但是在这个平台上探索的主题意味着与技术团队的密切合作比平时更为重要。
  • 这些表明了公司发展的能力和个人获得的技能。

c683b20d8a5016214b4d8ea05a7d8c98.png

任何软件项目都应该融入“大数据”思想

  • 许多软件项目可以做更多的工作来有效地公开他们的数据。
  • 寻找更多可以有效提取数据的地方
  • 与客户和用户密切合作,探索哪些数据有用。
  • 小心避免概率错觉
  • 尝试可视化,从可以快速构建的简单可视化开始
  • 所有这一切都需要创新思维,而创新思维通常来自在自适应过程中运作的小型多元化团队。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 数据采集 分布式计算
大数据能做什么?
大数据能做什么?
218 0
大数据能做什么?
|
SQL 分布式计算 大数据
大数据初了解
了解大数据行业
123 0
|
SQL 分布式计算 大数据
关于大数据的完整讲解
关于大数据的完整讲解
|
SQL 弹性计算 运维
初识大数据
了解大数据
119 0
|
大数据 云计算
大数据
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1303 0
|
SQL 存储 分布式计算
|
分布式计算 数据可视化 大数据