《数据分析变革:大数据时代精准决策之道》一第2章 更多数据……巨多数据……大数据!2.1 穿越炒作的迷雾

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

本节书摘来自异步社区《数据分析变革:大数据时代精准决策之道》一书中的第2章,第2.1节,作者【美】Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章 更多数据……巨多数据……大数据!

数据分析变革:大数据时代精准决策之道
如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了近几年,数据累积的节奏开始加速。今天,数据格式往往呈现新颖化的趋势,分析手段往往呈现多样化的趋势。大数据正是在这个趋势上打的标签,它带来的是更大的数据挑战,更多的数据源,以及不同的数据格式。

当一家企业开始思考大数据,并且思考大数据将如何影响企业的业务分析流程时,它必须高瞻远瞩地思考很多概念。本章讲述了我们经常会遇到的那些花样繁多的大数据炒作热点,需要为大数据做的一些准备措施,以及如何客观地看待大数据等内容。大数据并不像乍一上来看到的那么可怕。只有正确理解了大数据的整体定位,才有可能成功地将其应用于运营型分析。

2.1 穿越炒作的迷雾

毫无疑问,围绕大数据已经集聚了大量的宣传和概念炒作。我们必须透过层层炒作迷雾,关注什么才是真正重要的。本节将要介绍的是一些有助于此的概念。本节并没有对大数据的重要性或价值有任何贬低的意思,而是要让大数据切切实实地回归现实本原。可以说,制定切实可行的期望应该是成功迈向大数据的第一步。

2.1.1 大数据的定义是什么?管它呢!

见客户的时候,我有一个经常会被问到的问题:“比尔,在你心里,大数据是如何定义的?”为什么大家总是乐此不疲地纠结于大数据的定义呢?[1]其实,如果想对这方面有直接的认识和把握,可以访问Linkedln(领英网)上的大数据讨论组。过去数年间,各个小组论坛里都以各种不同的方式,反复出现着关于大数据该如何定义的问题。“大数据的定义是什么?”有关于这个问题的问答,我参与过的讨论到不了几百也得有几十次。论坛发帖如果回帖数超过几十个是极为罕见的情况。随着讨论的继续,大家都是企图拿一些细微差别来压倒对方,而这些差别本身与大数据的定义可能相关也可能不相关。我感觉这很愚蠢,而且太过学术化。

社会上的人特别喜欢把关注点放在大数据本身的定义上。而我不管在哪儿,一直都喜欢借用下面的大数据定义,这也可能是最短的定义,这个略带叛逆感的定义只有三个字组成,但我认为这是与大数据最相关的定义:“管它呢!”听上去是不是感觉很极端?那为什么我还要说这个定义呢?下面我来解释一下。

如果企业最关心的是如何通过新的运营型分析解决具体的业务问题,实际上根本不需要再纠结大数据的定义本身了。为什么这么说呢?那些应当遵循的流程以及企业在这些年当中本应一直遵循的流程,其实都很简单。如果有问题要解决,应该先行调查,然后再提出问题:“我们应该在分析过程中收集、整理和使用哪些数据,才能完善解决我们的问题的答案呢?”一旦我们能掌握哪些是必要数据,我们需要做的就是想清楚怎样才能收集到数据,整理好数据,并且把这些数据融合到数据分析当中。但下面这个问题才是要点。第一个问题是,“这份数据对业务有价值吗?”这个问题肯定和大数据的定义无关。数据本身可能是大数据,也可能是小数据,或者也有可能是一堆电子表格。

定义不重要,结果才重要

即使每个人都认同大数据的一个定义,也不会给业务问题的解决带来任何价值。虽然定义大数据是一项非常有趣的学术训练,但了解某个给定的数据源是正式的大数据(或者不是)根本没有任何用处。如果我们需要分析某个数据源,不管给它打上什么标签,我们都会找到办法把它用好的。
到了企业意识到必须要上线大数据这类东西时,这时再关心定义是什么为时已然过晚,我们需要的是数据。也许,数据的结构性不好,数据量又太大,但它刚好满足Gartner行业分析师创造的“数据量、数据种类、处理速度”(Volume, Variety, Velocity)这个著名的理论框架的定义。[2]了解数据如何适配3V框架其实也没什么用,因为我们需要的只是数据,这时候我们需要的只是搞懂如何利用数据,其实这和大数据本身的定义根本无关。我一直还想说的,其实也是最重要但是往往容易被忽视的,与大数据最相关的V其实是价值(Value)。[3]我们担心其他特征会带来的影响,根本原因在于我们相信数据存在价值,值得花功夫收集和分析。

不要曲解我的意思。如果企业加工处理的数据能满足大数据的典型定义,这时把大数据与分析流程相融合,肯定会影响到我们所使用的工具与技术。这里,最大的区别在于,对于工具和技术的选择只是一个实现策略问题,而刚开始,战略层面的问题一般是:“这份数据有重要的信息吗?”到了我们可以回答这个问题的时候,企业必须完成相应的工作,才能让数据真正起到作用。

不要再没完没了地纠结于大数据拥有哪些特征,缺少哪些特征了。相反,我们要关心的是,如何把那些已经识别出来的重要的数据源融合到企业的分析流程当中。

2.1.2 从正确的角度出发

之前的话题蕴涵着这样的意思:我们要从正确的角度出发。我们不能只是收集数据并保存下来,然后就妄想着某天能把数据价值挖掘出来。如图2-1所示,企业应该从业务问题出发,让业务问题来牵引,然后才能把正确的数据找出来。如果确有合适的理由,我们可以付出努力,投入成本,拿到数据源并且使用好。在大数据的世界里,很容易陷入这样的境地,面对每一份可以接触到的数据都试图要努力收集,然后才去考虑收集到的数据如何才能产生价值。企业往往会因为要收集那些后续用不到的数据而变得忙碌无比。


bb4421f4525dfdb28dd69e3732776d589aecb131

从业务问题开始,而非从数据开始,听上去很简单,但在大数据领域,我看到过太多极其聪明的、细致入微的企业完全摒弃了这条基本原则。起初,这种倾向性让我感到很困惑,但之后不久,我就意识到究竟是哪些地方出了问题。2014年初,当我要着手开始本书的写作时,围绕大数据有太多炒作,没有什么人想错过这个潮流。董事会会问CEO:“你要拿大数据干什么?”CEO又会问CIO、CMO和CFO:“你要拿大数据干什么?”每位执行官接下来又会问各自的团队:“你要拿大数据干什么?”

不要迫于压力而变得目光短浅

不要屈服于压力而向外界展示你正在用大数据做什么事情。系统构建、数据捕获只是为了支撑验证有效的商业机会。许多聪明的企业因为被市场炒作蛊惑的原因,一头冲进去做大数据,实际上是在冒险,他们学到的是一些显而易见的教训,但代价却很高。
没人愿意回答“还没有”或者“有计划,但我们得先调查清楚,怎么把它弄对了”。正是因为炒作的存在,这些回答肯定都没法儿让人接受。结果,很多企业一猛子扎进来就去搞大数据了。有时候,企业在大数据上的投入手笔很大,但对如何运用投资,企业自身往往缺乏明晰的计划。他们只是买来一堆存储设备,再弄进来一堆数据,然后就幻想着自己往下做着做着就能自然而然地把事情搞定。

这种方法的最大问题在于:它只能让你应付好今年这一年。你站在了大数据潮流之巅,做了这样一些事情,得到了众人的交口称赞。但是,在接下来的一年或者一年半时间里又会发生什么呢?那时候,同一拨人会回头来问:“我们很清楚你在大数据项目上投入了很多资源,但我们该怎样验证它的投资价值呢?”如果事先不清楚我们能拿数据干什么,那大数据的后端投资会难以快速证实自己的价值合理性。我讨厌这样的回答:“噢,我们是根据要求积极投身大数据的,但现在还没什么好演示的。”

既然要投身大数据,企业就一定要保证自身训练有素。我们还要再花些时间,从一个真实的业务问题开始,制订好相关的计划。要搞清楚我们能用数据做哪些分析。这花不了多少时间,但如果这么做,成功的可能性会更高。不要迫于炒作的压力,摒弃执行基本原则。

2.1.3 大数据有泡沫吗

面对所有这些大数据的炒作,我们常常会遇到大数据是否存在泡沫这个问题。[4]行业分析公司Gartner在2013年1月提出了一个官方观点,宣称大数据已经越过了炒作的峰值点,正在迈向幻灭低谷期。[5]一名记者在听完Garnter报告后打电话给我,问我大数据是不是马上要走下坡路,泡沫是不是要破裂。经过思考以后,我给出了一个初看自相矛盾但经过解释又觉得很有意义的回答。我的回答是,从某些层面上讲,大数据确实存在泡沫,但在更重要的层面上却又不存在泡沫。本文总结了这些观点,参见表2-1。


afe068924ef24619a6f3a38fb88e90ba5428737d

以某种观点看,我确实认为大数据存在泡沫,肯定要破灭。这个问题起源于市场不切实际的期望。很多人似乎认为他们能够很轻松地进入大数据领域,按下一个“自动魔术化”按钮,就能得到提交的所有问题的答案。对于许多分析工作来说,这条假设很愚蠢。在大数据的世界里,这同样也是很愚蠢的。

大数据根本没有所谓的快捷键!使用大数据构造分析流程是要花时间和投入精力的,就像面对其他任何数据类型一样。因为大数据刚刚出现,所以一开始要投入更多的时间。由于这些错误假设所造成的影响,市场上肯定会出现一些大家都能看到的大数据的失败案例。我看到有些失败案例已然开始发生。这些最初的失败案例会刺破不切实际的炒作泡沫,从这个角度来讲,这对大家都有好处。对于大数据和运营实践而言,这是绝对可以做到的。相反,在成本、时间和投入等方面,企业应该带着切实的期望置身于大数据。

大数据没有快捷键

要有多少投入大数据实践才能获得成功,此间期望是脱节的,这确为事实。从这个意义上讲,确实存在泡沫。但是,大数据带来的深远影响以及大数据分析,最终将远超今天炒作宣传的想象空间。互联网泡沫并没有阻止互联网本身的潜力发挥,同样,大数据泡沫也没有阻止大数据本身的潜力发挥。
现在,我们将注意力转向大数据泡沫不会发生破裂的方面。大家往往认为泡沫破裂是因为一开始的支撑前提本身就是虚假的。我们可以确信,大数据肯定不是一个虚假的前提条件。大数据会对我们的未来生活产生巨大的影响。下面我会用比喻来解释个中缘由。

我们回头来看1999年和2000年的互联网泡沫。那时候,互联网公司有巨大的泡沫,很多人都赔了大把的钱。但这里有一个重要的观点。回头找找1999年末或2000年间互联网泡沫顶峰时期的新闻故事,看看那些文章是怎么吹嘘互联网将会如何改变我们的生活,如何改变我们的事业的。我相信你会发现互联网的发展已经超过了那个时代最狂野的梦想。

互联网泡沫承载着当时被炒作的所有(甚至更多)期望,是真是假其实已经没什么本质关系了。互联网泡沫的存在是因为人们认为能以较少成本、快速简单地获得这些收益。在互联网泡沫发生期间,只要公司创始人愿意把“i”或“e”字母加在公司名字前面,就能轻松获得投资。我感觉这和现在大数据没什么两样。如果我在2013年创立一家公司,宣称自己是一家基于云的、大数据的、机器学习的、分析即服务的公司,相信我可能会超快地搞定投资。

在接下来的几年间,大数据领域市场会重新洗牌,会有很多商业失败案例发生。由于市场异常火爆,公司带着不切实际的期望置身其中,他们会因犯下的错误而买单,因此肯定会有公司遭遇灭顶之灾。但是,再往下五到十年,大数据将会拥有它曾经标榜过的所有影响,甚至更多。基于大数据的运营型分析带来的影响将会远超我们今天所讨论的内容。不管本节之初我们说过要心存何种警惕,企业都不能仅仅是冷眼旁观。你的企业肯定要投身其中,只是我们要睿智而理性地对待大数据这个新事物。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
74 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
2月前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
53 6
|
3月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
118 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
3月前
|
Java Spring 安全
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
49 0
|
3月前
|
消息中间件 分布式计算 Kafka
MaxCompute 在实时数据分析中的角色
【8月更文第31天】随着大数据应用场景的不断扩展,对数据处理速度的要求越来越高,传统的批处理模式已经难以满足某些业务对实时性的需求。在这种背景下,实时数据处理成为了大数据领域的研究热点之一。阿里云的 MaxCompute 虽然主要用于离线数据处理,但通过与其他实时流处理系统(如 Apache Flink 或 Kafka Streams)的集成,也可以参与到实时数据分析中。本文将探讨 MaxCompute 在实时数据分析中的角色,并介绍如何将 MaxCompute 与 Flink 结合使用。
77 0
|
3月前
|
消息中间件 数据挖掘 Kafka
揭秘大数据时代的极速王者!Flink:颠覆性流处理引擎,让实时数据分析燃爆你的想象力!
【8月更文挑战第29天】Apache Flink 是一个高性能的分布式流处理框架,适用于高吞吐量和低延迟的实时数据处理。它采用统一执行引擎处理有界和无界数据流,具备精确状态管理和灵活窗口操作等特性。Flink 支持毫秒级处理和广泛生态集成,但学习曲线较陡峭,社区相对较小。通过实时日志分析示例,我们展示了如何利用 Flink 从 Kafka 中读取数据并进行词频统计,体现了其强大功能和灵活性。
63 0
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
61 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
155 4
|
26天前
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
22 2
|
2月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【9月更文挑战第2天】数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
53 5