《数据分析变革:大数据时代精准决策之道》一第2章 更多数据……巨多数据……大数据!2.1 穿越炒作的迷雾

简介:

本节书摘来自异步社区《数据分析变革:大数据时代精准决策之道》一书中的第2章,第2.1节,作者【美】Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章 更多数据……巨多数据……大数据!

数据分析变革:大数据时代精准决策之道
如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了近几年,数据累积的节奏开始加速。今天,数据格式往往呈现新颖化的趋势,分析手段往往呈现多样化的趋势。大数据正是在这个趋势上打的标签,它带来的是更大的数据挑战,更多的数据源,以及不同的数据格式。

当一家企业开始思考大数据,并且思考大数据将如何影响企业的业务分析流程时,它必须高瞻远瞩地思考很多概念。本章讲述了我们经常会遇到的那些花样繁多的大数据炒作热点,需要为大数据做的一些准备措施,以及如何客观地看待大数据等内容。大数据并不像乍一上来看到的那么可怕。只有正确理解了大数据的整体定位,才有可能成功地将其应用于运营型分析。

2.1 穿越炒作的迷雾

毫无疑问,围绕大数据已经集聚了大量的宣传和概念炒作。我们必须透过层层炒作迷雾,关注什么才是真正重要的。本节将要介绍的是一些有助于此的概念。本节并没有对大数据的重要性或价值有任何贬低的意思,而是要让大数据切切实实地回归现实本原。可以说,制定切实可行的期望应该是成功迈向大数据的第一步。

2.1.1 大数据的定义是什么?管它呢!

见客户的时候,我有一个经常会被问到的问题:“比尔,在你心里,大数据是如何定义的?”为什么大家总是乐此不疲地纠结于大数据的定义呢?[1]其实,如果想对这方面有直接的认识和把握,可以访问Linkedln(领英网)上的大数据讨论组。过去数年间,各个小组论坛里都以各种不同的方式,反复出现着关于大数据该如何定义的问题。“大数据的定义是什么?”有关于这个问题的问答,我参与过的讨论到不了几百也得有几十次。论坛发帖如果回帖数超过几十个是极为罕见的情况。随着讨论的继续,大家都是企图拿一些细微差别来压倒对方,而这些差别本身与大数据的定义可能相关也可能不相关。我感觉这很愚蠢,而且太过学术化。

社会上的人特别喜欢把关注点放在大数据本身的定义上。而我不管在哪儿,一直都喜欢借用下面的大数据定义,这也可能是最短的定义,这个略带叛逆感的定义只有三个字组成,但我认为这是与大数据最相关的定义:“管它呢!”听上去是不是感觉很极端?那为什么我还要说这个定义呢?下面我来解释一下。

如果企业最关心的是如何通过新的运营型分析解决具体的业务问题,实际上根本不需要再纠结大数据的定义本身了。为什么这么说呢?那些应当遵循的流程以及企业在这些年当中本应一直遵循的流程,其实都很简单。如果有问题要解决,应该先行调查,然后再提出问题:“我们应该在分析过程中收集、整理和使用哪些数据,才能完善解决我们的问题的答案呢?”一旦我们能掌握哪些是必要数据,我们需要做的就是想清楚怎样才能收集到数据,整理好数据,并且把这些数据融合到数据分析当中。但下面这个问题才是要点。第一个问题是,“这份数据对业务有价值吗?”这个问题肯定和大数据的定义无关。数据本身可能是大数据,也可能是小数据,或者也有可能是一堆电子表格。

定义不重要,结果才重要

即使每个人都认同大数据的一个定义,也不会给业务问题的解决带来任何价值。虽然定义大数据是一项非常有趣的学术训练,但了解某个给定的数据源是正式的大数据(或者不是)根本没有任何用处。如果我们需要分析某个数据源,不管给它打上什么标签,我们都会找到办法把它用好的。
到了企业意识到必须要上线大数据这类东西时,这时再关心定义是什么为时已然过晚,我们需要的是数据。也许,数据的结构性不好,数据量又太大,但它刚好满足Gartner行业分析师创造的“数据量、数据种类、处理速度”(Volume, Variety, Velocity)这个著名的理论框架的定义。[2]了解数据如何适配3V框架其实也没什么用,因为我们需要的只是数据,这时候我们需要的只是搞懂如何利用数据,其实这和大数据本身的定义根本无关。我一直还想说的,其实也是最重要但是往往容易被忽视的,与大数据最相关的V其实是价值(Value)。[3]我们担心其他特征会带来的影响,根本原因在于我们相信数据存在价值,值得花功夫收集和分析。

不要曲解我的意思。如果企业加工处理的数据能满足大数据的典型定义,这时把大数据与分析流程相融合,肯定会影响到我们所使用的工具与技术。这里,最大的区别在于,对于工具和技术的选择只是一个实现策略问题,而刚开始,战略层面的问题一般是:“这份数据有重要的信息吗?”到了我们可以回答这个问题的时候,企业必须完成相应的工作,才能让数据真正起到作用。

不要再没完没了地纠结于大数据拥有哪些特征,缺少哪些特征了。相反,我们要关心的是,如何把那些已经识别出来的重要的数据源融合到企业的分析流程当中。

2.1.2 从正确的角度出发

之前的话题蕴涵着这样的意思:我们要从正确的角度出发。我们不能只是收集数据并保存下来,然后就妄想着某天能把数据价值挖掘出来。如图2-1所示,企业应该从业务问题出发,让业务问题来牵引,然后才能把正确的数据找出来。如果确有合适的理由,我们可以付出努力,投入成本,拿到数据源并且使用好。在大数据的世界里,很容易陷入这样的境地,面对每一份可以接触到的数据都试图要努力收集,然后才去考虑收集到的数据如何才能产生价值。企业往往会因为要收集那些后续用不到的数据而变得忙碌无比。


bb4421f4525dfdb28dd69e3732776d589aecb131

从业务问题开始,而非从数据开始,听上去很简单,但在大数据领域,我看到过太多极其聪明的、细致入微的企业完全摒弃了这条基本原则。起初,这种倾向性让我感到很困惑,但之后不久,我就意识到究竟是哪些地方出了问题。2014年初,当我要着手开始本书的写作时,围绕大数据有太多炒作,没有什么人想错过这个潮流。董事会会问CEO:“你要拿大数据干什么?”CEO又会问CIO、CMO和CFO:“你要拿大数据干什么?”每位执行官接下来又会问各自的团队:“你要拿大数据干什么?”

不要迫于压力而变得目光短浅

不要屈服于压力而向外界展示你正在用大数据做什么事情。系统构建、数据捕获只是为了支撑验证有效的商业机会。许多聪明的企业因为被市场炒作蛊惑的原因,一头冲进去做大数据,实际上是在冒险,他们学到的是一些显而易见的教训,但代价却很高。
没人愿意回答“还没有”或者“有计划,但我们得先调查清楚,怎么把它弄对了”。正是因为炒作的存在,这些回答肯定都没法儿让人接受。结果,很多企业一猛子扎进来就去搞大数据了。有时候,企业在大数据上的投入手笔很大,但对如何运用投资,企业自身往往缺乏明晰的计划。他们只是买来一堆存储设备,再弄进来一堆数据,然后就幻想着自己往下做着做着就能自然而然地把事情搞定。

这种方法的最大问题在于:它只能让你应付好今年这一年。你站在了大数据潮流之巅,做了这样一些事情,得到了众人的交口称赞。但是,在接下来的一年或者一年半时间里又会发生什么呢?那时候,同一拨人会回头来问:“我们很清楚你在大数据项目上投入了很多资源,但我们该怎样验证它的投资价值呢?”如果事先不清楚我们能拿数据干什么,那大数据的后端投资会难以快速证实自己的价值合理性。我讨厌这样的回答:“噢,我们是根据要求积极投身大数据的,但现在还没什么好演示的。”

既然要投身大数据,企业就一定要保证自身训练有素。我们还要再花些时间,从一个真实的业务问题开始,制订好相关的计划。要搞清楚我们能用数据做哪些分析。这花不了多少时间,但如果这么做,成功的可能性会更高。不要迫于炒作的压力,摒弃执行基本原则。

2.1.3 大数据有泡沫吗

面对所有这些大数据的炒作,我们常常会遇到大数据是否存在泡沫这个问题。[4]行业分析公司Gartner在2013年1月提出了一个官方观点,宣称大数据已经越过了炒作的峰值点,正在迈向幻灭低谷期。[5]一名记者在听完Garnter报告后打电话给我,问我大数据是不是马上要走下坡路,泡沫是不是要破裂。经过思考以后,我给出了一个初看自相矛盾但经过解释又觉得很有意义的回答。我的回答是,从某些层面上讲,大数据确实存在泡沫,但在更重要的层面上却又不存在泡沫。本文总结了这些观点,参见表2-1。


afe068924ef24619a6f3a38fb88e90ba5428737d

以某种观点看,我确实认为大数据存在泡沫,肯定要破灭。这个问题起源于市场不切实际的期望。很多人似乎认为他们能够很轻松地进入大数据领域,按下一个“自动魔术化”按钮,就能得到提交的所有问题的答案。对于许多分析工作来说,这条假设很愚蠢。在大数据的世界里,这同样也是很愚蠢的。

大数据根本没有所谓的快捷键!使用大数据构造分析流程是要花时间和投入精力的,就像面对其他任何数据类型一样。因为大数据刚刚出现,所以一开始要投入更多的时间。由于这些错误假设所造成的影响,市场上肯定会出现一些大家都能看到的大数据的失败案例。我看到有些失败案例已然开始发生。这些最初的失败案例会刺破不切实际的炒作泡沫,从这个角度来讲,这对大家都有好处。对于大数据和运营实践而言,这是绝对可以做到的。相反,在成本、时间和投入等方面,企业应该带着切实的期望置身于大数据。

大数据没有快捷键

要有多少投入大数据实践才能获得成功,此间期望是脱节的,这确为事实。从这个意义上讲,确实存在泡沫。但是,大数据带来的深远影响以及大数据分析,最终将远超今天炒作宣传的想象空间。互联网泡沫并没有阻止互联网本身的潜力发挥,同样,大数据泡沫也没有阻止大数据本身的潜力发挥。
现在,我们将注意力转向大数据泡沫不会发生破裂的方面。大家往往认为泡沫破裂是因为一开始的支撑前提本身就是虚假的。我们可以确信,大数据肯定不是一个虚假的前提条件。大数据会对我们的未来生活产生巨大的影响。下面我会用比喻来解释个中缘由。

我们回头来看1999年和2000年的互联网泡沫。那时候,互联网公司有巨大的泡沫,很多人都赔了大把的钱。但这里有一个重要的观点。回头找找1999年末或2000年间互联网泡沫顶峰时期的新闻故事,看看那些文章是怎么吹嘘互联网将会如何改变我们的生活,如何改变我们的事业的。我相信你会发现互联网的发展已经超过了那个时代最狂野的梦想。

互联网泡沫承载着当时被炒作的所有(甚至更多)期望,是真是假其实已经没什么本质关系了。互联网泡沫的存在是因为人们认为能以较少成本、快速简单地获得这些收益。在互联网泡沫发生期间,只要公司创始人愿意把“i”或“e”字母加在公司名字前面,就能轻松获得投资。我感觉这和现在大数据没什么两样。如果我在2013年创立一家公司,宣称自己是一家基于云的、大数据的、机器学习的、分析即服务的公司,相信我可能会超快地搞定投资。

在接下来的几年间,大数据领域市场会重新洗牌,会有很多商业失败案例发生。由于市场异常火爆,公司带着不切实际的期望置身其中,他们会因犯下的错误而买单,因此肯定会有公司遭遇灭顶之灾。但是,再往下五到十年,大数据将会拥有它曾经标榜过的所有影响,甚至更多。基于大数据的运营型分析带来的影响将会远超我们今天所讨论的内容。不管本节之初我们说过要心存何种警惕,企业都不能仅仅是冷眼旁观。你的企业肯定要投身其中,只是我们要睿智而理性地对待大数据这个新事物。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
4月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
212 9
|
5月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
6月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
6月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
6月前
|
存储 供应链 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险预警与决策支持中的应用(204)
本篇文章探讨了基于 Java 的大数据可视化技术在企业供应链风险预警与决策支持中的深度应用。文章系统介绍了从数据采集、存储、处理到可视化呈现的完整技术方案,结合供应链风险预警与决策支持的实际案例,展示了 Java 大数据技术如何助力企业实现高效、智能的供应链管理。
|
7月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
954 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
305 2
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
431 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析