《数据分析变革:大数据时代精准决策之道》一第2章 更多数据……巨多数据……大数据!2.1 穿越炒作的迷雾

简介:

本节书摘来自异步社区《数据分析变革:大数据时代精准决策之道》一书中的第2章,第2.1节,作者【美】Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章 更多数据……巨多数据……大数据!

数据分析变革:大数据时代精准决策之道
如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了近几年,数据累积的节奏开始加速。今天,数据格式往往呈现新颖化的趋势,分析手段往往呈现多样化的趋势。大数据正是在这个趋势上打的标签,它带来的是更大的数据挑战,更多的数据源,以及不同的数据格式。

当一家企业开始思考大数据,并且思考大数据将如何影响企业的业务分析流程时,它必须高瞻远瞩地思考很多概念。本章讲述了我们经常会遇到的那些花样繁多的大数据炒作热点,需要为大数据做的一些准备措施,以及如何客观地看待大数据等内容。大数据并不像乍一上来看到的那么可怕。只有正确理解了大数据的整体定位,才有可能成功地将其应用于运营型分析。

2.1 穿越炒作的迷雾

毫无疑问,围绕大数据已经集聚了大量的宣传和概念炒作。我们必须透过层层炒作迷雾,关注什么才是真正重要的。本节将要介绍的是一些有助于此的概念。本节并没有对大数据的重要性或价值有任何贬低的意思,而是要让大数据切切实实地回归现实本原。可以说,制定切实可行的期望应该是成功迈向大数据的第一步。

2.1.1 大数据的定义是什么?管它呢!

见客户的时候,我有一个经常会被问到的问题:“比尔,在你心里,大数据是如何定义的?”为什么大家总是乐此不疲地纠结于大数据的定义呢?[1]其实,如果想对这方面有直接的认识和把握,可以访问Linkedln(领英网)上的大数据讨论组。过去数年间,各个小组论坛里都以各种不同的方式,反复出现着关于大数据该如何定义的问题。“大数据的定义是什么?”有关于这个问题的问答,我参与过的讨论到不了几百也得有几十次。论坛发帖如果回帖数超过几十个是极为罕见的情况。随着讨论的继续,大家都是企图拿一些细微差别来压倒对方,而这些差别本身与大数据的定义可能相关也可能不相关。我感觉这很愚蠢,而且太过学术化。

社会上的人特别喜欢把关注点放在大数据本身的定义上。而我不管在哪儿,一直都喜欢借用下面的大数据定义,这也可能是最短的定义,这个略带叛逆感的定义只有三个字组成,但我认为这是与大数据最相关的定义:“管它呢!”听上去是不是感觉很极端?那为什么我还要说这个定义呢?下面我来解释一下。

如果企业最关心的是如何通过新的运营型分析解决具体的业务问题,实际上根本不需要再纠结大数据的定义本身了。为什么这么说呢?那些应当遵循的流程以及企业在这些年当中本应一直遵循的流程,其实都很简单。如果有问题要解决,应该先行调查,然后再提出问题:“我们应该在分析过程中收集、整理和使用哪些数据,才能完善解决我们的问题的答案呢?”一旦我们能掌握哪些是必要数据,我们需要做的就是想清楚怎样才能收集到数据,整理好数据,并且把这些数据融合到数据分析当中。但下面这个问题才是要点。第一个问题是,“这份数据对业务有价值吗?”这个问题肯定和大数据的定义无关。数据本身可能是大数据,也可能是小数据,或者也有可能是一堆电子表格。

定义不重要,结果才重要

即使每个人都认同大数据的一个定义,也不会给业务问题的解决带来任何价值。虽然定义大数据是一项非常有趣的学术训练,但了解某个给定的数据源是正式的大数据(或者不是)根本没有任何用处。如果我们需要分析某个数据源,不管给它打上什么标签,我们都会找到办法把它用好的。
到了企业意识到必须要上线大数据这类东西时,这时再关心定义是什么为时已然过晚,我们需要的是数据。也许,数据的结构性不好,数据量又太大,但它刚好满足Gartner行业分析师创造的“数据量、数据种类、处理速度”(Volume, Variety, Velocity)这个著名的理论框架的定义。[2]了解数据如何适配3V框架其实也没什么用,因为我们需要的只是数据,这时候我们需要的只是搞懂如何利用数据,其实这和大数据本身的定义根本无关。我一直还想说的,其实也是最重要但是往往容易被忽视的,与大数据最相关的V其实是价值(Value)。[3]我们担心其他特征会带来的影响,根本原因在于我们相信数据存在价值,值得花功夫收集和分析。

不要曲解我的意思。如果企业加工处理的数据能满足大数据的典型定义,这时把大数据与分析流程相融合,肯定会影响到我们所使用的工具与技术。这里,最大的区别在于,对于工具和技术的选择只是一个实现策略问题,而刚开始,战略层面的问题一般是:“这份数据有重要的信息吗?”到了我们可以回答这个问题的时候,企业必须完成相应的工作,才能让数据真正起到作用。

不要再没完没了地纠结于大数据拥有哪些特征,缺少哪些特征了。相反,我们要关心的是,如何把那些已经识别出来的重要的数据源融合到企业的分析流程当中。

2.1.2 从正确的角度出发

之前的话题蕴涵着这样的意思:我们要从正确的角度出发。我们不能只是收集数据并保存下来,然后就妄想着某天能把数据价值挖掘出来。如图2-1所示,企业应该从业务问题出发,让业务问题来牵引,然后才能把正确的数据找出来。如果确有合适的理由,我们可以付出努力,投入成本,拿到数据源并且使用好。在大数据的世界里,很容易陷入这样的境地,面对每一份可以接触到的数据都试图要努力收集,然后才去考虑收集到的数据如何才能产生价值。企业往往会因为要收集那些后续用不到的数据而变得忙碌无比。


bb4421f4525dfdb28dd69e3732776d589aecb131

从业务问题开始,而非从数据开始,听上去很简单,但在大数据领域,我看到过太多极其聪明的、细致入微的企业完全摒弃了这条基本原则。起初,这种倾向性让我感到很困惑,但之后不久,我就意识到究竟是哪些地方出了问题。2014年初,当我要着手开始本书的写作时,围绕大数据有太多炒作,没有什么人想错过这个潮流。董事会会问CEO:“你要拿大数据干什么?”CEO又会问CIO、CMO和CFO:“你要拿大数据干什么?”每位执行官接下来又会问各自的团队:“你要拿大数据干什么?”

不要迫于压力而变得目光短浅

不要屈服于压力而向外界展示你正在用大数据做什么事情。系统构建、数据捕获只是为了支撑验证有效的商业机会。许多聪明的企业因为被市场炒作蛊惑的原因,一头冲进去做大数据,实际上是在冒险,他们学到的是一些显而易见的教训,但代价却很高。
没人愿意回答“还没有”或者“有计划,但我们得先调查清楚,怎么把它弄对了”。正是因为炒作的存在,这些回答肯定都没法儿让人接受。结果,很多企业一猛子扎进来就去搞大数据了。有时候,企业在大数据上的投入手笔很大,但对如何运用投资,企业自身往往缺乏明晰的计划。他们只是买来一堆存储设备,再弄进来一堆数据,然后就幻想着自己往下做着做着就能自然而然地把事情搞定。

这种方法的最大问题在于:它只能让你应付好今年这一年。你站在了大数据潮流之巅,做了这样一些事情,得到了众人的交口称赞。但是,在接下来的一年或者一年半时间里又会发生什么呢?那时候,同一拨人会回头来问:“我们很清楚你在大数据项目上投入了很多资源,但我们该怎样验证它的投资价值呢?”如果事先不清楚我们能拿数据干什么,那大数据的后端投资会难以快速证实自己的价值合理性。我讨厌这样的回答:“噢,我们是根据要求积极投身大数据的,但现在还没什么好演示的。”

既然要投身大数据,企业就一定要保证自身训练有素。我们还要再花些时间,从一个真实的业务问题开始,制订好相关的计划。要搞清楚我们能用数据做哪些分析。这花不了多少时间,但如果这么做,成功的可能性会更高。不要迫于炒作的压力,摒弃执行基本原则。

2.1.3 大数据有泡沫吗

面对所有这些大数据的炒作,我们常常会遇到大数据是否存在泡沫这个问题。[4]行业分析公司Gartner在2013年1月提出了一个官方观点,宣称大数据已经越过了炒作的峰值点,正在迈向幻灭低谷期。[5]一名记者在听完Garnter报告后打电话给我,问我大数据是不是马上要走下坡路,泡沫是不是要破裂。经过思考以后,我给出了一个初看自相矛盾但经过解释又觉得很有意义的回答。我的回答是,从某些层面上讲,大数据确实存在泡沫,但在更重要的层面上却又不存在泡沫。本文总结了这些观点,参见表2-1。


afe068924ef24619a6f3a38fb88e90ba5428737d

以某种观点看,我确实认为大数据存在泡沫,肯定要破灭。这个问题起源于市场不切实际的期望。很多人似乎认为他们能够很轻松地进入大数据领域,按下一个“自动魔术化”按钮,就能得到提交的所有问题的答案。对于许多分析工作来说,这条假设很愚蠢。在大数据的世界里,这同样也是很愚蠢的。

大数据根本没有所谓的快捷键!使用大数据构造分析流程是要花时间和投入精力的,就像面对其他任何数据类型一样。因为大数据刚刚出现,所以一开始要投入更多的时间。由于这些错误假设所造成的影响,市场上肯定会出现一些大家都能看到的大数据的失败案例。我看到有些失败案例已然开始发生。这些最初的失败案例会刺破不切实际的炒作泡沫,从这个角度来讲,这对大家都有好处。对于大数据和运营实践而言,这是绝对可以做到的。相反,在成本、时间和投入等方面,企业应该带着切实的期望置身于大数据。

大数据没有快捷键

要有多少投入大数据实践才能获得成功,此间期望是脱节的,这确为事实。从这个意义上讲,确实存在泡沫。但是,大数据带来的深远影响以及大数据分析,最终将远超今天炒作宣传的想象空间。互联网泡沫并没有阻止互联网本身的潜力发挥,同样,大数据泡沫也没有阻止大数据本身的潜力发挥。
现在,我们将注意力转向大数据泡沫不会发生破裂的方面。大家往往认为泡沫破裂是因为一开始的支撑前提本身就是虚假的。我们可以确信,大数据肯定不是一个虚假的前提条件。大数据会对我们的未来生活产生巨大的影响。下面我会用比喻来解释个中缘由。

我们回头来看1999年和2000年的互联网泡沫。那时候,互联网公司有巨大的泡沫,很多人都赔了大把的钱。但这里有一个重要的观点。回头找找1999年末或2000年间互联网泡沫顶峰时期的新闻故事,看看那些文章是怎么吹嘘互联网将会如何改变我们的生活,如何改变我们的事业的。我相信你会发现互联网的发展已经超过了那个时代最狂野的梦想。

互联网泡沫承载着当时被炒作的所有(甚至更多)期望,是真是假其实已经没什么本质关系了。互联网泡沫的存在是因为人们认为能以较少成本、快速简单地获得这些收益。在互联网泡沫发生期间,只要公司创始人愿意把“i”或“e”字母加在公司名字前面,就能轻松获得投资。我感觉这和现在大数据没什么两样。如果我在2013年创立一家公司,宣称自己是一家基于云的、大数据的、机器学习的、分析即服务的公司,相信我可能会超快地搞定投资。

在接下来的几年间,大数据领域市场会重新洗牌,会有很多商业失败案例发生。由于市场异常火爆,公司带着不切实际的期望置身其中,他们会因犯下的错误而买单,因此肯定会有公司遭遇灭顶之灾。但是,再往下五到十年,大数据将会拥有它曾经标榜过的所有影响,甚至更多。基于大数据的运营型分析带来的影响将会远超我们今天所讨论的内容。不管本节之初我们说过要心存何种警惕,企业都不能仅仅是冷眼旁观。你的企业肯定要投身其中,只是我们要睿智而理性地对待大数据这个新事物。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
104 0
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
9天前
|
数据挖掘 定位技术
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
10 0
|
10天前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
18 4
|
21天前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
19 9
|
22天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
59 1
|
1月前
|
存储 SQL 数据挖掘
python数据分析——数据的选择和运算
在数据分析中,数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作,正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。
43 0
|
1月前
|
JSON 数据挖掘 数据格式
python数据分析——数据分析的数据的导入和导出
数据分析的数据的导入和导出是数据分析流程中至关重要的两个环节,它们直接影响到数据分析的准确性和效率。在数据导入阶段,首先要确保数据的来源可靠、格式统一,并且能够满足分析需求。这通常涉及到数据清洗和预处理的工作,比如去除重复数据、处理缺失值、转换数据类型等,以确保数据的完整性和一致性。
36 0
|
1月前
|
算法 大数据 数据挖掘
python数据分析——大数据伦理风险分析
大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用,企业、政府以及个人都在不断地产生、收集和分析海量数据。然而,这些数据的利用也带来了诸多伦理风险,如隐私泄露、数据滥用、算法偏见等。因此,对大数据伦理风险进行深入分析,并采取相应的防范措施,对于保障数据安全、维护社会公平正义具有重要意义。
51 0