为何大数据让人开始怀疑人生

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据让人开始怀疑人生

《 大数据时代》,维克托·迈尔·舍恩伯格、肯尼思·库克耶著,盛杨燕、周涛译,浙江人民出版社

一年多前听说了“大数据”这个词,以为就是“数据大”的意思,随着媒体不断地曝光,以及今年阿尔法狗升级版横扫当今围棋第一人年轻的柯洁之后,对“大数据”的好奇油然而生。

于是从书橱里翻出来这本由舍恩伯格写的“大数据时代”,不指望自己能够读懂读通,但是读总比不读要强,遵循“开卷有益”的传统吧。

今天读的是引言部分。这本书号称“一场生活、工作与思维的大变革”。本书开门见山地说明,大数据在变革公共卫生,变革商业以及变革思维方面,已经出现在我们的生活当中了。大数据开启时代转型。

“大数据时代”举了一个在流行疾病防控的例子。说谷歌公司通过5000万条最频繁检索的词条,与流行病流行传播时期的数据进行了比较,通过分析人们搜索的记录来判断这些人是否患上了流感。

谷歌的研究人员去找到这些特定的检索词条,至于这些词条是否必须是“咳嗽”“发热药物”不是关注重点,这同我们寻找事发原因的常用手法不同,他们关心的是这些特定检索词条的被使用频率与流感在时间与空间上的传播之间的联系。

谷歌公司正好是一个其他公司都无法具备拥有的庞大数据源以及处理能力和统计技术的公司,他们找到了这45个检索词条组合,他们的预测结果的相关性高达97%,同疾控中心一样也能判断它从哪里传播出来,关键是相当及时,可比疾控中心早一两周,这一两周时间的金贵可想而知。

另一个是在商业运用的例子。一位计算机工程师在网上预订机票,坐上飞机后,他发现他的左邻右舍机票都比他订的晚,却比他便宜。

颠覆了他的“机票订的愈早愈便宜”的概念。下了飞机后,他开发了一个预测机票价格的系统。这个系统不需要知道哪些因素导致了机票价格的波动。

比如“周六晚上不出门”之类的原因,比如季节性原因,比如还有很多座位没卖掉的原因。这个系统只是通过其他航班的数据来预测未来机票价格的趋势。

帮助消费者抓住最佳购买时机。它拥有每一条航线每一架飞机内的每一个座位一年内的综合票价的记录的数据,海量的数据支持,为消费者节省了一大笔钱。

这些例子告诉我们都需要海量的数据支持以及存储与处理能力,在五年前或十年前“这都是不可能的”,从这个角度讲,我的理解大数据就是数据大。

大数据的意义并不仅在于此,它是有生命力的。通常数据使用之后就结束了他的使命,比如,飞机降落后,票价数据就没有用了。

但它被收集起来,用于机票预测系统。死了的,没用的数据,可以被巧妙地用来激发新产品和新型服务。

可见只要你改变思维,了解数据的奥秘,而数据只为那些愿意聆听的人所掌握。所以,大数据真正的含义,就是从那些从“静止的,陈旧的”数据中获得新的认知,并创造出新价值。

从信息爆炸的二十世纪以来,随着数据处理能力的爆发式增长,大数据时代的到来已经无可回避。

大数据的核心是什么?作者告诉我们是预测。它有点类似人工智能(机器学习),在书中,预测被定义为把算法运用到海量的数据上来预测事情发生的可能性。

好吧,在之后的章节或许会解释得更清楚。但从人机大战的情况来看,阿尔法狗每一步棋的海量运算后都会给出一个胜率,自动找出一个最好的下法。

没读这本书前,我会把大数据与人工智能当做两个事情,现在看来人工智能只是大数据这顶王冠上的一颗明珠,二而一。

引言的最后一部分讲的是“大数据是大挑战”。大挑战,挑战的是什么?我看就是挑战我们过去的传统思维,固有思维,只有变革思维才能适应大数据时代的到来。

书中说到三个转变,第一个转变随机采样趋于死亡;第二个转变数据之大追求精确度失去意义;第三个转变不再热衷寻找因果关系。

前两个转变依赖于高度发展的数据储存能力与处理能力,我们尚能理解并主动地去适应,但第三个转变却想当头棒喝,我脑海里只有一个词“第三只眼看世界”,已经不是换角度看世界那么简单了。

书中举了两个例子来说明,大数据只告诉我们“是什么”而不是“为什么”。比如机票的例子,你只要知道什么时候买最便宜,无须知道价格涨跌背后的原因;比如有几百万条医疗记录显示“橙汁+阿司匹林”的组合能治疗癌症,找出具体的药理机制就没有这种治疗方法本身来得重要。

可怕就在于不必知道现象背后的原因,只要让数据发声。让数据发声,意味着数据成了主导,然而我们不一定了解自己的数据,即便有了数据,有了数据商业资本,它还会让我们陷入一种寻宝的游戏。 


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
16天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
128 7
|
16天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
32 2
|
29天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
74 1
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
51 3
|
13天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
22 4
|
23天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
48 3
|
23天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
58 2
|
26天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
74 2
|
28天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
59 2