读书笔记2013第12本:《大数据时代》

简介:

最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义。从SUN那里借来《大数据时代》读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨。

《大数据时代》这本书的章节划分非常清晰,主要讲了思维、商业和管理方面的变革,每一章有一个关键词和一句话来总结概括,关键的是里面有大量的例子来阐述大数据的应用。

大数据时代

第一部分 思维变革

1 更多

不是随机样本,而是全体数据

以前由于技术的局限性,只能进行随机抽样进行统计学分析,而现在可以获得更多的数据,所以现在的样本就是总体数据,即样本=总体。

大数据中的“大”不是绝对意义上的“大”。几GB的数据不一定算大数据,而不到1GB的数据也可以算大数据,比如64000场所有摔跤比赛的记录也可以算是大数据,因为它代表的是所有的比赛数据。

例:Xoom跨境涉汇款异常交易报警

例:摔跤比赛中的消极比赛

2 更杂

不是精确性,而是混杂性

以前花大量的精力关注数据的绝对精确性,而现在要学会拥抱混乱。

例:语法检查算法。简单的算法,当语料库增加后,准确率会提高。

例:谷歌翻译。利用了950亿句英语。

译者注:淘宝消费物价指数,淘宝CPI,iSPI(Internet Shopping Price Index)。

传统的数据库是为数据稀缺的时代设计的,这类结构化的数据只占5%左右,而95%的都是非结构化数据,现在需要更好地利用这些混杂的数据。

3 更好

不是因果关系Causality,而是相关关系Correlation

人类有探求因果关系的欲望,而大数据分析能得到某些相关关系,而这种关系一般是洞察不出来的。

在这种情况下,可能知道是什么就够了,没必要知道是为什么。

通过大数据分析,可以捕捉现在,预测未来。

译者并不认同该观点,可能是当前机器学习算法的无奈之举。

例:亚马逊的推荐系统

例:沃尔玛,把蛋挞与飓风用品放在一起

例:零售商与怀孕预测

例:UPS与汽车修理预测

例:早产儿病情预测

例:纽约沙井盖爆炸预测

(后来读到《思考的乐趣----Matrix67数学笔记》的第4章时知道有很多相关性是虚假的相关性,冰淇淋销量增加,鲨鱼食人事件也会同时增加,但并不意味着把冰淇淋销售点全部取缔了,就能减少鲨鱼食人事件的发生,真实情况只是因为夏天来了。) 

第二部分 商业变革

4 数据化

一切皆可“量化”

数字化:把模拟数据转换成用0和1表示的二进制码

数据化:把一种现象转变为可制表分析的量化形式的过程

T技术==>I信息

例:坐姿数据与防盗系统

当方位变成了数据,可以引出无数的创意,可以从当今的手机应用程序看到这种趋势

现实挖掘:通过处理大量来自手机的数据,发现和预测人类行为。

当沟通变成了数据:从社交网络的流行也可以看到这种趋势。

例:触感灵敏的地板,物联网?

并非原子,而信息才是一切的本源。

5 价值

“取之不尽,用之不竭”的数据创新

例:ReCaptcha与数据再利用。利用验证码完成图书扫描项目。

不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。

数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。

数据的基本用途可能只是冰山一角,还有许多潜在的价值隐藏在表面之下。

数据废气:它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

公司所持有和使用的数据也应该纳入无形资产的范畴。

6 角色定位

数据、技术与思维的三足鼎立

大数据价值链:基于数据本身的公司、基于技能的公司和基于思维的公司(数据科学家)。

大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。

 

第三部分 管理变革

7 风险

让数据主宰一切的隐忧

大数据时代难以保护个人隐私。

8 掌控

责任与自由并举的信息管理

这章不感兴趣

本文转自申龙斌的程序人生博客园博文,原文链接:http://www.cnblogs.com/speeding/p/3330749.html,如需转载请自行联系原作者

http://www.cnblogs.com/speeding/ 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
存储 移动开发 算法
《阿里大数据之路》读书笔记:第二章 日志采集
《阿里大数据之路》读书笔记:第二章 日志采集
|
9月前
|
数据采集 存储 消息中间件
《阿里大数据之路》读书笔记:总述
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
|
存储 分布式计算 安全
【读书笔记】大数据原理与应用:分布式文件系统HDFS
【读书笔记】大数据原理与应用:分布式文件系统HDFS
124 0
【读书笔记】大数据原理与应用:分布式文件系统HDFS
|
存储 SQL 分布式计算
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
159 0
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
|
存储 大数据
【读书笔记】《大数据之路》——维度设计总结(3)
【读书笔记】《大数据之路》——维度设计总结(3)
|
存储 大数据 数据库
【读书笔记】《大数据之路》——维度设计总结(2)
【读书笔记】《大数据之路》——维度设计总结(2)
|
存储 大数据 OLAP
【读书笔记】《大数据之路》——维度设计总结(1)
【读书笔记】《大数据之路》——维度设计总结(1)
【读书笔记】《大数据之路》——维度设计总结(1)
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0