最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义。从SUN那里借来《大数据时代》读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨。
《大数据时代》这本书的章节划分非常清晰,主要讲了思维、商业和管理方面的变革,每一章有一个关键词和一句话来总结概括,关键的是里面有大量的例子来阐述大数据的应用。
第一部分 思维变革
1 更多
不是随机样本,而是全体数据
以前由于技术的局限性,只能进行随机抽样进行统计学分析,而现在可以获得更多的数据,所以现在的样本就是总体数据,即样本=总体。
大数据中的“大”不是绝对意义上的“大”。几GB的数据不一定算大数据,而不到1GB的数据也可以算大数据,比如64000场所有摔跤比赛的记录也可以算是大数据,因为它代表的是所有的比赛数据。
例:Xoom跨境涉汇款异常交易报警
例:摔跤比赛中的消极比赛
2 更杂
不是精确性,而是混杂性
以前花大量的精力关注数据的绝对精确性,而现在要学会拥抱混乱。
例:语法检查算法。简单的算法,当语料库增加后,准确率会提高。
例:谷歌翻译。利用了950亿句英语。
译者注:淘宝消费物价指数,淘宝CPI,iSPI(Internet Shopping Price Index)。
传统的数据库是为数据稀缺的时代设计的,这类结构化的数据只占5%左右,而95%的都是非结构化数据,现在需要更好地利用这些混杂的数据。
3 更好
不是因果关系Causality,而是相关关系Correlation
人类有探求因果关系的欲望,而大数据分析能得到某些相关关系,而这种关系一般是洞察不出来的。
在这种情况下,可能知道是什么就够了,没必要知道是为什么。
通过大数据分析,可以捕捉现在,预测未来。
译者并不认同该观点,可能是当前机器学习算法的无奈之举。
例:亚马逊的推荐系统
例:沃尔玛,把蛋挞与飓风用品放在一起
例:零售商与怀孕预测
例:UPS与汽车修理预测
例:早产儿病情预测
例:纽约沙井盖爆炸预测
(后来读到《思考的乐趣----Matrix67数学笔记》的第4章时知道有很多相关性是虚假的相关性,冰淇淋销量增加,鲨鱼食人事件也会同时增加,但并不意味着把冰淇淋销售点全部取缔了,就能减少鲨鱼食人事件的发生,真实情况只是因为夏天来了。)
第二部分 商业变革
4 数据化
一切皆可“量化”
数字化:把模拟数据转换成用0和1表示的二进制码
数据化:把一种现象转变为可制表分析的量化形式的过程
T技术==>I信息
例:坐姿数据与防盗系统
当方位变成了数据,可以引出无数的创意,可以从当今的手机应用程序看到这种趋势
现实挖掘:通过处理大量来自手机的数据,发现和预测人类行为。
当沟通变成了数据:从社交网络的流行也可以看到这种趋势。
例:触感灵敏的地板,物联网?
并非原子,而信息才是一切的本源。
5 价值
“取之不尽,用之不竭”的数据创新
例:ReCaptcha与数据再利用。利用验证码完成图书扫描项目。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。
数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。
数据的基本用途可能只是冰山一角,还有许多潜在的价值隐藏在表面之下。
数据废气:它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
公司所持有和使用的数据也应该纳入无形资产的范畴。
6 角色定位
数据、技术与思维的三足鼎立
大数据价值链:基于数据本身的公司、基于技能的公司和基于思维的公司(数据科学家)。
大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。
第三部分 管理变革
7 风险
让数据主宰一切的隐忧
大数据时代难以保护个人隐私。
8 掌控
责任与自由并举的信息管理
这章不感兴趣
本文转自申龙斌的程序人生博客园博文,原文链接:http://www.cnblogs.com/speeding/p/3330749.html,如需转载请自行联系原作者
http://www.cnblogs.com/speeding/