【Wikipedia词条解释】
Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. The challenges include capture, curation, storage, search, sharing, transfer, analysis, and visualization. The trend to larger data sets is due to the additional information derivable from analysis of a single large set of related data, as compared to separate smaller sets with the same total amount of data, allowing correlations to be found to "spot business trends, determine quality of research, prevent diseases, link legal citations, combat crime, and determine real-time roadway traffic conditions."
【李博扬 的回答】
严格说来我不是真正做大数据的人,但是我可以非常明确的告诉你,凡有人拿出一张Excel 表格告诉你他做的是大数据,此人百分之两百都不懂大数据。
大数据说到底就是一个大字。到底有多大?拿维基百科上的例子来说,CERN做的LHC(大型強子對撞機)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。
在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看?不要说计算,根本连载入内存都不可能。
再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯?波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。
再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据。
大数据因为大,不仅远远超过人工的处理能力,也远远超过普通台式机的处理能力。只有特定的算法和特别设计的硬件架构才能够有效的处理大数据。简单说来,硬件上要把很多CPU或者很多台式机连起来,算法上采取分而治之的策略。有的数据前后没有关联,特别适合分而治之的方法。而处理互相联系多的数据就比较困难。如果只要寻找嫌犯的脸,可以对每张照片分别处理。如果要考虑连续拍摄的照片有些并没有捕捉到脸,但嫌犯的位置和穿着是相对不变的,这就要考虑照片之间的关系,要分而治之就相对困难一些。
举一个做加法的例子来说明分而治之。比如有两道加法题:34+18和54+39。这两道题目如果两个人分别计算,就比一个人计算要快一倍。这就是分治的优势。但是如果只有一道加法题怎么办?比如两个人要计算34+18,那只好一个人计算个位,一个人计算十位。十位上计算3+1=4,但是还必须考虑个位的进位。所以计算十位的人必须等待计算个位的人给出结果之后,再决定要不要在自己的结果上再加1。为了统一结果一等待,计算速度就变慢了,这就是我们说结果之间存在的关系拖慢计算。
既然大数据处理起来这么困难,为什么还要使用大数据?使用小数据不行吗?这就要说到大数据的应用。所谓机器学习,一般是首先建立一个数据之间关系的模型。然后通过数据来确定模型中的参数。这就是所谓训练。大多数模型都是比较简单的。建模的时候为了简便,往往忽略现实中的很多因素。但是数据多了以后,往往可以弥补模型的简陋。所以数据多是有好处的。
那么我们建立一个复杂的模型不行吗?可惜越复杂的模型参数就越多。训练所需要的数据量就越大。随着人类计算能力的增长,能处理的数据量越来越多,统计模型也不断变的更精细更复杂。计算能力,数据量,统计模型三者是相辅相成的。最近兴起的Deep Learning,就是在强大的计算能力辅助下,使用巨大的数据训练多层复杂模型的一种方法。
举一个糖果厂的例子。某糖果厂按比例生产红色和绿色两种糖果。作为一个传统的中国股民,我特别喜欢红色,讨厌绿色。但糖果是包起来的,外面看不出来。那怎么才知道这个糖果厂的生产比例是什么?最简单的模型就是,买一百粒糖果全部剥开看看。比如有60粒红色,我就得出结论说红色比例是0.6。买的糖果越多,估算出的比例和实际比例就越接近。
你说这模型也太弱智了吧。那么好,我们可以考虑食用色素的价格对糖果颜色的影响。通过观察红绿两色色素价格和糖果比例之间的关系,可以预测何时糖果厂会大量生产红色糖果。到时候我就买一堆放家里慢慢吃。但是注意,这计算就需要色素价格的数据了。我们还可以继续构建更加复杂的模型,比如考虑糖果的销量,竞争对手的产品颜色,厂长的心情,天气晴阴等等。考虑的因素越多,需要的数据也越多。
你说扯淡。天气和糖果有什么关系?老实说,有没有关系实在搞不清楚。如果把这个因素放到模型里,多多少少也能算出一点关系来。但算出有关系不代表真有关系。那能不能通过算法自动找出那些因素是真有关系,那些是假装有关系?这就是Deep Learning想要解决的一个问题。
话说回来,只要你考虑的因素正确,又有足够的数据来测算因素之间的关系,那往往可以提升模型的预测能力。所以统计模型在往精细和复杂的方向发展。有些预测能力看起来似乎不可思议。比如预测那些人和你会买同样的书和音乐,比如预测你下班回家的路会不会堵车。有些预测能力似乎稀松平常。比如你一句话还没说完,我大概就能猜到你下一句会说什么。这能力基本上每个人都有,但对计算机来说难如登天,简直如同神迹。
【Gilot 的回答】
有些高票答案未能提及大数据在应用时最重要的特点:相关性。
大数据,简单理解就是很多很多数据,重要的是很多很多各种类型(人工判断不出或无法判断,但实际是相关的)数据。然后我们怎么发现和利用这些数据间的相关性才是大数据应用的核心。
某些知友回答中提到的淘宝bra销售数据在不同cup型的分布或者基于颜色,省份的统计,这些都是相关关系如此明显的数据。在大数据时代之前,甚至是信息化之前,人工就可以统计和分析出来。单独列举这些数据来回答原PO的提问,简直是鸡同鸭讲。
还是以bra的销售数据来举例,说一个相关性没那么明显的例子:下单时间。
进入信息化社会之前,做销售的人对时间的敏感主要就是利用节假日促销,傻子都知道可以趁着妇女节、情人节、元宵节等等众多男士的受难日来搞bra的促销。
而现在,淘宝上每一张订单都有下单时间,甚至连顾客什么时候开始浏览某一件宝贝,是否经历n分钟跟售前客服的讨价还价,最后在几点几分下单成交,这些都是被收集起来的数据。
如果我们把下单时间跟bra的销售数据关联起来,通过研究找出两者的相关关系,可能得出我们根本想象不到的结果。做促销的可以专门选择在bra热销的时段投放广告,商家可以知道哪一个型号最能激发消费者的购买欲望(从浏览到成交的时间最短),消费者可能发现自己在按照固定的频率去采购bra。
相关性更加隐晦的例子可以举出很多,比如顾客日常的饮食跟bra的cup是否存在相关关系?
更复杂的,顾客购买bra的档次提高了,同时她购买的其它商品也提高了档次,穿着风格开始走职场中层女性的路线,那么是否可以推测她获得了晋升?对于做职场服装的中高档品牌,这个是从女屌丝成长起来的客户啊,现在是让客户建立品牌第一印象的大好机会。
发现数据之间的相关性,现在还需要精通数学、统计学的人去研究。以后工具成熟了,可能只需要用户在输入各种数据之后,勾选其中几个属性,软件就可以自动分析出相关关系。
利用大数据(数据的相关关系)去实现什么,只局限于你的想象力。
【高济禾 的回答】
我觉得wikipedia上那句话已经够清楚了。再解释也只是用家常话同义重复而已。‘大数据’概念本身强调的是处理大数据的能力和技术,大数据的应用价值不在于它‘大’,而在于其细粒度信息的价值(微观干预的能力)。这一点的确很多人、很多出版物都没说清楚。
1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:
各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;
张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;
一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;
......
2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测...这些都是某种中间目标/中间价值,而非终极目标/终极价值。信息的终极价值体现在做功:信息的使用者利用一段信息(相比于没有这段信息时)多做了一些事(这些事的价值用做功来衡量),这就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。
3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。
为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限--不管用什么方法取得这个信息,无论这个量变得多么准确。
举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得'温度'这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落...这可是实时处理的mol级数据呢...”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”
如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。
4 大数据的应用价值很大,但现在的应用普遍错位。
在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。
另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘--手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。
--------------------------------------------------------------------------------------------------
【更新日志:看到上面的答案互踩得挺热闹的,我也来欢乐地踩一下高票答案们】:
把bra size数据归纳为’各国bra size排行榜'给娱乐新闻供稿不是大数据的价值(抽样也可实现),利用bra size数据提高陌生男女速配几率是大数据的价值(更高效率的微观干预);
将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预);
目前排名第一答案中的『在知乎上如何能获得更多赞同?』不是大数据的价值(基于统计,抽样也可实现),问题变成『给定任意用户u,他在时间T写一个答案内容A,预测给赞的名单L=L(u,A)、L的演化L(t)=L(u,A,T)』才是大数据的价值(必须依赖细粒度信息才能实现的预测);
目前排名第二答案中的举例『重建了整个罗马城的3D模型』、『糖果厂生产糖果的红绿比例是什么?』不是大数据的价值(利用了大数据,但没产生额外的价值——不用大数据也能建立罗马城的影像,也能统计颜色比例),问题变成『根据每个旅行者的个人兴趣重建最佳罗马城浏览路线』、『糖果厂改进生产流程,使出厂糖果的颜色和甜度自动匹配下单客户的口味』是大数据的价值(不用大数据无法实现)。
【潘乱 的回答】
淘宝bra的例子只是简单的抽样分析,不是大数据。我举几个技术门槛高些的例子。
1、QQ圈子。2012年3月腾讯推出的,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,同学同事朋友圈子分门别类,这个数据处理能力给人带来的震撼程度完全超过你可能认识的朋友的程度了,潜伏在人际关系深处的暗网都被铺开;
2、大数据与乔布斯癌症治疗。不要抽样数据,要全部数据。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
3、谷歌翻译。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。
4、验证码与谷歌图书馆计划。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。因为众包的力量,这项技术每年能为谷歌省下十多亿美元。
原文发布时间为:2014-10-07
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号