一,理解大数据
1,当前大数据的四大特征:规模大、变化快、种类杂、价值密度低。
其实这理解起来很简单,我们来看新浪微博的大数据,为什么变现那么困难就知道了,新浪微博拥有庞大海量的用户大数据,但用这些行为数据变现却步履维艰,原因就在于微博上所产生的数据不够垂直,涉及面极广,而能够与商业相关的价值就更加难以挖掘了。
2,产业成果
怀校长列举了三块内容,百度和谷歌熟悉用户浏览行为,进而提供个性化的搜索。淘宝亚马逊因为熟悉用户购物习惯,可以为用户提供精准的喜好物品。微博和twitter了解用户思维习惯和社会认知,可以为国家和企业提供民众情绪等系列数据。
二,实践中的思维转变
大数据带给我们在研究以及实践策略上的思维转变。
1,从抽样到全样
大数据的大决定了大而全的特性,在传统工业中教会我们做统计的最大方式就是抽样,诸如系统抽样,分层抽样,定额抽样......,这些统计方法将会在大数据时代越来越不复存在。大数据的信息化可以统计到一切想要统计的数据,将工业时代的统计方法淘汰掉。
我们将会利用技术获得一切想要统计到的数据。
2,从精确到非精确
关于这一点其实也很好理解,我们就拿传统时代的搜索来说,在传统的搜索时代,当我们去查询某个信息时,我们需要得到的是全部的数据,但是搜索引擎则完全改变了我们这种认识,搜索引擎提供的只是前几项内容,而这几项内容则完全满足了我们的信息需求。
搜索引擎其实在做的是一套模糊算法,经过一系列的算法计算,将最优秀的结果带到用户面前,而这种结果上的呈现也颠覆了传统所认知的对于目标的定义,在大数据时代,我们追求的不再是绝对目标,而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。
我们将追求无限的近似而不是绝对的正确。
3,从因果到关联
而这也直接导致了西方又产生了惊人的言论—“理论已死”,这是继“上帝之死”,“人之死”,“作者已死”“历史的终结",“哲学已死”后的又一大胆的言论。以往的决策者要想决定某件事,必须参考各种理论,对其中的因果进行判定后才能达成,但是大数据时代则让决策变得更加容易,比如超市大数据可能会用清晰的图表告诉你每当下雨天时,超市里的蛋糕会卖的多,这时候决策者根本不需要知道任何理论,任何因果,只需要在天气预报预测明天将要下雨时提前准备蛋糕就行了。
而这种只依赖相关性不再依赖因果性的决策思想,正在慢慢的渗透到拥有大数据的各行各业,互联网业,零售业,旅游业,金融业......
三,大数据到大数据计算
1,大数据膨胀,如何解决搜索问题?
传统的算法在搜索数据时完全没有问题,因为数据量很小,但是当数据海量增长时问题就会凸显出来,用原来的算法去计算肯定是不行的,按照当前最快的硬盘检索速度(60GPS),线性扫描完1PB(1024TB)的数据需要1.9天的时间,所以当数据海量膨胀时,必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据,这其中包括了运算和读取,算是目前最好的算法了。
2,大数据膨胀,如何处理算法以及数据的问题?
上面提到的是通过改变算法来达到遍历数据的目的,但是在真正处理数据时依然是无法做到高效的,毕竟机器CPU的运算瓶颈摆在那里,算法工程师本质上在做的事情就是在现有的运算条件下,设计出最优方案,来求得最好的结果。
而怀校长告诉我们的这个挑战就是,在大数据的膨胀后,不仅要将原来的算法更换为近似算法,同样还要将数据更换为近似数据,只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。
同样是说起来容易做起来难,在这样的近似算法以及近似数据的改变下,到底该近似到何种程度,才能够最接近原算法的结果?要知道,在计算机世界里,差之毫厘失之千里,改变的量也许很小,但是如果一旦改错,就会造成巨大的错误结果,稍懂程序的人都知道,几行简短的代码就能让无论CPU运算能力多强的电脑彻底死机,而搜索引擎则更是一个更加庞大的试错工程。
最后,怀校长展示了两个学术前沿发展,第一,是定义易解类问题,从现实应用中找到这类易搜索问题,将之归类并应用于其他实践当中。第二,是将大数据进行小数据处理,寻找转化的精度度量,也就是他之前所说的寻找数据的近似值。
写完这段不禁感慨,其实算法工程师本质上是在机器CPU条件不够的情况下为满足大众需求的博弈,机器的配置条件永远无法跟上人类的需求,而为了满足人类需求,算法工程师们必须绞尽脑汁的去设计在现有条件下能够产出的最优答案,而不是考虑标准答案。而这又让我想到了深蓝电脑击败国际象棋大师的事情,事实上只要是懂一些程序的人甚至连我也都可以写出一套能够击败任何国际象棋大师的算法,只不过要想下完一局棋可能要用尽棋手一生时间都不止,因为CPU的运算速度无法跟上想法。所以深蓝电脑的胜利本质上不是人工智能赢了,而是工程师在设计最优算法的策略上赢了。
此外在大数据计算中,怀校长还讲了大数据运算的三大基础,表示,度量和理解。因为太过专业,解释每一个词都足够用一篇文章来解释,而且还不一定说得清,所以在此略过。
四,大数据软件工程
作为学软件工程出生的人,当我看完怀校长对大数据软件的演讲后有一种莫名的伤感,因为我预见到我曾经所学的软件工程必将被大数据全部重构,绝大多数的软件都可能走向为大数据软件,这就好像网页崛起后,网页软件的数量将大幅超过PC软件一样,又像智能手机崛起后,APP软件的数量开始远超网页软件一样,等到硬件设施成熟之后,未来的软件开发也必将会是大数据的天下。追溯软件工程的起源,这是在计算机硬件条件稳定后,为了解决效率问题而从工程学的角度来建立的软件开发方式,分工明确,进度安排明确,和其他工业生产别无二致。但怀校长接下来的演讲中,我们可以窥见到,软件工程有可能会走向另一种模式。
1,如何解决大数据的计算支撑问题?
说的简单点就是,大数据处理必然不是一台或者几台服务器就能搞定的小事情,大数据处理需要庞大的硬件支撑,硬件支撑也必然是分布式的设计,那么该如何设计顶层的系统架构才能高效能的满足大数据的处理工作?近似性(Inexact)、增量性(Incremental)和归纳性(Inductive)的3I特征如何被满足?
大数据下分布式硬件如何与软件协同,如何避免扩展失度,处理失效和耗能失控,这些都是令人头大的问题。在系统设计上充满挑战。
2,众包大数据是否可以开发软件?
这其实是一个非常疯狂的想法,我是这样解读怀校长的想法的,假设目前我们可以做到众包大数据软件开发,那么情形应该如下:大数据爬行机器根据读取新浪微博的数据,百度指数的数据,百度贴吧的数据,淘宝的交易数据……后,发现了用户的各种情绪以及需求的曲线,软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端,而用户再参与进入各种云端产生的软件,在此种产生了各种行为,于是机器再根据这些用户的行为,为软件建模,规划。
这是一种极为精尖交互式数据挖掘技术,前提是解决算法以及存储问题,一切皆有可能。未来的大数据软件将不会是一种固有形态,而是一个不断根据数据自动变化的超级生态,可能不是依靠产品经理推动,而是依靠算法工程师来推动,让用户的需求自然暴露,然后为他们去实现一些功能。
而我从一个更高的哲学层面来看这样的大数据软件建构,如果我们将全人类的群体行为看成是不断运作产生的数据,然后我们某些个体从中把握了某些东西进而产生了各种产品,再回过来看这样的大数据软件架构,其实说到底,这样的大数据软件,其实更像是在将我们的世界还原出来而已,只不过会比人做出来的更快更厉害更加完美。
如果真的能够实现这样的大数据软件建构,那么目前对大数据的某种定义将被完全推翻,在我们眼里大数据不过是用来固定的人类信息行为后为人类辅助的决策工具,这样的观点也将失效。大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断的满足我们的任何愿望,曾经我们依靠它来决策一些事情,现在我们依靠它来直接抵达我们想要做的事情,我们所有的行为都已经成为我们决策的一部分。
这其实就是超级人工智能了。
结语:怀校长的演讲在开头部分讲了大数据在这个时代对我们传统思维的冲击,一些价值观的建立,但是接下来讲的更多的不是已经成型的科研成果,更多的是抛出问号,抛出还没有解决的难题,以及一些失败的尝试,还有一些没有开始尝试的假设,这在表面上看来似乎与本次演讲的主题有些唱反调的样子,但仔细想想却又明白,CPU的计算能力永远达不到这些最顶级的科研人员想要的高度,而计算机科学家们永远只能在现有的条件下做困兽斗,做出在这个时代所能赋予的条件下最漂亮的成绩,而这就是他们一生所追求的使命。