大数据的未来,超级人工智能

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在百度大数据开放大会上,搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍,怀校长的学术演讲把大家弄得云里雾里,把所有人弄晕了,现场能够听懂的绝对是少数,可能都会觉得怀校长有点像个外星人一般在那自顾自的演讲。但我作为一个曾经有志从事人工智能研究但失之交臂的又是学计算机毕业的人却越听越兴奋,冥冥中似乎找到了未来的人工智能所能抵达的可能性,那么我现在就尝试把怀教授的演讲转换为人类也能够听懂的语言吧。

一,理解大数据


1,当前大数据的四大特征:规模大、变化快、种类杂、价值密度低。


其实这理解起来很简单,我们来看新浪微博的大数据,为什么变现那么困难就知道了,新浪微博拥有庞大海量的用户大数据,但用这些行为数据变现却步履维艰,原因就在于微博上所产生的数据不够垂直,涉及面极广,而能够与商业相关的价值就更加难以挖掘了。


2,产业成果


怀校长列举了三块内容,百度和谷歌熟悉用户浏览行为,进而提供个性化的搜索。淘宝亚马逊因为熟悉用户购物习惯,可以为用户提供精准的喜好物品。微博和twitter了解用户思维习惯和社会认知,可以为国家和企业提供民众情绪等系列数据。



二,实践中的思维转变


大数据带给我们在研究以及实践策略上的思维转变。


1,从抽样到全样


大数据的大决定了大而全的特性,在传统工业中教会我们做统计的最大方式就是抽样,诸如系统抽样,分层抽样,定额抽样......,这些统计方法将会在大数据时代越来越不复存在。大数据的信息化可以统计到一切想要统计的数据,将工业时代的统计方法淘汰掉。


我们将会利用技术获得一切想要统计到的数据。


2,从精确到非精确


关于这一点其实也很好理解,我们就拿传统时代的搜索来说,在传统的搜索时代,当我们去查询某个信息时,我们需要得到的是全部的数据,但是搜索引擎则完全改变了我们这种认识,搜索引擎提供的只是前几项内容,而这几项内容则完全满足了我们的信息需求。


搜索引擎其实在做的是一套模糊算法,经过一系列的算法计算,将最优秀的结果带到用户面前,而这种结果上的呈现也颠覆了传统所认知的对于目标的定义,在大数据时代,我们追求的不再是绝对目标,而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。


我们将追求无限的近似而不是绝对的正确。


3,从因果到关联


而这也直接导致了西方又产生了惊人的言论—“理论已死”,这是继“上帝之死”,“人之死”,“作者已死”“历史的终结",“哲学已死”后的又一大胆的言论。以往的决策者要想决定某件事,必须参考各种理论,对其中的因果进行判定后才能达成,但是大数据时代则让决策变得更加容易,比如超市大数据可能会用清晰的图表告诉你每当下雨天时,超市里的蛋糕会卖的多,这时候决策者根本不需要知道任何理论,任何因果,只需要在天气预报预测明天将要下雨时提前准备蛋糕就行了。


而这种只依赖相关性不再依赖因果性的决策思想,正在慢慢的渗透到拥有大数据的各行各业,互联网业,零售业,旅游业,金融业......



三,大数据到大数据计算


1,大数据膨胀,如何解决搜索问题?


传统的算法在搜索数据时完全没有问题,因为数据量很小,但是当数据海量增长时问题就会凸显出来,用原来的算法去计算肯定是不行的,按照当前最快的硬盘检索速度(60GPS),线性扫描完1PB(1024TB)的数据需要1.9天的时间,所以当数据海量膨胀时,必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据,这其中包括了运算和读取,算是目前最好的算法了。


2,大数据膨胀,如何处理算法以及数据的问题?


上面提到的是通过改变算法来达到遍历数据的目的,但是在真正处理数据时依然是无法做到高效的,毕竟机器CPU的运算瓶颈摆在那里,算法工程师本质上在做的事情就是在现有的运算条件下,设计出最优方案,来求得最好的结果。


而怀校长告诉我们的这个挑战就是,在大数据的膨胀后,不仅要将原来的算法更换为近似算法,同样还要将数据更换为近似数据,只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。


同样是说起来容易做起来难,在这样的近似算法以及近似数据的改变下,到底该近似到何种程度,才能够最接近原算法的结果?要知道,在计算机世界里,差之毫厘失之千里,改变的量也许很小,但是如果一旦改错,就会造成巨大的错误结果,稍懂程序的人都知道,几行简短的代码就能让无论CPU运算能力多强的电脑彻底死机,而搜索引擎则更是一个更加庞大的试错工程。


最后,怀校长展示了两个学术前沿发展,第一,是定义易解类问题,从现实应用中找到这类易搜索问题,将之归类并应用于其他实践当中。第二,是将大数据进行小数据处理,寻找转化的精度度量,也就是他之前所说的寻找数据的近似值。


写完这段不禁感慨,其实算法工程师本质上是在机器CPU条件不够的情况下为满足大众需求的博弈,机器的配置条件永远无法跟上人类的需求,而为了满足人类需求,算法工程师们必须绞尽脑汁的去设计在现有条件下能够产出的最优答案,而不是考虑标准答案。而这又让我想到了深蓝电脑击败国际象棋大师的事情,事实上只要是懂一些程序的人甚至连我也都可以写出一套能够击败任何国际象棋大师的算法,只不过要想下完一局棋可能要用尽棋手一生时间都不止,因为CPU的运算速度无法跟上想法。所以深蓝电脑的胜利本质上不是人工智能赢了,而是工程师在设计最优算法的策略上赢了。


此外在大数据计算中,怀校长还讲了大数据运算的三大基础,表示,度量和理解。因为太过专业,解释每一个词都足够用一篇文章来解释,而且还不一定说得清,所以在此略过。


四,大数据软件工程


作为学软件工程出生的人,当我看完怀校长对大数据软件的演讲后有一种莫名的伤感,因为我预见到我曾经所学的软件工程必将被大数据全部重构,绝大多数的软件都可能走向为大数据软件,这就好像网页崛起后,网页软件的数量将大幅超过PC软件一样,又像智能手机崛起后,APP软件的数量开始远超网页软件一样,等到硬件设施成熟之后,未来的软件开发也必将会是大数据的天下。追溯软件工程的起源,这是在计算机硬件条件稳定后,为了解决效率问题而从工程学的角度来建立的软件开发方式,分工明确,进度安排明确,和其他工业生产别无二致。但怀校长接下来的演讲中,我们可以窥见到,软件工程有可能会走向另一种模式。


1,如何解决大数据的计算支撑问题?


说的简单点就是,大数据处理必然不是一台或者几台服务器就能搞定的小事情,大数据处理需要庞大的硬件支撑,硬件支撑也必然是分布式的设计,那么该如何设计顶层的系统架构才能高效能的满足大数据的处理工作?近似性(Inexact)、增量性(Incremental)和归纳性(Inductive)的3I特征如何被满足?


大数据下分布式硬件如何与软件协同,如何避免扩展失度,处理失效和耗能失控,这些都是令人头大的问题。在系统设计上充满挑战。


2,众包大数据是否可以开发软件?


这其实是一个非常疯狂的想法,我是这样解读怀校长的想法的,假设目前我们可以做到众包大数据软件开发,那么情形应该如下:大数据爬行机器根据读取新浪微博的数据,百度指数的数据,百度贴吧的数据,淘宝的交易数据……后,发现了用户的各种情绪以及需求的曲线,软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端,而用户再参与进入各种云端产生的软件,在此种产生了各种行为,于是机器再根据这些用户的行为,为软件建模,规划。


这是一种极为精尖交互式数据挖掘技术,前提是解决算法以及存储问题,一切皆有可能。未来的大数据软件将不会是一种固有形态,而是一个不断根据数据自动变化的超级生态,可能不是依靠产品经理推动,而是依靠算法工程师来推动,让用户的需求自然暴露,然后为他们去实现一些功能。


而我从一个更高的哲学层面来看这样的大数据软件建构,如果我们将全人类的群体行为看成是不断运作产生的数据,然后我们某些个体从中把握了某些东西进而产生了各种产品,再回过来看这样的大数据软件架构,其实说到底,这样的大数据软件,其实更像是在将我们的世界还原出来而已,只不过会比人做出来的更快更厉害更加完美。


如果真的能够实现这样的大数据软件建构,那么目前对大数据的某种定义将被完全推翻,在我们眼里大数据不过是用来固定的人类信息行为后为人类辅助的决策工具,这样的观点也将失效。大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断的满足我们的任何愿望,曾经我们依靠它来决策一些事情,现在我们依靠它来直接抵达我们想要做的事情,我们所有的行为都已经成为我们决策的一部分。


这其实就是超级人工智能了。


结语:怀校长的演讲在开头部分讲了大数据在这个时代对我们传统思维的冲击,一些价值观的建立,但是接下来讲的更多的不是已经成型的科研成果,更多的是抛出问号,抛出还没有解决的难题,以及一些失败的尝试,还有一些没有开始尝试的假设,这在表面上看来似乎与本次演讲的主题有些唱反调的样子,但仔细想想却又明白,CPU的计算能力永远达不到这些最顶级的科研人员想要的高度,而计算机科学家们永远只能在现有的条件下做困兽斗,做出在这个时代所能赋予的条件下最漂亮的成绩,而这就是他们一生所追求的使命。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
机器学习/深度学习 人工智能 物联网
深度学习:物联网大数据洞察中的人工智能
深度学习:物联网大数据洞察中的人工智能
|
3天前
|
机器学习/深度学习 人工智能 物联网
深度学习:物联网大数据洞察中的人工智能
深度学习:物联网大数据洞察中的人工智能
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能与大数据的融合应用##
随着科技的快速发展,人工智能(AI)和大数据技术已经深刻地改变了我们的生活。本文将探讨人工智能与大数据的基本概念、发展历程及其在多个领域的融合应用。同时,还将讨论这些技术所带来的优势与挑战,并展望未来的发展趋势。希望通过这篇文章,读者能够对人工智能与大数据有更深入的理解,并思考其对未来社会的影响。 ##
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
人工智能 自然语言处理 小程序
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
政务大厅引入智能导航系统,解决寻路难、指引不足及咨询台压力大的问题。VR导视与AI助手提供在线预览、VR路线指引、智能客服和小程序服务,提高办事效率,减轻咨询台工作,优化群众体验,塑造智慧政务形象。通过线上线下结合,实现政务服务的高效便民。
109 0
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
|
6月前
|
人工智能 搜索推荐 大数据
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享
|
6月前
|
人工智能 监控 物联网
基于物联网、大数据、云计算、人工智能等技术的智慧工地源码(Java+Spring Cloud +UniApp +MySql)
基于物联网、大数据、云计算、人工智能等技术的智慧工地源码(Java+Spring Cloud +UniApp +MySql)
810 1
|
21天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势