院士梅宏:真正的大数据应用体现在数据挖掘的深度

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:



2016 CCF大数据与计算智能大赛于2016年9月24日在中国·北京梅地亚中心酒店开幕


北京理工大学副校长,中国科学院院士梅宏在会上做了《大数据与数据驱动的智慧》的演讲,探索了大数据带来的挑战和可能的应用。梅宏认为,目前来讲,大数据还在炒作的阶段,真正的大数据应用应该体现在数据挖掘的深度。在演讲的梅宏最后提出:当自演化的软件能够让机器自己改代码的时候,才是真正的类脑智能。



大数据文摘为您带来一手演讲实录,以下为梅宏院士演讲全文:

*根据主办方提供的速记整理,在不改变原意的情况下,部分有删改。


◆ ◆ 


我今天的题目叫做大数据与数据驱动的智慧,首先我大概分成四个部分,谈谈我对大数据的认识,我想讲四个部分,第一个谈谈对大数据的认识,第二个大数据给我们带来什么挑战,第三个大数据应用,最后结合我们的主题讲讲数据和智能的关系,主要谈我的理解

 


◆ ◆ 

认识大数据


所谓大数据,它是我们信息化到一定阶段之后,必然出现的一个现象(自然现象),主要是由于信息技术不断的成本化,不断的廉价化,以及互联网及其延伸出来的,带来的信息技术无处不在的应用所带来的自然现象。


基本上有几个主要的驱动力:

一个是摩尔定律所驱动的指数增长模式;

第二个是我们技术低成本化驱动的万物的数字化;

第三个就是宽带移动泛在互联驱动的人机物广联连接,以及最后大规模的汇聚。

 

实际上大数据正在带来我们新的一拨数据化的浪潮,信息化的第三拨浪潮3.0。


如果我们回顾来看我们的过去的话,我们大体上能够看到两个明显的阶段的划分,一个是在从PC机开始进入市场以来,应该说带来了信息化的第一拨浪潮,这个浪潮差不多到90年代中期,这个时候的主要特征是单机应用为特征的数字化特征,我们主要完成简单的工作上最核心业务的数字化的工作,以PC机为主。


在过去的20年,90年代中期到现在,以联网应用为特征的网络化出现数据大集中,开始全国范围内的大联网等等,各个企业甚至走向企业全球,现在我们正在进入新的阶段,这个以数据的深度挖掘和融合应用为特征的智慧化,或者智慧化的现象。


到底什么是大数据,这两个定义从两个角度来谈:

一个从技术上来讲,我们的技术供给能力不足所面临的对象他称之为大数据,第二是从数据特征讲的数据,这是两个数据的定义。


◆ ◆ 

应对大数据


大数据带来的是什么,我觉得最重要的东西可能带来的是思维模式的变化,如果回顾来看看我们过去,基本上定义这不一定是大家都能够接受,但是能够去查的话,定义出现所谓的大数据是在上个世纪的时候,97年的时候,SGI的首席科学家曾经用了这个词,他讲了数据提到大数据,特别强调从技术的视角来看,所谓的难获取,难预测,难处理,难组织四个难题。而从商业视角与大数据时代这本书的发行,开始探讨大数据在商业里面的应用,特别强调了几个很重要的特征,从随机样本到群体数据等这么一个变化。

 

这是我们经常讲的大数据的价值和意义,大体上分成几个方面。


一个通过大数据,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力保障国家安全,提升政府的治理能力以及服务民生服务社会的能力


这是我在几个场合讲的一个我对当前数据状况的一个认识,以及个人的一些见解,时间关系我不会详细的说,我觉得目前来讲,大数据开始还在炒作的阶段,至少到我们中国炒作的热潮还没有过去,所以我们相对于国外的炒作,国外开始进入我们还滞后了35年,真正的大数据应用应该体现在数据挖掘的深度


原因有三点:首先有我们对数据认识不到位的原因,还有在当今的情况下一宣传大家都很热,成为了获取资源的途径。不聊大数据就拿不到项目,这也是一个很重要的原因;

第二个是大数据投入过热,资源浪费比较明显,这方面的投入特别是数据中心的投入为典型;

第三个就是我们认为大数据的理论和技术都还处于发展的早期,所以我们定义已经有了共识,但是对它的核心观点和命题还是有很多争议的,比如说大和小,到底怎么来定义,关联和因果的辩证性,所有都讲关联不求因果的吗,所有的数字化的东西相对于客观世界而言也仅仅是一个抽样而已,不管是它的时间密度,空间密度到底有多大。第二是不是有通用的技术体系也不太敏感,从我们做计算领域研究的人来讲,总是希望能够为数据的处理方式提供一种手段。数据科学的理论基础还没有,比如说传统的统计方法,他有一个数据统计的基础在本,我们是不是就用统计,用深度学习,还有没有其他更好的理论上的突破,这个应用了相对超前理论和技术的发展,这样使得很多数据分析的结论基本上缺少因果,缺少理论知识,都是用靠关联关系建立起来的。有时候这个使用还是需要适当审慎的。最后一个大数据这个现象可能会长期的存在,对我们计算能力的挑战也是永恒的。


我顺便举两个历史上大人物说过的话,这是过高的估计了当时的计算。


一个是IBM当时的首席认为世界上是由几台计算机就够了,这个大家经常当成他的笑话来说,比尔盖茨也说640K的内存就差不多了,我想数据的增长会远远的超出我们处理能力的增长,所以我们很多的数据是做不到的。比如说2016年美国存储软件供应商发布的,刚才我看有人给我发一个他们做的冷数据存储,冷数据你还处理过,但有的数据你碰都没碰把它存储起来,这个对我们的挑战也是很大的。我们把一个地球搞清楚,把科学搞清楚,很多数据我估计真的到宇宙发生变化的时候也未必能够完全处理清楚。

 

第二个数据带来的挑战,我是把它分成两大类,一类下面这类有大数据的管理,主要指的计算机的技术,讲计算机类的技术,第二是大数据的分析方法,怎么样有理论方法去分析它,讲这两个。大体上有这么几个东西。管理上一个是数据库管理系统,面临一系列的挑战,我们传统的关系型关系库追求数据的一致,系统的高性能。没有预先定义的模式使得一致性难以支持,高性能也难以实现。数据库传统发展的理念也开始完全由一个通用的数据库开始追求领域通用,这是一部分。

 

这是数据的管理本身,那么数据的处理,怎么处理,由于单台计算设备不管性能有多高,它也不可能把数据处理完,所以说并行处理就成为不二的选择,因为数据量太大了。要并行处理就面临不同数据的需求,比如说批处理,流处理,图处理,当然一系列的东西大家都在尝试,也可能不存在通用的数据处理方法,或者数据处理平台能够适应所有类型的数据,是不是能够做到,现在目前来看也没有。


一种可能的途径,比如说能不能通过软件的定义的方式,我们能够把各种能力集中到一起,然后在上面透过不同的数据处理的需求,定义出不同的平台,也就是说我要实现这种平台把它柔和到一起的这种可定制性,可剪裁性能不能做到。还有云计算中心,现在越来越多的大数据依托于云计算中心。

 

第二部分大数据的分析方法,可能和数学分析方法更紧密的相关,怎么能够把我们理论方法体系建立起来,在不同领域进行应用。


我们大数据分析面临着一对挑战:

一个是分析对象的改变,过去是预处理后数据我们现在是原始数据,以前是样本数据,现在是全数据,以前是单源单模态数据,现在是多源多模态数据。就是分析对象发生了变化;

第二是分析的需求发生变化,我们需要更加准确的高精度分析,还有复杂关联的深层特征,还有大规模的复杂关联;

第三个变化分析模型能力的变化,我们需要追求从表达力受限的低维数据,到高信息量的高维数据,还有弱表达力的简单模型到强表达力的复杂模型,目前来看,我们很多的大数据分析方法都主要是可视化的展现,统计分析,机器学习的技术;

再一个大数据可能在这种情况下,计算机领域也探讨了很多,现在的以通用性考虑为主的IT体系很难满足大数据的需求,有必要考虑对整个IT架构进行革命性的重构。


◆ ◆ 

应用大数据


第三应用大数据有一些成功的案例我就不细说了,我做了一个分类,一类是互联网类的,这主要是指公共平台的,物联网类主要是有助的,做的各种传感器,组织业务是指每一个企业机构他们自己内部的以结构化数据为核心的融合的各种各样的组织业务的数据。还有一个科学实验的数据,大体分成这样几个。大家可以看到这几类数据都有很多成功的案例,在这我也不细讲了。

 

大数据应用,大家基本上认为有三个层次。


一个首先第一个层次只是关注到底当前发生了什么,把发展的态势曲线给你描述出来,呈现发展的历程;

第二是预测,能够在当前分析的基础之上,预测它未来可能会发生什么,呈现事物发展的这么一个趋势。比如说流感的预测,奥斯卡的预测大概都属于这类;

第三类就是所谓的指导性,指导性的就当前的态势,如果你做一个动作,会产生什么后果,这就便于当前的态势要做出决策,不仅是预测未来怎么样,而是做一个动作以后,做一个决策以后,会不会影响未来的结果。

 

所以从当前来看我以为当前的大数据应用呈现这么几个特点:

一个从应用层次上讲,应该说描述性,预测性的应用还是比较多的,真正的指导性的应用偏少;

第二从数据源的角度,基于单一数据源的数据偏多,基于多态数据源偏少,有什么数据整什么数据,包括今天发布了很多题目,数据摆在这你找去,根据我的应用需求,我把各种数据柔到一块这种应用也偏少,有时候前几年看了很多竞赛题目都不错,真正呈现大数据分析的非常让你眼睛一亮的这种特征的东西还是偏少,他没有应用需求。


怎么根据我的要求找这种数据,这种应用偏少,当然对数据研究缺少数据源也是很重要的理论。从需求导向,也是根据我到底有什么问题,在问题里面我想解决什么问题,我提出解决方案,这样的应用这种构建模型的应用也偏少,因此从这个意义上讲,我以为大数据应用还仅仅在于初级阶段,这也就是我刚才我讲的,我们从现在开始,也许我们正在进入信息化的第三拨浪潮,这个阶段会持续多少年,我不知道,但我乐观的估计,大胆的揣测一下我相信应该有十几,二十年,这也有一个依据,这个依据我在报告的时候也会讲一个东西,经济学上有一个传播理论,每一个传播大概是50年左右,包括早期的蒸汽机引领了50年,汽车也引领了50年,我们真正的信息领域引领这50年是从上个世纪50年代,以微电子网络才开始,所以信息技术已经发展了几十年了,真正在经济里面占据主要的驱动力,也就从90年代开始,大家算算90年加50,我们可以到2014年所以在未来的20多年大体上还是IT的天下。

 

◆ ◆ 

数据和智能


最后讲讲数据和智能,我们谈的最多的是数据驱动的智能时代正在到来,我们来回顾一下人工智能,人工智能这个词早期有非常明确的定义,他有它的做法,人工智能到现在为止也正在接受第三个高潮,早期的人工智能都是硬编码,所谓的智能都是程序,就是高级程序设计,通过高级的编成方法,后来长期的发展还是走的基于规则的智能,实际上就是基于逻辑的,构建一个规则库,构建一个事实库,加上逻辑推理,当时人工智能里面也很长时间受到批评,认为人工智能没有产生什么实际的效果,实际上有一批人工智能还是不错的,就是专家系统,专家系统真正解决了很多当时存在的问题。

 

我觉得现在当前我们正在走的这拨人工智能,它和过去的做法是不一样的,这是数据驱动的智能,它是利用机器学习,统计分析的方法从数据中自己向上发现规律,前期先构建规则,规则驱动它不太一样,走的这样一个途径,今年最热的就是阿尔法狗,在最难的棋内战胜了人类,当时网上炒的很多很多,很多专家也没出来说话,所以如果我说这个事情对于人类的威胁,我牙根就不认为它有什么威胁,他永远是为做事的,大家想想过去每次技术进步,就把我们人类的劳动减少多少,机械把我们的体力劳动减少多少,不过就是计算把我们的智力劳动,很多烦琐的劳动把它减少了,他离人工智能还远的很。

 

最后谈到一些若干概念,当前关于智能或者叫做人工智能,有很多提法,人工智能是最早的,一直在谈,我一直认为人工智能是有它当初严格的定义的,过去人工智能做的东西,现在我们写的人工智能技术,前沿技术我真的不认为所谓人工智能前沿技术是什么,有人曾经用过机器智能,这个走的路径应该说是一种结合,但更多的还是基于规则的多一点。


现在也有人称之为数据智能,我们叫做计算智能,李老师也谈到了,是有一个狭义的定义的,神经网演化计算,曾经用过的词,我们为什么用这个东西呢,我个人还是觉得数据驱动的智能,最终呈现智能的方式,还是算出来的。实际上本质上是把人的智能的问题,把它转化成计算的问题,这个计算的问题要么是逻辑推理算的,有一个规则去驱动的,要么是通过数据处理的方式从数据里面弄的实际上它本身还不算是智能,所以我们为什么想选择智能,我觉得这也挺好,我觉得站在计算领域的角度总希望用这个角度来说话,我讲大数据的时候我曾经说过,我说大数据能够出现是因为计算智能要解决它还得靠计算智能,甚至你说你可能有一个模型的方法出来能够用量级的计算,但不管有多大的量级,没有计算机,你人靠手算是永远算不出来的,所以还得靠工具克服,因此还是计算问题,我们更倾向于把它叫做计算所产生的智能,当然是基于数据所产生的智能。

 

第二个问题是机器计算机真的能拥有人的智能吗?


在座的大部分都知道,它不可能,现在又有一个说法,类人智能和类脑智能,我们现在国家在搞脑计划,有内脑计算,我们现在的机器是没有智能的,它是把人看成一个黑客,互联网上提一个问题都有,这个智能是像人一样,感知相对容易,认知且难且难,所以我觉得内脑智能应该是什么,我们真的把人的科学上的人脑的科学上的东西搞清楚了,然后模拟这个东西做一套东西,我觉得这叫内脑智能,给你一个行为,好像他能解决问题,只不过是靠计算机强大的计算能力,把一个所谓的这种问题变成了一个数据处理的问题,计算的问题而已。所以我觉得类人智能发展大体分成三个层次,第一个是传统的人工智能走的路,一个软件加上一个知识库,在上面做推理,这是一种。第二种如果说我们能够形成一个自演化的知识库,要靠数据的方式解决,我从数据里面能够不能不断的凝练一些东西出来,知识库能够自己去增长能不能做到这一点,我想如果能够做到这个,就能够形成第二层次的智能,这个东西要从我们数据汇集里面得到想要的结果。

 

我想第三个层次,能不能自演化的软件,加上自演化的过程,大家知道我们现在所有的软件,一旦写好以后,编译结束以后是改不了的,自演化的软件能够机器自己改代码可能吗?现在肯定是不可能的,但我们也尝试,比如说用数据的方法来改它有大量的软件片断存在,我能不能在某种特定的环境之下,解决软件的一些行为的改变,这是一个梦,这个梦是计算机科学家长期的梦,过去软件智能化就是想解决这个问题,但实际上没有做成,那是走的规则方式未来这个如果能够解决,我觉得类脑智能就更像,机器能够改代码,现在我们组织一个团队想尝试这个事情。


机器自己能够改代码,我想在我有生之年看不到了,从我本意来讲也不希望这个情况出现。如果真的这个情况出现了,世界就大乱了,好,谢谢。



----------

启动仪式上,各行业大咖发布了来自各创新企业与科研机构的11道高质量大数据与人工智能创新赛题,涉及智能电网、搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、LBS营销、气候预测等多个热门方向,将为图像处理、自然语言处理、用户画像、推荐系统等领域提供大量来自真实场景的问题与数据。

 原文发布时间为:2016-09-26

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
24天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
76 1
|
28天前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
52 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
ly~
|
28天前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
67 2
ly~
|
1月前
|
供应链 搜索推荐 大数据
大数据在零售业中的应用
在零售业中,大数据通过分析顾客的购买记录、在线浏览习惯等数据,帮助零售商理解顾客行为并提供个性化服务。例如,分析网站点击路径以了解顾客兴趣,并利用历史购买数据开发智能推荐系统,提升销售和顾客满意度。此外,大数据还能优化库存管理,通过分析销售数据和市场需求,更准确地预测需求,减少库存积压和缺货现象,提高资金流动性。
ly~
206 2
ly~
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据在智慧金融中的应用
在智能算法交易中,深度学习揭示价格波动的复杂动力学,强化学习依据市场反馈优化策略,助力投资者获取阿尔法收益。智能监管合规利用自然语言处理精准解读法规,实时追踪监管变化,确保机构紧跟政策。大数据分析监控交易,预警潜在违规行为,变被动防御为主动预防。数智化营销通过多维度数据分析,构建细致客户画像,提供个性化产品推荐。智慧客服借助 AI 技术提升服务质量,增强客户满意度。
ly~
94 2
ly~
|
1月前
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
273 2
|
2月前
|
存储 数据可视化 大数据
大数据管理与应用
大数据管理与应用是一门融合数学、统计学和计算机科学的新兴专业,涵盖数据采集、存储、处理、分析及应用,旨在帮助企业高效决策和提升竞争力。核心课程包括数据库原理、数据挖掘、大数据分析技术等,覆盖数据处理全流程。毕业生可从事数据分析、大数据开发、数据管理等岗位,广泛应用于企业、金融及互联网领域。随着数字化转型加速,该专业需求旺盛,前景广阔。
116 5
|
2月前
|
存储 搜索推荐 大数据
大数据在医疗领域的应用
大数据在医疗领域有广泛应用,包括电子病历的数字化管理和共享,提升医疗服务效率与协同性;通过数据分析支持医疗决策,制定个性化治疗方案;预测疾病风险并提供预防措施;在精准医疗中深度分析患者基因组信息,实现高效治疗;在药物研发中,加速疗效和副作用发现,提高临床试验效率。此外,在金融领域,大数据的“4V”特性助力业务决策前瞻性,被广泛应用于银行、证券和保险的风险评估、市场分析及个性化服务中,提升运营效率和客户满意度。
76 6
|
2月前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能与大数据的融合应用##
随着科技的快速发展,人工智能(AI)和大数据技术已经深刻地改变了我们的生活。本文将探讨人工智能与大数据的基本概念、发展历程及其在多个领域的融合应用。同时,还将讨论这些技术所带来的优势与挑战,并展望未来的发展趋势。希望通过这篇文章,读者能够对人工智能与大数据有更深入的理解,并思考其对未来社会的影响。 ##