《大数据漫谈 -- DT时代》连载之 NO.1

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本文作者拖雷(陈吉平),袋鼠云CEO ,国内最早一批Oracle ACE Director,前阿里巴巴研究员,先后担任嗨淘、无线事业部、数据事业部资深总监,生活服务事业部总经理,以及阿里云事业群总裁助理。

免费开通大数据服务:https://www.aliyun.com/product/odps

本文作者拖雷(陈吉平),袋鼠云CEO ,国内最早一批Oracle ACE Director,前阿里巴巴研究员,先后担任嗨淘、无线事业部、数据事业部资深总监,生活服务事业部总经理,以及阿里云事业群总裁助理。2015年离职后,做了半年独立天使投资人,2015年底创办袋鼠云。


人类正从IT时代走向DT时代,从五年前开始,我们在云计算上面押了很多宝,才诞生了互联网金融,如果没有数据支持,互联网金融是不可想象的。


马云


老早就想写大数据的话题,因为大数据这个话题太大了,一直没有找到从哪里下手,也怕自己写不好这个话题。正如目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是我几篇文章就能说清楚的。


大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策。比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率。 这是在特定的环境,特定的时间下,对数据做一些商业化的尝试,还算不上真正的大数据。


我们再看国内大数据的领导者 -- 阿里巴巴,早在2010年就在开始谈大数据战略,同年,Maxcompute(原ODPS)开始布局,蚂蚁小贷开始创业 。2012年,阿里设立了CDO这个岗位以及成立CDO事业部,全面负责阿里集团的“数据分享平台”的大数据战略。同年,一本《大数据时代》也开始在国内外畅销,国内大数据时代拉开序幕。


2014年,马云再次提出,“人类正从IT时代走向DT时代”,人类已经从IT时代走向DT时代,IT时代是以自我控制、自我管理为主,而DT(Datatechnology)时代,它是以服务大众、激发生产力为主的技术。这两者之间看起来似乎是一种技术的差异,但实际上是思想观念层面的差异。


讲了这么多,那大数据是什么呢?我们先看看大数据不是什么。


大数据不是什么?


1
大数据≠拥有数据


很多人觉得拥有数据,特别是拥有大量的数据,这就是大数据了,这个是肯定不对的,数据量大不是大数据,比如气象数据很大,如果仅仅用于气象预测,只要计算能力跟上就行,还远远没有发挥它的价值。但是保险公司根据气象大数据,来预测自然灾害以及调整与自然灾害相关的保险费率,它就演化出其它的商业价值,形成了大数据的商业环境。所以,大数据要使用,甚至关联,交换才能产生真正价值,形成DT时代特有的大数据商业。


2
大数据 ≠报表平台,


有很多企业,建立了自己业务的报表中心,或者是大屏展示中心,就马上宣布他们已经实现了大数据,这是远远不够的。报表虽然也是大数据的一种体现,但是真正的大数据业务,不是生成报表靠人来指挥,那是披着大数据外表的报表系统而已。在大数据闭环系统中,万物都是数据产生者,也是数据使用者,他们通过自动化,智能化的闭环系统,自动学习,智能调整,从而提升整体的生产效率。


3
大数据 ≠计算平台


之前看过一个报道,说某某金融机构建立了自己的大数据系统,后来仔细一看,就是搭建了一个几百台机器的Hadoop集群而已。大数据计算平台,是大数据应用的技术基础,是大数据闭环中非常重要的一环,也是不可缺少的一环,但是,不能说有了计算平台就有了大数据。比如我买了锅,不能说我已经有了菜,从锅到菜还缺原料(数据),刀具(加工工具),厨师(数据加工)才能最终做出菜来。


4
大数据 ≠精准营销


见过很多创业公司在做大数据创业,仔细一看,人家做的是基于大数据的推荐引擎、广告定投等等。这是大数据吗?他们做的是大数据的一种应用,可以说已经是大数据的一种了。只是大数据整个生态,不能通过这一种就来表达而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。


那大数据到底是什么?


简单讲,大数据需要有大量能互相连接的的数据(不管是自己的,还是购买,交换别人的),他们在一个大数据计算平台(或者是能互通的各个数据节点上),有相同的数据标准能正确的关联(如ETL,数据标准),通过大数据相关处理技术(如算法,引擎,机器学习),形成自动化、智能化的大数据产品或者业务,进而形成大数据采集,反馈的闭环,自动智能的指导人类的活动,工业制造,社会发展等。


数据正在金融,广告,零售,物流,影视等行业,悄悄地改变我们的生活。随着手机的更大规模的普及,还是日新月异的可穿戴设备、智能家居、甚至无人驾驶汽车,都在提醒我们,以互联网(或者物联网)、云计算、大数据为代表的这场技术革命正引领人类社会加速进入农业时代、工业时代之后的一个新的发展阶段 -- 数据时代(DT时代)。


前两个时代分别以土地、资本为生产要素,而正在我们面前开启的数据时代,正如其名,数据将成为最核心的生产要素。

                       

                                                         

 数据大爆炸


在未来,数据将成为商业竞争最重要的资源,谁能更好的使用了大数据,谁将领导下一代商业潮流。所谓无数据,不智能;无智能,不商业。下一代的商业模式就是基于数据智能的全新模式,虽然才开始萌芽,虽然才几个有限的案例,但是,其巨大的潜力与力量,已经被人们认识到。


在下一代的革命中,不管是工业4.0(中国叫中国制造2025),还是物联网(甚至是一个全新的协议与标准),随着数据科学与云计算能力(甚至是基于区块链的分布式计算技术),唯独数据是所有系统的核心。万物互联,万物数据化之后,基于数据的个性化、智能化将是一次全新的革命,将超越100多年前开始的自动化生产线的工业3.0,给人类社会整体的生产力提升带来一次根本性地突破,实现从0到1的巨大变化。


正是在这个意义上,这是一场商业模式的范式革命。商业的未来、知识的未来、文明的未来,它们本质上就是人的未来。而基于数据智能的智能商业,就是这未来的起点。


一切刚刚开始。


转载袋鼠云公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
307 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
47 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
86 1
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
55 3
|
26天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
63 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
68 2

相关产品

  • 云原生大数据计算服务 MaxCompute