大数据将带来思维模式变化

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

通过大数据,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力,保障国家安全等。

所谓大数据,是信息化到一定阶段之后必然出现的一个现象,主要是由于信息技术的不断廉价化,以及互联网及其延伸所带来的无处不在的信息技术应用所带来的自然现象。基本上,大数据有四个驱动力,即摩尔定律所驱动的指数增长模式;技术低成本化驱动的万物的数字化;宽带移动泛在互联驱动的人机物广联连接;云计算模式驱动的数据大规模的汇聚。

当前,大数据开启了信息化的第三波浪潮。如果我们回顾来看,大体上能够看到两个明显的阶段划分,一个是从PC机进入市场带来的信息化的第一拨浪潮,这个浪潮差不多到上世纪90年代中期,这个时候的主要特征是单机应用为特征的数字化。过去的20年来,从上世纪90年代中期到现在,是以互联网应用为特征的网络化。现在我们正在进入新的阶段,即以数据的深度挖掘和融合应用为特征的智慧化。

那么,到底什么才是大数据呢?这个定义可以从两个角度来谈。从技术能力的视角来说,大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,同时并不是超过某个特定数量级的数据集才是大数据。

从数据内涵的视角来说,大数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高度的存储、处理和分析。

那么,大数据给我们带来什么样的挑战呢?我觉得最重要的,可能是带来思维模式的变化。通过大数据,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力,保障国家安全,提升政府的治理能力以及服务民生、服务社会的能力。

就我个人觉得,目前来讲,大数据还处在炒作的阶段,至少在我国炒作的热潮还没有过去,真正的大数据应用应该体现在数据挖掘的深度。

这是为什么呢?原因有三点:首先有我们当前对数据认识不到位的原因,还有在当今的情况下大家对大数据都很热衷,使其成为获取资源的一个途径。第二个,是大数据投入过热,资源的浪费比较明显,这方面的投入特别以数据中心的投入最为典型。第三个,就是我们认为大数据的理论和技术都还处于发展的早期,尽管对大数据的定义已经有了共识,但是对它的核心观点和命题还是有很多争议的,比如说大和小到底怎么来定义等等。

此外,对我们做计算领域研究的人来讲,总是希望能够为数据的处理方式提供一种手段,但当前数据科学的理论基础还没有,很多数据分析的结论基本上缺少因果,缺少理论知识,都是靠关联关系建立起来的。总之,大数据这个现象可能会长期存在,对我们计算能力的挑战也是永恒的。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
53 0
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
69 0
|
20天前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。对象如用户、账号、商品等,通过唯一ID记录其相关事件,如操作日志、交易记录等。这种模式下的统计任务包括无序计算(如交易次数、通话时长)和有序计算(如漏斗分析、连续交易检测)。尽管SQL在处理无序计算时表现尚可,但在有序计算中却显得力不从心,主要原因是其对跨行记录运算的支持较弱,且大表JOIN和大结果集GROUP BY的性能较差。相比之下,SPL语言通过强化离散性和有序集合的支持,能够高效地处理这类计算任务,避免了大表JOIN和复杂的GROUP BY操作,从而显著提升了计算效率。
|
1月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
39 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
28天前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。这种模式涉及对象(如用户、账户、商品等)及其相关的事件记录,通过这些事件数据可以进行各种统计分析,如漏斗分析、交易次数统计等。然而,SQL 在处理这类任务时表现不佳,特别是在有序计算方面。SPL 作为一种强化离散性和有序集合的语言,能够高效地处理这类计算,避免了大表 JOIN 和大结果集 GROUP BY 的性能瓶颈。通过按 ID 排序和分步计算,SPL 能够显著提高计算效率,并支持实时数据处理。
|
1月前
|
分布式计算 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
43 5
|
1月前
|
资源调度 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
40 2
|
1月前
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
41 2
|
1月前
|
存储 消息中间件 druid
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
80 1
|
1月前
|
资源调度 分布式计算 大数据
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
92 0