大数据教程之大数据的影响一

简介:

  好程序员大数据培训分享大数据的影响一1、大数据对科学研究的影响。
  著名数据库专家吉姆·格雷(Jim Gray)博士观察并总结认为,人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式,具体如下:
  (1)第一种范式:实验
  在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1 900年之久的错误结论。
  (2)第二种范式:理论
  随着科学的进步,人类开始采用各种数学、几何、物理等理论,构建问题模型和解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展与进步。
  (3)第三种范式:计算
  随着1946年人类历史上第一台计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。通过设计算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展
  (4)第四种范式:数据
  随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时代。在大数据环境下,一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据将成为科学工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。
  2 大数据对思维方式的影响
  维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。
  (1)全样而非抽样
  过去,由于数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析,来推断全集数据的总体特征。通常,样本数据规模要比全集数据小很多,因此,可以在可控的代价内实现数据分析的目的。现在,我们已经迎来大数据时代,大数据技术的核心就是海量数据的存储和处理,分布式文件系统和分布式数据库技术,提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力。因此,有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得到分析结果,速度之快,超乎我们的想象。就像前面我们已经提到过的,谷歌公司的Dremel可以在2~3秒内完成PB级别数据的查询。
  (2)效率而非精确
  过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,因为,抽样分析只是针对部分样本的分析,其分析结果被应用到全集数据以后,误差会被放大,这就意味着,抽样分析的微小误差,被放大到全集数据以后,可能会变成一个很大的误差。因此,为了保证误差被放大到全集数据时仍然处于可以接受的范围,就必要确保抽样分析结果的精确性。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。现在,大数据时代采用全样分析而不是抽样分析,全样分析结果就不存在误差被放大的问题,因此,追求高精确性已经不是其首要目标;相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心。
  (3)相关而非因果
  过去,数据分析的目的,一方面是解释事物背后的发展机理,比如,一个大型超市在某个地区的连锁店在某个时期内净利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出发生问题的原因;另一方面是用于预测未来可能发生的事件,比如,通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量,因为,人们关注雾霾的一个直接结果是,大家会想到购买一个口罩来保护自己的身体健康。不管是哪个目的,其实都反映了一种“因果关系”。但是,在大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”。比如,我们去淘宝网购物时,当我们购买了一个汽车防盗锁以后,淘宝网还会自动提示你,与你购买相同物品的其他客户还购买了汽车坐垫,也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关性,但是,并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
机器学习/深度学习 人工智能 算法
实用!50个大厂、987页大数据、算法项目落地经验教程合集
大数据、算法项目在任何大厂无论是面试还是工作运用都是非常广泛的,我们精选了50个百度、腾讯、阿里等大厂的大数据、算法落地经验甩给大家,千万不要做收藏党哦,空闲时间记得随时看看! 如果你没有大厂项目经验,对大厂算法、大数据的项目运用不了解建议你看看!
|
10月前
|
分布式计算 Hadoop 大数据
大数据 | Hadoop HA高可用搭建保姆级教程(大二学长的万字笔记)(下)
大数据 | Hadoop HA高可用搭建保姆级教程(大二学长的万字笔记)(下)
124 0
|
10月前
|
分布式计算 运维 Hadoop
大数据 | Hadoop HA高可用搭建保姆级教程(大二学长的万字笔记)(上)
大数据 | Hadoop HA高可用搭建保姆级教程(大二学长的万字笔记)(上)
274 0
|
SQL canal 弹性计算
实践教程之如何将PolarDB-X与大数据等系统互通
PolarDB-X 为了方便用户体验,提供了免费的实验环境,您可以在实验环境里体验 PolarDB-X 的安装部署和各种内核特性。除了免费的实验,PolarDB-X 也提供免费的视频课程,手把手教你玩转 PolarDB-X 分布式数据库。
实践教程之如何将PolarDB-X与大数据等系统互通
|
机器学习/深度学习 分布式计算 大数据
图解大数据技术:从入门到精通系列教程
本篇内容是ShowMeAI组织的「图解大数据处理与开发」系列教程入口,本教程以大数据技术为根基,给大家讲解大数据开发与数据处理分析的相关知识与技能,并配以相关的实战案例帮助大家学习理解。
210 0
图解大数据技术:从入门到精通系列教程
|
移动开发 前端开发 大数据
|
机器学习/深度学习 存储 自然语言处理