大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 第二节 大数据1.大数据的概念 麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。 维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。2.大数据的特点 大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性)2.大数据的特点 规模大: 数据规模大是大数据的基本属性。

第二节 大数据
1.大数据的概念
麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。
2.大数据的特点
大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性)
2.大数据的特点
规模大: 数据规模大是大数据的基本属性。大数据已经从TB级别跃升到PB级别
种类多: 大数据来自多种数据源,数据种类和格式日渐丰富,如网络日志、视频、图片、地理位置信息等
速度快: 数据处理速度快是大数据区别于传统数据挖掘的显著特征。
价值密度低: 数据价值密度的高低与数据总量成反比。
真实性: 数据真实性是指数据的质量和保真性

根据数据是否具有一定的模式、结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据
其中,非结构化数据越来越成为数据的主要部分
结构化数据: 指遵循一个标准的模式和结构,以二维表的形式存储在关系型数据库里的行数据。
半结构化数据:是指有一定的结构性,但本质上不具有关系性介于完全结构化数据和完全非结构化数据之间的数据。
非结构化数据:没有固定的数据结构,通常用于保存不同类型的文件,如文本文档、图片、音频和视频。
1.数据的采集
数据采集是指从真实世界中获得原始数据的过程。它是大数据分析的入口,所以是相当重要的一个起始环节。没有高质量的数据,就没有高质量的数据挖掘结果。要尽可能收集异源,甚至是异构的数据,还可与历史数据对照多角度验证数据的全面性和可信性。因此,大数据采集不是采样,而是要获取全部的数据.
2.数据预处理
(1)数据集成:数据集成是将多个数据源中的数据进行合并处理。
(2) 数据清洗:数据清洗用于提高数据的质量,即使数据具有一致性、精确性、完整性、时效性和实体同一性。数据清洗的方法有缺失值填充平滑噪声、识别和去除离群点、不一致检测与修复、实体识别与真值发现等
(3) 数据归约: 数据归约指在减小数据存储空间的同时,尽可能保证数据的完整性
(4) 数据变换:数据变换是采用数学变换方法将多维数据压缩成较少维数的数据
3.数据处理与分析
大数据的复杂性使得其难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后进行度量与处理。
大数据分析注重分析数据的相关关系,而不是因果关系
4.数据可视化与应用
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互
考点9 大数据的应用
1.大数据在电子政务的应用:依托大数据的发展,节约政府投入,及时有效地进行社会监管和治理
2.大数据在医疗行业的应用: 医疗业务活动、健康体检、公共卫生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据
3.大数据在能源行业的应用: 能源行业企业对大数据产品和解决方案的需求
4.大数据在零售行业的应用: 对顾客群体细分
5.大数据在气象行业的应用: 气象卫星、天气雷达
第三节物联网
1.物联网的概念
物联网是新一代信息技术的重要组成部分,英文名称是"The Internet of Things”。顾名思义,物联网就是物物相连的互联网”,其核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络。物联网基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通,具有智能、先进、互联三个重要特征。物联网是通过智能感知、识别技术与普适计算、泛在网络的融合应用,被称为继计算机、互联网之后世界信息产业发展的第三次浪潮
2.物联网的特征
(1) 全面感知: 物联网上部署了海量的多种类型传感器,每一个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息格式不同
(2)可靠传输:物联网技术的重要基础和核心是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去
(3) 智能处理: !物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。
考点11 物联网的技术构架和关键技术
1.物联网的技术架构
物联网的技术架构可分为三层,分别是感知层、网络层和应用层。
感知层: 由各种传感器以及传感器网关构成
网络层: 各种私有网络、互联网、有线和无线通信网、网络管理系统和云计算平台等组成
应用层: 物联网和用户的接口,实现物联网的智能应用
2.物联网的关键技术
(1) 传感器技术
(2) 射频识别技术(RFID)
(3)入式系统技术
(4) 网络通信技术
考点12 物联网的应用模式和应用领域
1.物联网的应用模式
(1) 对象的智能标签
对象的智能标签是指通过二维码、RFID等技术来标识特定通过的对象。
(2) 环境监控和对象跟踪
利用多种类型的传感器和分布广泛的传感器网络,以实现获取某个对象的实时状态和监控特定对象的行为。
(3)对象的智能控制
利用获取的数据进行决策,以改变对象的行为并进行控制和反馈。
2.物联网的应用领域
(1)智慧物流
(2) 智能交通
(3)智能安防
(4)智慧能源环保
(5) 智能医疗
(6) 智慧建筑
(7) 智能制造
(8)智能家居
(9) 智能零售
(10) 智慧农业
第四节人工智能
考点13 人工智能的概述
1.人工智能的概念
人工智能 (Artificial Intelligence,AI) 是研究怎样让计算机做一些通常认为需要智能才能做的事情,又称机器智能主要研究智能机器所执行的通常与人类智能有关的功能,如判断推理、证明、识别、感知、理解、设计、思考、规划、学习和问题求解等思维活动。人工智能是一门研究如何构造智能系统或智能机器 (智能计算机) ,使其能模拟、延伸、扩展人类智能的学科
2.人工智能的发展历程
人工智能的发展大致经历了三个重要的阶段。
(1) 人工智能第一阶段:科学家制作出具有初步智能的机踞(证明应用题的机STUDENT)
(2) 人工智能第二阶段: 模拟人类专家解决某个领域问题的计算机程序系统 (专家系统)
(3) 人工智能第三阶段: 人工智能在人类社会的各个领域得到广泛应用。
考点14 人工智能研究的基本内容
1.知识表示
人工智能学科研究的主要内容包括: 知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面。
人工智能的研究目的是要建立一个系统,能够模拟人类智能行为。知识是一切智能行为的基础,因此,建立这样的系统首先要研究知识表示方法,研究怎样才能把知识存储到计算机中,进而求解现实问题
2.机器感知
机器感知是使机器 (计算机) 具有类似于人的感知能力,其中以机器听觉与机器视觉为主。机器听觉是让机器能识别并理解语言、声响等:机器视觉是让机器能够识别并理解文字图像、景物等。机器感知是机器获取外部信息的基本途径,人工智能已经形成了两个专门的研究领域,即模式识别与自然语言理解。
3.机器思维
机器思维是指对通过感知得来的外部信息及机器内部的各种工作信息进行有目的的处理。正如人的智能来自大脑的思维活动一样,机器的智能主要是通过机器思维实现的。因此,机器思维是人工智能研究中最重要、最关键的部分。它使机器能模拟人类的思维活动,包括逻辑思维和形象思维.
4.机器学习
机器学习就是研究如何使计算机具有类似人类的学习能力,使它能通过学习自动获取知识。机器学习是一个难度很大的研究领域,它与脑科学、计算机视觉、神经心理学、计算机听觉等有密切联系,机器学习的研究依赖于这些学科的共同发展经过近些年的研究,尽管机器学习已经取得了很大的进展,提出了一些学习方法,特别是深度学习的研究取得了长足的进步
5.机器行为
机器行为主要是指计算机的表达能力,即“听” “说” “写” “画” 等能力。而在智能机器人的研究领域,还应具有人的四肢功能即走路、取物、操作等能力。
考点15 人工智能的应用领域
人工智能的应用领域主要包括: (1)问题求解;(2) 逻辑推理与定理证明: (3) 自然语言处理; (4) 自动程序设计; (5) 智能信息检索; (6) 专家系统; (7) 机器学习(8) 人工神经网络; (9) 机器人学; (10) 指纹识别;(11) 人脸识别; (12) 掌纹识别; (13) 模式识别:(14) 机器视觉;(15)知识发现和数据挖掘;(16) 智能控制;(17) 博弈
考点16 人工智能的发展趋势
人工智能的发展可以分为三个阶段——计算智能、感知智能、认知智能。
第一个发展阶段是机器能够像人类一样进行计算,诸如神经网络和遗传算法的出现,使得机器能够更高效、快速处理海量的数据。
第二个发展阶段就是感知智能,让机器能听懂我们的语言看懂世界万物。语音和视觉识别就属于这一范畴
第三个发展阶段是认知智能,在这一阶段,机器将能够主动思考并采取行动,比如无人驾驶汽车、智能机器人,实现全面辅助甚至替代人类工作。
第五节 区块链
1.区块的概念
区块”是一种记录交易的数据结构。每个区块由区块头和区块主体组成,区块主体负责记录前一段时间内的所有交易信息,区块链的大部分功能都由区块头实现。区块头中包括多重数据,如父区块哈希值、版本、时间戳、难度、Nonce.Merkle根。父区块哈希值是让每个区块首尾相连的关键信息以保证数据难以篡改。区块头中还有时间戳的值,记录该区块产生的时间,能够精确到秒,使得每笔数据可以被追溯.
2.区块链的概念
区块链是一种由多方共同维护,使用密码学保证传输和访问安全,能够实现数据一致存储、难以篡改、防止抵赖的记账技术,也称为分布式账本技术。
区块链是一个链式数据结构存储的分布式账本(数据库)可以在弱信任环境下,帮助用户分布式地建立一套信任机制保障用户业务数据难以被非法篡改、公开透明、可溯源。
3.区块链的类型
(1)公有区块链
(2) 联盟(行业)区块链
(3)私有区块链
4.区块链的特征
(1)去中心化: 区块链技术不依赖额外的第三方管理机构或硬件设施,没有中心管制。 (2)开放性: 区块链的数据对所有人开放,任何人都可以通过公开的接口查询区块链数据和开发相关应用
(3)独立性:所有节点能够在系统内自动、安全地进行验证、交换数据,不需要任何人为干预.
(4)安全性: 除非能够同时控制住系统中超过51%的节点否则单个节点上对数据库的修改是无效的
(5)匿名性:各区块节点的身份信息不需要公开或验证信息传递可以匿名进行
(6)去信任: 整个系统的运作是公开透明的,在系统的规则和时间范围内,节点之间无法欺骗彼此
考点18 区块链的核心技术
1.分布式账本:分布式账本指的是交易记账由分布在不同地方的多个节点共同完成,而且每一个节点记录的是完整的账目,因此它们都可以参与监督交易的合法性。
2.非对称加密:存储在区块链上的交易信息是公开的,但是账户身份信息是高度加密的。
3.共识机制:共识机制就是使所有的记账节点之间达成共识,以及认定一个记录的有效性,这既是认定的手段,也是防止篡改的手段。只有在控制了全网超过51%的记账节点的情况下,才有可能伪造出一条不存在的记录
4.智能合约: 智能合约基于这些可信的、不可改的数据自动化地执行一些预先定义好的规则和条款
考点19 区块链的发展趋势
1.区块链的应用领域
(1)金融领域:国际汇兑、信用证、股权登记和证券交易等
(2)物联网和物流领域:可以降低物流成本,追溯物品的生和运送过程,并且可以提高供应链管理的效率
(3)公共服务领域: 公共管理、能源、交通等领域
(4)数字版权领域: 可以对作品进行鉴权,证明文字、视频音频等作品的存在,保证权属的真实性、唯一性
(5)保险领域: 通过智能合约的应用,既无须投保人申请文无须保险公司批准,只要触发理赔条件,即可实现保单自动理
(6)公益领域: 公益流程中的相关信息,如捐赠项目、募集朝细、资金流向、受助人反馈等,均可以存放于区块链上,并且有条件地进行公示,方便社会监督
2.区块链的发展趋势
展望未来,区块链的发展趋势包括: 一是区块链是价值网络的基础,逐渐成为未来互联网不可或缺的一部分;二是随着应用场景日益丰富,应用将推动着区块链技术不断完善,区块链与云的结合日趋紧密;三是区块链虽然在数学上具有完备性,但是也存在安全问题,未来还需要从工程和管理等层面加强安全,也需要统一标准提升可信程度;四是区块链技术未来将逐步适应监管政策要求,逐步成为监管科技的重要工具
考点20 大数据与云计算
1.大数据与云计算的区别
大数据是移动互联网和物联网背景下的应用场景,各种应用产生的巨量数据需要处理和分析,挖掘有价值的信息;云计算是一种技术解决方案,就是利用这种技术可以解决计算.存储、数据库等一系列IT基础设施的按需构建的需求,两者并不处于同一个层面
2.大数据与云计算的联系
可以这样形容这两者的关系: 没有大数据的信息积淀,云计算的计算能力再强大,也难以找到用武之地;而没有云计算的计算能力,则大数据的信息积淀再丰富,也终究只是“镜花水月”
考点21 人工智能 大数据 物联网 云计算之间的联系
这个整体可以分为四层: 采集层、承载层、层。它们与四大技术的对应关系如下
(1)采集层: 物联网解决的是感知真实世界的能力
(2)承载层:云计算解决的是提供强大的能力去承载数据
(3)挖掘层: 大数据解决的是对海量的数据进行挖掘分析,把数据变成有价值的信息
(4)学习层:人工智能解决的是对数据进行学习和理解把数据变成知识和智慧

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 存储 分布式计算
一篇文章让你了解大数据
一篇文章让你了解大数据
一篇文章让你了解大数据
|
存储 机器学习/深度学习 SQL
什么是大数据?
什么是大数据?
284 0
什么是大数据?
|
大数据
大数据
大数据学习
115 0
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1303 0
|
大数据 数据挖掘
|
机器学习/深度学习 存储 人工智能