大数据初学者入门指南,及需要知道的51个大数据术语

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:   数据对企业和组织非常重要-比我们意识到的还要重要。它可以影响公司的行动计划,并可以用来预测增长和成功。  什么是大数据?  大数据是从各种来源收集和分析信息。它有两种类型:结构化和非结构化。结构化数据包括SQL数据库,而非结构化数据包括文档文件和来自传感器的原始流数据。  业界从三个主要方面描述大数据:  数量:企业可以有多个数据来源。当今的技术使企业能够存储比以往更多的数据。速度:实际上,数据以惊人的速度-实时或尽可能接近实时。速度还描述了如何快速处理和分析数据。种类:除了进入系统的数据量和速度外,它还具有不同的格式。从商业销售记录到数据库信息,全都是大数据。  公司

  数据对企业和组织非常重要-比我们意识到的还要重要。它可以影响公司的行动计划,并可以用来预测增长和成功。

  什么是大数据?

  大数据是从各种来源收集和分析信息。它有两种类型:结构化和非结构化。结构化数据包括SQL数据库,而非结构化数据包括文档文件和来自传感器的原始流数据。

  业界从三个主要方面描述大数据:

  数量:企业可以有多个数据来源。当今的技术使企业能够存储比以往更多的数据。速度:实际上,数据以惊人的速度-实时或尽可能接近实时。速度还描述了如何快速处理和分析数据。种类:除了进入系统的数据量和速度外,它还具有不同的格式。从商业销售记录到数据库信息,全都是大数据。

  公司发现大数据是其战略不可或缺的一部分,因为它可以降低成本和时间,开发新产品,优化产品并帮助您做出明智的决策。它使企业能够查明问题原因和其他行为,例如客户的购买习惯和风险组合。

  谁在使用大数据?

  大数据具有巨大的影响力,预计到2022年,将为每个人创建每秒1.7兆字节的数据。那大约是44兆字节,即44万亿千兆字节。

  目前,只有0.5%的可用数据正在处理和分析。当今可以生成和提供数据的技术量空前高,以致于处理和解释数据所需的技术尚不可用。

  您会感到惊讶的是,大数据对许多行业都有益。以下是其中的一些以及大数据如何改变了他们的系统。

  1.教育

  大数据可以帮助教育工作者更有效地传递信息并进行学生评估。

  通过设置正确的指标,大数据可以帮助教师监控每个学生的学习曲线。课程和学校系统也可以根据提供的数据进行调整。

  2.健康

  卫生行业依赖准确性,治疗和药物治疗的时机和效率至关重要。

  基于模式的疾病的早期发现可以帮助预防疾病的发生。大数据工具中分析的患者记录和处方信息可以总体上改善医疗保健。

  3.银行业务

  这是一个极有可能发生欺诈和安全问题的行业。大数据为银行业提供了见解,将使整个行业获得客户满意。

  除此之外,它还可以用于快速检测客户帐户中的异常行为并立即采取措施。

  4.科学与环境

  在外层空间发现人类生命的其他迹象是一项持续的追求。来自月球上机器的信息被认为是大数据,NASA和其他探索机构使用该信息来计算未来的行动。

  也可以使用大数据来预测地球上的自然灾害。这样可以做一些准备工作,以防止造成巨大的人员伤亡和对人民的危险。

  5.零售与制造业

  随着市场竞争的激烈,制造商正在使用大数据来最大化其资源以进行充分生产。同时,他们旨在最大程度地减少浪费时间和资金。从长远来看,这是他们将从中受益的一项商业举措。

  与此相应,零售商需要大数据来明智地,战略性地销售产品。他们可以分析目标市场的购物行为并建立客户关系。

  大数据如何使企业受益?

  大数据正在改变业务模型中的当前规范。它影响决策并推动组织的变化。公司现在正在调整其策略,使其以数据和绩效为导向。他们不用一时兴起做出决定,而是用数字和数字来支持它。

  在与各个行业打交道时,大数据也提供了新的视角。它提供了许多方面有用的深入信息。它已经具备了如此强大的能力,并且将来只会变得更加强大。最终,企业将在数据云存储,更快的处理器,数据平台,并行处理和云计算方面进行更多投资。

  每天要收集数十亿字节的数据,因此了解大数据的复杂性比以往任何时候都更为重要。为了使这一领域更加清晰明了,我们从最近的大数据指南中创建了一份汇编清单,其中列出了我们认为最重要的相关术语和定义,您需要了解这些术语和定义。

  A

  算法:赋予AI,神经网络或其他机器的一组规则,以帮助其自行学习;分类,聚类,推荐和回归是四种最受欢迎的类型。

  Apache Flink:一个开源流数据处理框架。它用Java和Scala编写,用作分布式流数据流引擎。

  Apache Hadoop:一种开源工具,可通过使用MapReduce在计算机之间处理和存储大型分布式数据集。

  Apache Kafka:一种分布式流平台,通过提高吞吐量,内置分区,复制,延迟和可靠性技术教程来改进传统消息代理。

  Apache NiFi:开源Java服务器,它以可扩展,可插入,开放的方式实现系统之间数据流的自动化。NiFi是由NSA开源的。

  Apache Spark:一种开源大数据处理引擎,可在Apache Hadoop,Mesos或云之上运行。

  人工智能:机器做出决策并执行模拟人类智力和行为的任务的能力。

  B

  大数据:大量数据的常用术语。要成为大数据,数据必须以高速度,大变化或大容量进入系统。

  Blob存储:一种Azure服务,将非结构化数据作为Blob或毕业证存储在云中。

  商业智能:可视化和分析商业数据,以制定可行且明智的决策的过程。

  C

  群集:共享特定特征的数据子集。也可以指协同工作以解决单个问题的多台机器。

  COAP:受约束的应用程序协议是用于有限资源设备的Internet应用程序协议,可以将其转换为HTTP(如果需要)。

  D

  数据工程:数据的收集,存储和处理,以便数据科学家可以查询。

  数据流管理:提取原始设备数据的专用过程,同时管理成千上万个生产者和消费者的流。然后执行基本数据充实,流分析,聚合,拆分,模式转换,格式转换和其他初始步骤,以准备数据以进行进一步的业务处理。

  数据治理:管理数据湖内数据的可用性,可用性,完整性和安全性的过程。

  数据集成:合并来自不同来源的数据并为用户提供统一视图的过程。

  数据湖:以原始格式保存原始数据的存储库。

  数据挖掘:一种通过检查和分析大型数据库来生成新信息的实践。

  数据可操作化:将变量严格定义为可测量因素的过程。

  数据准备:主要用于分析的将数据收集,清理和合并为一个文件或数据表的过程。

  数据处理:通过机器检索,转换,分析或分类信息的过程。

  数据科学:一个领域,探索可重复的过程和方法,以从数据中获取见解。

  数据沼泽:如果没有适当的管理,数据湖将变成什么样。

  数据验证:检查数据集以确保所有数据在处理之前都是干净,正确和有用的行为。

  数据仓库:来自各种来源的大量数据,用于帮助公司做出明智的决策。

  设备层:传感器,执行器,智能手机,网关和工业设备的整个范围,它们发送与其环境和性能特征相对应的数据流。

  G

  GPU加速的数据库:提取流数据所需的数据库。

  图分析:一种组织和可视化集合中不同数据点之间关系的方法。

  H

  Hadoop:一种用于处理和存储大数据的编程框架,尤其是在分布式计算环境中。

  I

  Ingestion摄取:从许多不同来源获取流数据。

  M

  MapReduce:一种数据处理模型,该模型在Map阶段对数据进行过滤和排序,然后对该数据执行功能,并在Reduce阶段返回输出。

  Munging:手动将数据从一种原始格式转换或映射为另一种格式以便更方便使用的过程。

  N

  正态分布:表示大量随机变量的概率的通用图,其中,随着数据集的增加,这些变量趋于正态。也称为高斯分布或钟形曲线。

  规范化:将数据组织到表中的过程,以便使用数据库的结果始终是明确的和预期的。

  P

  解析:将数据(例如字符串)划分为较小的部分以进行分析。

  永久性存储:一个不变的位置,例如磁盘,在创建数据的过程结束后将数据保存在该位置。

  Python:一种通用的编程语言,强调代码的可读性,以允许程序员使用较少的代码行来表达其概念。

  R

  R:一种主要用于数据可视化和预测分析的开源语言。

  实时流处理:一种模型,可通过并行使用机器来分析数据序列,但功能有所减少。

  关系数据库管理系统(RDBMS):一种系统,用于管理,捕获和分析基于称为关系的共享属性进行分组的数据。

  弹性分布式数据集:Apache Spark抽象数据的主要方式,其中数据以容错的方式存储在多台计算机上。

  S

  碎片:数据库的单个分区。

  智能数据:经过格式化的数字信息,可以在收集点上对其进行操作,然后再发送到下游分析平台以进行进一步的数据合并和分析。

  流处理:数据的实时处理。数据被连续,同时处理并逐记录进行处理。

  结构化数据:具有高度组织性的信息。

  T

  分类法:根据预定系统对数据进行分类,并使用生成的目录来提供易于访问和检索的概念框架。

  遥测:远程获取有关对象的信息(例如,从汽车,智能手机,医疗设备或IoT设备)。

  转换:将数据从一种格式转换为另一种格式。

  U

  非结构化数据:没有预定义数据模型或未按预定义方式组织的数据。

  V

  可视化:分析数据并以可读的图形格式(例如图表或图形)表示数据的过程。

  Z

  区域:数据湖中用于特定,明确定义目的的不同区域。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
186 19
|
4月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
450 14
|
5月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
168 2
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
3月前
|
存储 分布式计算 数据可视化
大数据概念与术语简介
大数据概念与术语简介
89 2
|
3月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
531 0
|
4月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
113 14
|
3月前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发
|
4月前
|
存储 SQL 机器学习/深度学习
阿里云数加大数据计算服务MaxCompute学习路线图:从入门到精通
将所学知识应用于实际工作中并不断进行实践和创新是提升技术能力的关键所在。用户可以结合业务需求和技术发展趋势积极探索新的应用场景和解决方案,并在实践中不断总结经验和教训以提升自己的技术水平和实践能力。
|
4月前
|
分布式计算 大数据 Java
大数据开发语言Scala入门
大数据开发语言Scala入门