大数据基础知识小结

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据基础知识小结

  大数据基础知识小结

  (1)数据分析

  数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。数据分析通俗的说就是对收集起来的大量数据进行分析,提取有用的信息。

  数据分析流程:

  需求分析 明确目标 --》 数据收集 加工处理 --》数据分析 数据展现 --》分析报告 提炼价值

  (2)数据仓库系统

  分析的前提是要有相应的数据,大量的业务数据聚集在一起,就产生了一种新的概念:数据仓库

  数据仓库是一个面向主题的、集成的、非易失的、时变的数据集合,用于支持管理决策。

  比如说一个电商系统,他的数据可以划分为客户主题、产品主题、订购主题、物流主题的相关数据。一个数据仓库的数据源可以来自于不同的业务系统,集成到同一个数据仓库中。数据到达数据仓库之后,会对外进行相关的查询,很少做相关的修改。同时数仓中的数据会随着时间而不停地变化。

  基于数据仓库的数据分析流程:

  分析需求–》 确认数据源–》 ETL处理 --》汇总/整合 --》 数据建模 --》 分析展现

  (3)数据仓库解决的问题

  为业务部门提供准确及时的业务报表:多个业务平台捕获数据整合

  为管理人员提供更强的分析能力

  为数据挖掘和知识发现奠定基础:通过数据分析,利用数据挖掘的技术找到数据发展的模式与规律,可以使预测分析的结果更准确完整。

  (4)大数据的理解

  大数据指在可承受的时间范围内用常用的软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  大数据的特点:

  体量巨大 体量达到 pb tb级别

  种类繁多 数据来源于多个数据源,格式也可能是涵盖了音频、视频、文本等格式

  价值密度低

  处理速度快 涉及相关的实时性处理

  大数据的理解:

  不能盲目追求体量

  不能盲目追求数量

  不能盲目追求技术

  不能盲目追求潮流

  大数据的处理思路:

  减治:将问题简化成一个更简单的能处理的问题

  分治:将问题分成多个可以简单求解的小问题

  – 复杂的问题简单化,复杂的问题拆分化,再重复减化。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
存储 大数据 定位技术
大数据基础知识之什么是服务器什么是集群(下)
大数据基础知识之什么是服务器什么是集群
243 0
大数据基础知识之什么是服务器什么是集群(下)
|
存储 缓存 固态存储
大数据基础知识之什么是服务器什么是集群(上)
大数据基础知识之什么是服务器什么是集群
233 0
大数据基础知识之什么是服务器什么是集群(上)
|
SQL 存储 关系型数据库
23篇大数据系列(三)sql基础知识(上)(史上最全,建议收藏)
23篇大数据系列(三)sql基础知识(上)(史上最全,建议收藏)
23篇大数据系列(三)sql基础知识(上)(史上最全,建议收藏)
|
SQL 算法 安全
23篇大数据系列(三)sql基础知识(下)(史上最全,建议收藏)
23篇大数据系列(三)sql基础知识(下)(史上最全,建议收藏)
23篇大数据系列(三)sql基础知识(下)(史上最全,建议收藏)
|
Java 大数据 数据挖掘
23篇大数据系列(二)scala基础知识全集(下)(史上最全,建议收藏)
23篇大数据系列(二)scala基础知识全集(下)(史上最全,建议收藏)
23篇大数据系列(二)scala基础知识全集(下)(史上最全,建议收藏)
|
机器学习/深度学习 消息中间件 存储
23篇大数据系列(二)scala基础知识全集(上)(史上最全,建议收藏)
23篇大数据系列(二)scala基础知识全集(上)(史上最全,建议收藏)
23篇大数据系列(二)scala基础知识全集(上)(史上最全,建议收藏)
|
SQL JSON 分布式计算
23篇大数据系列(一)java基础知识全集(下)(2万字干货,建议收藏)
23篇大数据系列(一)java基础知识全集(下)(2万字干货,建议收藏)
23篇大数据系列(一)java基础知识全集(下)(2万字干货,建议收藏)
|
SQL JSON 分布式计算
23篇大数据系列(一)java基础知识全集(上)(2万字干货,建议收藏)
23篇大数据系列(一)java基础知识全集(2万字干货,建议收藏)
23篇大数据系列(一)java基础知识全集(上)(2万字干货,建议收藏)
|
SQL 机器学习/深度学习 缓存
【大数据面试题】(三)Hive 基础知识及优化总结2
【大数据面试题】(三)Hive 基础知识及优化总结2
166 0
|
SQL 存储 分布式计算
【大数据面试题】(三)Hive 基础知识及优化总结1
【大数据面试题】(三)Hive 基础知识及优化总结1
283 0

热门文章

最新文章