大数据基础知识小结
(1)数据分析
数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。数据分析通俗的说就是对收集起来的大量数据进行分析,提取有用的信息。
数据分析流程:
需求分析 明确目标 --》 数据收集 加工处理 --》数据分析 数据展现 --》分析报告 提炼价值
(2)数据仓库系统
分析的前提是要有相应的数据,大量的业务数据聚集在一起,就产生了一种新的概念:数据仓库
数据仓库是一个面向主题的、集成的、非易失的、时变的数据集合,用于支持管理决策。
比如说一个电商系统,他的数据可以划分为客户主题、产品主题、订购主题、物流主题的相关数据。一个数据仓库的数据源可以来自于不同的业务系统,集成到同一个数据仓库中。数据到达数据仓库之后,会对外进行相关的查询,很少做相关的修改。同时数仓中的数据会随着时间而不停地变化。
基于数据仓库的数据分析流程:
分析需求–》 确认数据源–》 ETL处理 --》汇总/整合 --》 数据建模 --》 分析展现
(3)数据仓库解决的问题
为业务部门提供准确及时的业务报表:多个业务平台捕获数据整合
为管理人员提供更强的分析能力
为数据挖掘和知识发现奠定基础:通过数据分析,利用数据挖掘的技术找到数据发展的模式与规律,可以使预测分析的结果更准确完整。
(4)大数据的理解
大数据指在可承受的时间范围内用常用的软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特点:
体量巨大 体量达到 pb tb级别
种类繁多 数据来源于多个数据源,格式也可能是涵盖了音频、视频、文本等格式
价值密度低
处理速度快 涉及相关的实时性处理
大数据的理解:
不能盲目追求体量
不能盲目追求数量
不能盲目追求技术
不能盲目追求潮流
大数据的处理思路:
减治:将问题简化成一个更简单的能处理的问题
分治:将问题分成多个可以简单求解的小问题
– 复杂的问题简单化,复杂的问题拆分化,再重复减化。