- 大数据概论和职业规划
- Linux服务器系统
- Hadoop概论
- HDFS分布式文件系统
- Hive数据仓库
- SparkSQL指令
- Zepplin框架
- Sqoop框架
- Superset数据可视化
- 大数据数仓实战-didi出行
大数据概念
大数据特点
大数据应用场景
大数据分析业务步骤
大数据职业规划
大数据学习路线。
大数据概念
数据:世界的本质是数据
大数据:是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。
大数据解决什么问题?
海量数据存储
数据分析的前提是有数据,数据存储的目的是支撑数据分析,究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的问题。
海量数据运算
当解决了海量数据的存储问题,接下来就需要进行海量数据的计算。
大数据的特点
大、多、值、快、信
大:数据体量大
多:种类和来源多样化,结构化、非结构化,来源日志、音频、视频
值:低价值密度,客户量,1000万
快:速度快,数据增长速度快,获取数据的速度快
信:数据的质量,数据的准确性,数据的可信依赖度。
大数据的应用场景
大数据让借贷更放心
在金融行业,以借贷款为例,在贷款前,贷款借出方会先利用大数据对借款人进行贷款审核,以此来保障贷后的还款率。
借出方从各个渠道合法收集借款人的标签信息,如学历、职业、薪资状况,历史借还款,海量数据被放入反欺诈模型,还款模型,身份验证模型等做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
大数据让广告营销更高效
投放前,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量,构建全面的用户画像,保证广告定向投放。
广告投放后期,通过实时数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。
**大数据在新媒体应用
**短视频平台通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐视频
xx平台会根据你的浏览历史推荐你喜欢或者关注的内容
大数据分析业务步骤
流程
明确数据分析的目的和思路
数据收集(sqoop、flume)
数据处理:提取、清洗、转化、加载(Sqoop、Kettle、Mapreduce)
数据分析:统计、建模、挖掘(Hive、Spark、Flink)
数据可视化:(Superset、Echarts、BI工具)
报告撰写
大数据框架
核心框架:Hadoop、Hive、Spark、Flink、Kafka、Hbase