一、实际场景
数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。
二、实战
1、基于EMR离线数据分析
(1)基本名词解释
E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。
通过这一个场景开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。
(2)结果展示
2、使用阿里云Elasticsearch快速搭建智能运维系统
(1)名词解释
阿里云Elasticsearch兼容开源ELK功能,提供免运维全托管服务的弹性云搜索与分析引擎,致力于数据库加速、数据分析、信息检索、智能运维监控等场景服务;独有的云原生高性能内核、达摩院NLP分词、向量检索、智能运维、免费X-Pack高级商业特性等能力,全面提升企业应用效率,降低成本。
(2)结果展示
3、推荐系统入门
(1)应用背景
很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过经验分析得到的。这时候我们需要借助数据挖掘中的常见算法-协同过滤来实现。这种算法可以帮助我们挖掘人与人以及商品与商品的关联关系。
(2)结果展示
三、感悟
数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。