轻松入门大数据报告

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 报告笔记
本文从三个实验入门大数据,但是需掌握前提知识点,以及它的背景是什么,用在哪些场景里面。从实验的角度出发给出详细的步骤参考,并熟悉组件特性。

数据分析的需求

1 背景知识

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址:https://www.aliyun.com/product/emapreduce

2 产品优势

开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用

引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升

便捷运维:在阿里云控制台和OpenAPI方便地对集群、节点和服务进行监控和运维操作。助您大幅提升运维工作效率,让数据工程师更专注于业务开发

节约成本:集群资源可自动按需匹配,您只需要按实际使用量付费,减少资源浪费成本。支持阿里云抢占式实例、预留实例券(RI),进一步降低成本

弹性资源:可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求

安全可靠:通过 VPC 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全

3 步骤

  1. 登录集群

● 使用Firefox ESR浏览器和阿里云分配子账号的登录阿里云
● 登录成功后进入阿里云控制台首页,点击左侧菜单,输入关键词“emr”,点击 E-MapReduce 进入管理页面
● 在E-MapReduce控制台页面上方,选择资源所在地域。例如下图中,地域切换为华东2(上海)
● 在E-MapReduce控制台页面的集群列表区域,单击您的集群名/ID
● 集群基础信息页面的主机信息区域,复制MASTER的节点的公网ip地址。
● 打开远程桌面终端LxShell
●  在终端中输入连接命令ssh root@[ipaddress]
● 输入 yes
● 同意继续后将会提示输入登录密码

  1. 上传数据到HDFS

● 使用hdfs dfs -mkdir -p /data/student 命令创建HDFS目录
● 创建u.txt文件并上传文件到hadoop文件系统:hdfs dfs -put u.txt /data/student
● 查看文件:hdfs dfs -ls /data/student

  1. 使用hive创建表

● 登录hive数据库:hive
● 创建user表

CREATE TABLE emrusers (
 userid INT,
 movieid INT,
 rating INT,
 unixtime STRING ) 
 ROW FORMAT DELIMITED 
 FIELDS TERMINATED BY '\t' 
 ;

● 从hadoop文件系统加载数据到hive数据表:LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;

  1. 对表进行操作

● 查看5行表数据:select * from emrusers limit 5;
● 查询数据表中有多少条数据:select count(*) from emrusers;
● 查询数据表中评级最高的三个电影:select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;

高效的运维

1 背景知识

信息过载和复杂的业务环境,以及故障的定位、检测等工作给运维工程师和技术体系提出了更高的要求,同时,IT架构复杂,运维工具繁多,工具之间的衔接困难,上手成本高的问题,也给运维工作带来了挑战。基于此,Elastic Stack为全链路智能运维系统提供了场景化解决方案。

目的是用Beats采集器收集ECS上的系统数据和Nginx服务数据,配置基础的指标分析看板,简单展示数据采集、分析的过程和操作方式。

2 优势

Elasticsearch兼容开源ELK功能,提供免运维全托管服务的弹性云搜索与分析引擎,致力于数据库加速、数据分析、信息检索、智能运维监控等场景服务;独有的云原生高性能内核、达摩院NLP分词、向量检索、智能运维、免费X-Pack高级商业特性等能力,全面提升企业应用效率,降低成本。

产品文档:https://help.aliyun.com/document_detail/196921.html

3 详细步骤如下

  • 登录Kibana,开启自动创建索引功能步骤
  1. 在右侧概览页面Elasticsearch区域中,单击集群管理。
  2. 在Elasticsearch实例列表中,单击实例ID。
  3. 在左侧导航栏,选择配置与管理 > 可视化控制。
  4. 在Kibana区域中,单击修改配置。
  5. 开启Kibana私网访问,此变更过程需等待3-5分钟。
  6. 返回上级页面,在Kibana区域中,单击公网入口。
  7. 复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至Kibana登录页面的账号和密码,单击登录。
  8. 在登录成功页面,单击Explore on my own。
  9. 在左侧导航栏,单击Dev Tools(开发工具),再单击Go to work。
  10. 在Console页签下,执行如下命令,开启阿里云ES实例的自动创建索引功能。
PUT _cluster/settings
{
"persistent": {
"action.auto_create_index": "true" 
}
}
  • 使用Metricbeat采集ECS上的系统数据步骤
  1. 返回阿里云Elasticsearch管理控制台,单击Beats数据采集 > 创建采集器。
  2. 在创建采集器窗口中,单击Metricbeat。
  3. 在系统弹出的确定服务授权对话框,单击确认,授权创建服务关联角色。
  4. 在采集器配置向导中,输入或选择采集器信息,复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至用户名密码。
  5. 在metricbeat.yml中末尾添加如下脚本,单击下一步。
metricbeat.modules:
- module: system
  metricsets:
    - cpu             
    - load            
    - memory         
    - network        
    - process         
    - process_summary 
    - uptime          
    - socket_summary  
    - core
    - diskio 
    - filesystem
    - fsstat
  enabled: true
  period: 10s
  processes: ['.*']
  cpu.metrics:  ["percentages"]
  core.metrics: ["percentages"]
  1. 选择采集器安装的ECS实例。
  2. 启动采集器并查看采集器安装情况,此生效过程需等待3~5分钟。

    1. 单击启动。启动成功后,系统弹出启动成功对话框。
    2. 单击前往采集中心查看,在采集器管理区域中,查看启动成功的Metricbeat采集器,等待采集器状态变为已生效1/1。
  3. 返回Kibana页面,在左侧导航栏,单击Dev Tools(开发工具)。
  4. 在Console页签下,执行如下命令,查看索引。

GET _cat/indices?v

  1. 在左侧导航栏,单击Dashboard,搜索[Metricbeat System] Overview。
  2. 单击进入[Metricbeat System] Overview页面,再单击Host Overview,可查看监控仪表板。
  • 使用Filebeat采集ECS上的Nginx服务数据步骤
  1. 返回阿里云Elasticsearch管理控制台 > Beats数据采集中心。
  2. 在创建采集器区域,将鼠标移至Filebeat上,单击ECS日志。
  3. 在采集器配置向导中,输入或选择采集器信息。完成后,单击下一步。

在填写Filebeat文件目录处,填写如下路径:
/var/log/nginx/

  1. 在filebeat.yml中更改如下脚本。

在第24行enabled更改为true。
在第28行更改paths:

  • /var/log/nginx/*.log
  1. 单击下一步,选择采集器安装的ECS实例。
  2. 启动采集器并查看采集器安装情况,此生效过程需等待3~5分钟。

a. 单击启动。启动成功后,系统弹出启动成功对话框。
b. 单击前往采集中心查看,在采集器管理区域中,查看启动成功的Filebeat采集器,等待采集器状态变为已生效1/1。

  1. 返回Kibana页面,在左侧导航栏,单击Dev Tools(开发工具)。
  2. 在Console页签下,执行如下命令,查看索引。

GET _cat/indices?v

  1. 在左侧导航栏,单击Discover,点击选择filebeat,可查看采集的数据详情。

数据挖掘入门

1 基础知识

一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量。很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过经验分析得到的。这时候我们需要借助数据挖掘中的常见算法-协同过滤来实现。这种算法可以帮助我们挖掘人与人以及商品与商品的关联关系。数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量。很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过经验分析得到的。这时候我们需要借助数据挖掘中的常见算法-协同过滤来实现。这种算法可以帮助我们挖掘人与人以及商品与商品的关联关系。

那协同过滤算法是一种基于关联规则的算法。以购物行为为例,如果用户甲和用户乙都购买了商品A和商品B,则可以假定用户甲和用户乙的购物品味相似。当用户甲购买了商品C,而用户乙未购买时,可以将商品C推荐给用户乙,这就是经典的User-Based,即以User的特性为关联。

2 详细步骤

推荐系统入门之使用协同过滤实现商品推荐

1、开通机器学习PAI服务

阿里云官网-> 登录->产品->人工智能->机器学习平台PAI->立即开通->选择区域->免费开通并创建默认工作空间-角色授权:去授权->授权完成回到之前开通页面->确认开通并创建默认空间-PAI管理控制台

2、创建实验

控制台->工作空间->模型开发与训练:可视化建模(Designer)->工作流模板->推荐算法 商品推荐->创建->确定

3、查看实验数据

旧版:右键单击cf_训练_data节点,单击查看数据;

右键单击cf_结果_data,单击查看数据;

新版:

右键读取数据表,单击执行该节点,等待执行完毕查看数据

4、运行实验

单击左上角运行文字(旧版)或者按钮(新版),等待运行完毕;

5、查看实验结果:

右键单击join-1节点(旧版)或JOIN(新版),单击查看数据,
表中similar_item字段为经过协同过滤算法计算得出的该用户购买可能性最大的商品。
单击全表统计-1节点(旧版)或者全表统计(新版),然后单击查看数据,
表1统计了根据协同过滤算法推荐的商品数量,共有18065个商品可推荐。
单击全表统计-2节点(旧版)或者右边全表统计(新版),然后单击查看数据,
表2统计了7月份真实购买行为数据中与经过协同过滤算法所推荐的商品的命中数量,可以看到有60个推荐的商品被购买。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
226 19
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
528 14
|
6月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
181 2
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
4月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
695 0
|
5月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
157 14
|
4月前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发
|
5月前
|
存储 SQL 机器学习/深度学习
阿里云数加大数据计算服务MaxCompute学习路线图:从入门到精通
将所学知识应用于实际工作中并不断进行实践和创新是提升技术能力的关键所在。用户可以结合业务需求和技术发展趋势积极探索新的应用场景和解决方案,并在实践中不断总结经验和教训以提升自己的技术水平和实践能力。
|
5月前
|
分布式计算 大数据 Java
大数据开发语言Scala入门
大数据开发语言Scala入门
|
5月前
|
IDE 大数据 Java
「AIGC」大数据开发语言Scala入门
Scala,融合OOP和FP的多范式语言,在JVM上运行,常用于大数据处理,尤其与Apache Spark配合。要开始学习,安装Scala,选择IDE如IntelliJ。基础包括变量、数据类型、控制结构、函数。Scala支持类、对象、不可变数据结构、模式匹配和强大的并发工具。利用官方文档、教程、社区资源进行学习,并通过实践提升技能。
67 0