电商项目之用户行为数据映射 hive 表|学习笔记

简介: 快速学习电商项目之用户行为数据映射 hive 表

开发者学堂课程【新电商大数据平台2020最新课程电商项目之用户行为数据映射 hive 表】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/640/detail/10515


电商项目之用户行为数据映射 hive 表


用户行为数据映射 hive 表讲解

上节课把 web 数据处理完成,通过 flume 采集到 hive 表,映射到 ods 层这样便生成 web 数据表。

行为数据同时也是需要映射到 hive 表上。在采集数据的过程中不断下沉到 ods 层形成表的数据。我们的用户数据也是需要落地磁盘的,需要 flume 监控,在下沉到 ods。这步就省略了,因为在此之前已经说了 flume 怎么监控、采集、怎么映成 hive 表。有意不需要这么复杂,我们直接用用户行为数据映射 hive 表就可以了.

首先我们将本地数据上传,然后用 roud 命令,把他 roud 到 ads 就可以了,其实不用上传,在本地执行映射也可以。打开数据,注意格式,我们再前面处理的数据是 csv。

image.png

这个数据是 part 文件数据,这种格式查询效率比较高,并且处理数据比例段比较少,查询起来比较快。

我们的 web 数据是一个 log 数据是我们昨天采集过来形成的一个 log 数据。

image.png

在数据文件档里查看用户行为日志表,把表创建好。他设置的类型格式是 json 的类型,它里面使用的是 hive 里的hkdelog 方式的 zar 包,创建的是 json 表,也就是 json 数据。如果说没有在做任何处理时,会出错,也就是找不到当前的 jar 包。

image.png

进入 hive,需要创建对应的配置。再创建之前要先配置好,把路径改成自己的,保存在进入 hive。

错误分析解决:json 格式数据表需要通过 serde 机制处理

(1)在 hive-site. Xml 中设置3方 jar 包

<property>

<name>hive. aux. jars . path</name>

<value> /home/framework/hive-2.1.1/lib/</value>

</property>

(2)在 hive . aux. jars . path 设置的路径中增加 hive -hcatalog-core-2.1.1.jar,这个 jar 包在 hcatelog 当中

拷贝路径为$HIVE_ HOME /hcatalog/share/hcatalog/hive -hcatalog-core-2.1.1.j到/home/ fr amework/hive-2.1.1/lib/中,然后我们再去创建。我们先把它配置配一下。

[ root@node1 lib]#cd ..

[ root@node1 hive-2.1.1]#vim conf/hive-site.xml

然后将<property>

<name>hive. aux. jars . path</name>

<value> /home/framework/hive-2.1.1/lib/</value>

</property>添加到最后面,然后把路径改成自己的路径,然后再接入 hive。这个时候就成功了

引用zar之后需要把用户行为数据传上去,用 local 的方式也行,在进行映射。传成功之后需要 load 一下(输入路径),时间自己取。

hdfs dfs -put 000000_0 /data/nshop/ods/user_action_log/

把000000_0传到这个路径上,就可以看到传上去了。

但是我们是查不到这个数据

image.png

hload data inpath ‘/data/nshop/ods/user_action_log/*' into table ods_nshop.ods_nshop_01_useractlog partition (bdp_day=" 20200321')显示创建成功

数据映射成功,映射到了 hive 表。

image.png

用户行为数据就有了,那么这样三方数据都有了,web 数据、业务数据、用户行为数据全都有了。

相关文章
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
235 4
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
346 3
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
184 2
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
323 0
|
SQL 物联网 数据处理
"颠覆传统,Hive SQL与Flink激情碰撞!解锁流批一体数据处理新纪元,让数据决策力瞬间爆表,你准备好了吗?"
【8月更文挑战第9天】数据时代,实时性和准确性至关重要。传统上,批处理与流处理各司其职,但Apache Flink打破了这一界限,尤其Flink与Hive SQL的结合,开创了流批一体的数据处理新时代。这不仅简化了数据处理流程,还极大提升了效率和灵活性。例如,通过Flink SQL,可以轻松实现流数据与批数据的融合分析,无需在两者间切换。这种融合不仅降低了技术门槛,还为企业提供了更强大的数据支持,无论是在金融、电商还是物联网领域,都将发挥巨大作用。
179 6
|
SQL 关系型数据库 HIVE
实时计算 Flink版产品使用问题之如何将PostgreSQL数据实时入库Hive并实现断点续传
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
SQL 分布式计算 数据处理
实时计算 Flink版产品使用问题之怎么将数据从Hive表中读取并写入到另一个Hive表中
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
SQL 存储 分布式计算
Hive TextFile数据错行问题解决方案
【8月更文挑战第16天】
298 0
|
SQL 存储 监控
Hive 插入大量数据
【8月更文挑战第15天】
529 0