【hive】(电影推荐系统的数据)在hive中创表,并导入数据,同时取出自己想要的数据

简介: (电影推荐系统的数据)在hive中创表,并导入数据,同时取出自己想要的数据

目标

将本地表导入hive中,并完成一系列的查询

我这里一共有四个表,分别是 movies ratings tags links,分别如下

image.png

一、在HDFS中创建文件夹

image.png

二、将本地的四张表上传到新建文件夹中,并检验是否成功导入

image.png

image.png

三、在hive中创表,并将数据导入

1.查有哪些数据库,接着创建新的数据库,并使用相应数据库

image.png

2.创表并导入数据

(1.1)创建第一个表 movie表

image.png

(1.2)将HDFS中movie文件的数据导入 movie表中,并查看前10条数据检验结果

image.png

(1.3)查询出movie表中有多少条数据 用count计数

image.png

(2.1)创建第二个表 ratings表,同时将HDFS中ratings文件的数据导入 ratings表中

image.png

(2.2)查看前10条数据检验结果

image.png

(3.1)创建第三个表 tags表,同时将HDFS中tags文件的数据导入 tags表中,并查看前10条数据检验结果

image.png

(4.1)创建第四个表 links表,同时将HDFS中tags文件的数据导入 links表中,并查看前10条数据检验结果

image.png

## 用substring截取movie表中title列的年份

image.png

image.png

将截取出来的年份数据加上原先的数据一起装入一个新表中(最后一列为年份数据)

image.png

image.png

目录
相关文章
|
5月前
|
机器学习/深度学习 数据采集 人工智能
别怪推荐系统不懂你,可能是你的数据“太模糊”了
别怪推荐系统不懂你,可能是你的数据“太模糊”了
277 9
|
8月前
|
存储 消息中间件 搜索推荐
京东零售基于Flink的推荐系统智能数据体系
摘要:本文整理自京东零售技术专家张颖老师,在 Flink Forward Asia 2024 生产实践(二)专场中的分享,介绍了基于Flink构建的推荐系统数据,以及Flink智能体系带来的智能服务功能。内容分为以下六个部分: 推荐系统架构 索引 样本 特征 可解释 指标 Tips:关注「公众号」回复 FFA 2024 查看会后资料~
516 1
京东零售基于Flink的推荐系统智能数据体系
|
数据采集 机器学习/深度学习 搜索推荐
Pandas数据应用:推荐系统
在数字化时代,推荐系统是互联网公司的重要组成部分,Pandas作为Python的强大数据分析库,在数据预处理和特征工程中发挥关键作用。常见问题包括缺失值、重复值处理及数据类型转换,解决方案分别为使用`fillna()`、`drop_duplicates()`和`astype()`等函数。常见报错如KeyError、ValueError和MemoryError可通过检查列名、确保数据格式正确及分块读取数据等方式解决。合理运用Pandas工具,可为构建高效推荐系统奠定坚实基础。
272 18
Pandas数据应用:推荐系统
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
849 1
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
307 4
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
408 3
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
365 2
|
搜索推荐 关系型数据库 MySQL
#874358#基于django/neo4j的电视剧浏览数据推荐系统
#874358#基于django/neo4j的电视剧浏览数据推荐系统
516 0
|
搜索推荐 关系型数据库 数据库
#646253#基于django/neo4j的电影打分推荐系统
#646253#基于django/neo4j的电影打分推荐系统
199 0
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
393 0