冬季实战营第五期:轻松入门学习大数据

简介: 冬季实战营第五期:轻松入门学习大数据

上传数据到HDFS

本步骤将指导您如何将自建数据上传到HDFS。

1. 执行如下命令,创建HDFS目录。

说明:在LX终端中,粘贴快捷键为SHIFT+CTRL+V。

hdfs dfs -mkdir -p /data/student

2. 上传文件到hadoop文件系统。

a.执行如下命令,创建u.txt文件。

#创建u.txt文件

vim u.txt

b.按 "i" 键进入编辑模式,通过粘贴快捷键(SHIFT+CTRL+V)将下方内容复制到文件中,按"Esc"返回命令模式,输入":wq"保存

说明:第一列表示userid,第二列表示movieid,第三列表示rating,第四列表示unixtime。

196  242  3  881250949

186  302  3  891717742

22  377  1  878887116

244  51  2  880606923

166  346  1  886397596

298  474  4  884182806

115  265  2  881171488

253  465  5  891628467

305  451  3  886324817

6  86  3  883603013

62  257  2  879372434

286  1014  5  879781125

200  222  5  876042340

210  40  3  891035994

224  29  3  888104457

303  785  3  879485318

122  387  5  879270459

194  274  2  879539794

291  1042  4  874834944

234  1184  2  892079237

119  392  4  886176814

167  486  4  892738452

299  144  4  877881320

291  118  2  874833878

308  1  4  887736532

95  546  2  879196566

38  95  5  892430094

102  768  2  883748450

63  277  4  875747401

160  234  5  876861185

50  246  3  877052329

301  98  4  882075827

225  193  4  879539727

290  88  4  880731963

97  194  3  884238860

157  274  4  886890835

181  1081  1  878962623

278  603  5  891295330

276  796  1  874791932

7  32  4  891350932

10  16  4  877888877

284  304  4  885329322

201  979  2  884114233

276  564  3  874791805

287  327  5  875333916

246  201  5  884921594

242  1137  5  879741196

249  241  5  879641194

99  4  5  886519097

178  332  3  882823437

251  100  4  886271884

81  432  2  876535131

260  322  4  890618898

c. 上传文件u.txt到hadoop文件系统。

hdfs dfs -put u.txt /data/student

3. 查看文件。

hdfs dfs -ls /data/student

本步骤将指导您如何使用hive创建数据表,并使用hadoop文件系统中的数据加载到hive数据表中。

1. 执行如下命令,登录hive数据库。

hive

2. 创建user表。

CREATE TABLE emrusers (

  userid INT,

  movieid INT,

  rating INT,

  unixtime STRING )

 ROW FORMAT DELIMITED

 FIELDS TERMINATED BY '\t'

 ;


3. 执行如下命令,从hadoop文件系统加载数据到hive数据表。

LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
7月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
167 1
|
6月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
8月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
10月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
201 6
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
415 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
346 1
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
263 1
|
5月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
385 14
|
6月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
320 0