《Hadoop大数据分析与挖掘实战》——2.4节动手实践

简介:

本节书摘来自华章社区《Hadoop大数据分析与挖掘实战》一书中的第2章,第2.4节动手实践,作者张良均 樊哲 赵云龙 李成华 ,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.4 动手实践
按照2.2节的详细配置步骤进行操作,部署完成后即可进行下面的实验。
实践一:HDFS命令

1)新建文件夹。hadoop fs -mkdir /user
hadoop fs -mkdir /user/root2)查看文件夹权限。# hadoop fs -ls -d /user/root
drwxr-xr-x  - root supergroup     0 2015-05-29 17:29 /user/root3)上传文件。
复制02-上机实验/ds.txt并通过xftp上传到客户端机器,运行下面的命令和结果对照。# hadoop fs -put ds.txt ds.txt
# hadoop fs -ls -R /user/root
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt4)查看文件内容。# hadoop fs -cat /user/root/ds.txt
17.759065824032646,0.6708203932499373
20.787886563063058,0.7071067811865472
17.944905786933322,0.5852349955359809
……5)复制/移动/删除文件。# hadoop fs -cp /user/root/ds.txt /user/root/ds_backup.txt
# hadoop fs -ls /user/root
Found 2 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:30 /user/root/ds_backup.tx
# hadoop fs -mv /user/root/ds_backup.txt /user/root/ds_backup1.txt
# hadoop fs -ls /user/root
Found 2 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:30 /user/root/ds_backup1.txt
# hadoop fs -rm -r /user/root/ds_backup1.txt
15/05/29 19:32:51 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /user/root/ds_backup1.txt
# hadoop fs -ls /user/root
Found 1 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt实践二:MapReduce任务
1)复制02-上机实验/ds.txt并通过xftp上传到客户端机器/opt目录下。# hadoop fs -put /opt/ds.txt /user/root/ds.txt
# hadoop fs -ls /user/root
Found 1 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:49 /user/root/ds.txt2)复制Hadoop的安装目录的MapReduce Example的jar包到/opt目录下。# cp /opt/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar /opt
# ls /opt/hadoop-mapreduce*
/opt/hadoop-mapreduce-examples-2.6.0.jar3)运行单词计数MapReduce任务。# hadoop jar /opt/hadoop-mapreduce-examples-2.6.0.jar wordcount /user/root/ds.txt /user/root/ds_out
15/05/29 20:23:00 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032
15/05/29 20:23:02 INFO input.FileInputFormat: Total input paths to process : 1
15/05/29 20:23:02 INFO mapreduce.JobSubmitter: number of splits:1
15/05/29 20:23:02 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1432825607351_0127
15/05/29 20:23:03 INFO impl.YarnClientImpl: Submitted application application_1432825607351_0127
15/05/29 20:23:03 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1432825607351_0127/
15/05/29 20:23:03 INFO mapreduce.Job: Running job: job_1432825607351_0127
15/05/29 20:23:15 INFO mapreduce.Job: Job job_1432825607351_0127 running in uber mode : false
15/05/29 20:23:15 INFO mapreduce.Job: map 0% reduce 0%
15/05/29 20:23:31 INFO mapreduce.Job: map 100% reduce 0%
15/05/29 20:23:40 INFO mapreduce.Job: map 100% reduce 100%
15/05/29 20:23:40 INFO mapreduce.Job: Job job_1432825607351_0127 completed successfully
15/05/29 20:23:40 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=10341
FILE: Number of bytes written=232633
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=9236
HDFS: Number of bytes written=9375
HDFS: Number of read operations=6
HDFS: Number of large read operations=0
HDFS: Number of write operations=2
Job Counters 
Launched map tasks=1
Launched reduce tasks=1
Data-local map tasks=1
Total time spent by all maps in occupied slots (ms)=12679
Total time spent by all reduces in occupied slots (ms)=6972
Total time spent by all map tasks (ms)=12679
Total time spent by all reduce tasks (ms)=6972
Total vcore-seconds taken by all map tasks=12679
Total vcore-seconds taken by all reduce tasks=6972
Total megabyte-seconds taken by all map tasks=12983296
Total megabyte-seconds taken by all reduce tasks=7139328
Map-Reduce Framework
Map input records=240
Map output records=240
Map output bytes=9855
Map output materialized bytes=10341
Input split bytes=101
Combine input records=240
Combine output records=240
Reduce input groups=240
Reduce shuffle bytes=10341
Reduce input records=240
Reduce output records=240
Spilled Records=480
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=398
CPU time spent (ms)=5330
Physical memory (bytes) snapshot=321277952
Virtual memory (bytes) snapshot=2337296384
Total committed heap usage (bytes)=195235840
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters 
Bytes Read=9135
File Output Format Counters 
Bytes Written=93754)查看任务的输出。# hadoop fs -cat /user/root/ds_out/part-r-00000
16.75481160342442,0.5590169943749481 1
17.759065824032646,0.6708203932499373 1
17.944905786933322,0.5852349955359809 1
18.619213022043585,0.5024937810560444 1
18.664436259885097,0.7433034373659246 1
……
相关文章
|
2月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
54 4
|
10天前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
1月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
39 3
|
1月前
|
分布式计算 Java Hadoop
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
38 2
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
40 2
|
2月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
67 3
Hadoop集群配置https实战案例
|
27天前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
136 0
|
1月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
65 0
|
1月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
54 0
下一篇
无影云桌面