《Hadoop大数据分析与挖掘实战》——2.4节动手实践

简介:

本节书摘来自华章社区《Hadoop大数据分析与挖掘实战》一书中的第2章,第2.4节动手实践,作者张良均 樊哲 赵云龙 李成华 ,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.4 动手实践
按照2.2节的详细配置步骤进行操作,部署完成后即可进行下面的实验。
实践一:HDFS命令

1)新建文件夹。hadoop fs -mkdir /user
hadoop fs -mkdir /user/root2)查看文件夹权限。# hadoop fs -ls -d /user/root
drwxr-xr-x  - root supergroup     0 2015-05-29 17:29 /user/root3)上传文件。
复制02-上机实验/ds.txt并通过xftp上传到客户端机器,运行下面的命令和结果对照。# hadoop fs -put ds.txt ds.txt
# hadoop fs -ls -R /user/root
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt4)查看文件内容。# hadoop fs -cat /user/root/ds.txt
17.759065824032646,0.6708203932499373
20.787886563063058,0.7071067811865472
17.944905786933322,0.5852349955359809
……5)复制/移动/删除文件。# hadoop fs -cp /user/root/ds.txt /user/root/ds_backup.txt
# hadoop fs -ls /user/root
Found 2 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:30 /user/root/ds_backup.tx
# hadoop fs -mv /user/root/ds_backup.txt /user/root/ds_backup1.txt
# hadoop fs -ls /user/root
Found 2 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:30 /user/root/ds_backup1.txt
# hadoop fs -rm -r /user/root/ds_backup1.txt
15/05/29 19:32:51 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /user/root/ds_backup1.txt
# hadoop fs -ls /user/root
Found 1 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:07 /user/root/ds.txt实践二:MapReduce任务
1)复制02-上机实验/ds.txt并通过xftp上传到客户端机器/opt目录下。# hadoop fs -put /opt/ds.txt /user/root/ds.txt
# hadoop fs -ls /user/root
Found 1 items
-rw-r--r--  3 root supergroup    9135 2015-05-29 19:49 /user/root/ds.txt2)复制Hadoop的安装目录的MapReduce Example的jar包到/opt目录下。# cp /opt/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar /opt
# ls /opt/hadoop-mapreduce*
/opt/hadoop-mapreduce-examples-2.6.0.jar3)运行单词计数MapReduce任务。# hadoop jar /opt/hadoop-mapreduce-examples-2.6.0.jar wordcount /user/root/ds.txt /user/root/ds_out
15/05/29 20:23:00 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032
15/05/29 20:23:02 INFO input.FileInputFormat: Total input paths to process : 1
15/05/29 20:23:02 INFO mapreduce.JobSubmitter: number of splits:1
15/05/29 20:23:02 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1432825607351_0127
15/05/29 20:23:03 INFO impl.YarnClientImpl: Submitted application application_1432825607351_0127
15/05/29 20:23:03 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1432825607351_0127/
15/05/29 20:23:03 INFO mapreduce.Job: Running job: job_1432825607351_0127
15/05/29 20:23:15 INFO mapreduce.Job: Job job_1432825607351_0127 running in uber mode : false
15/05/29 20:23:15 INFO mapreduce.Job: map 0% reduce 0%
15/05/29 20:23:31 INFO mapreduce.Job: map 100% reduce 0%
15/05/29 20:23:40 INFO mapreduce.Job: map 100% reduce 100%
15/05/29 20:23:40 INFO mapreduce.Job: Job job_1432825607351_0127 completed successfully
15/05/29 20:23:40 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=10341
FILE: Number of bytes written=232633
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=9236
HDFS: Number of bytes written=9375
HDFS: Number of read operations=6
HDFS: Number of large read operations=0
HDFS: Number of write operations=2
Job Counters 
Launched map tasks=1
Launched reduce tasks=1
Data-local map tasks=1
Total time spent by all maps in occupied slots (ms)=12679
Total time spent by all reduces in occupied slots (ms)=6972
Total time spent by all map tasks (ms)=12679
Total time spent by all reduce tasks (ms)=6972
Total vcore-seconds taken by all map tasks=12679
Total vcore-seconds taken by all reduce tasks=6972
Total megabyte-seconds taken by all map tasks=12983296
Total megabyte-seconds taken by all reduce tasks=7139328
Map-Reduce Framework
Map input records=240
Map output records=240
Map output bytes=9855
Map output materialized bytes=10341
Input split bytes=101
Combine input records=240
Combine output records=240
Reduce input groups=240
Reduce shuffle bytes=10341
Reduce input records=240
Reduce output records=240
Spilled Records=480
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=398
CPU time spent (ms)=5330
Physical memory (bytes) snapshot=321277952
Virtual memory (bytes) snapshot=2337296384
Total committed heap usage (bytes)=195235840
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters 
Bytes Read=9135
File Output Format Counters 
Bytes Written=93754)查看任务的输出。# hadoop fs -cat /user/root/ds_out/part-r-00000
16.75481160342442,0.5590169943749481 1
17.759065824032646,0.6708203932499373 1
17.944905786933322,0.5852349955359809 1
18.619213022043585,0.5024937810560444 1
18.664436259885097,0.7433034373659246 1
……
相关文章
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
4月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
机器学习/深度学习 人工智能 自然语言处理
如何构建企业级数据智能体:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。
|
4月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
4月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
169 4
|
4月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
297 3
|
4月前
|
机器学习/深度学习 存储 分布式计算
ODPS驱动电商仓储革命:动态需求预测系统的落地实践
本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。
447 1
|
3月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
机器学习/深度学习 人工智能 自然语言处理
构建企业级数据分析助手:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。由于不同产品的演进路径,背景都不一样,所以只介绍最核心的部分,来深入剖析如何构建企业级数据分析助手:能力边界定义,技术内核,企业级能力。希望既能作为Data Agent for Analytics产品的技术核心介绍,也能作为读者的开发实践的参考。
579 1
构建企业级数据分析助手:Data Agent 开发实践