文档备案控制台

开发者社区华章出版社文章正文

《Hadoop与大数据挖掘》一2.4.3　动手实践：编写Word Count程序并打包运行

2017-06-26 1722

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.4.3节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4.3　动手实践：编写Word Count程序并打包运行

1）打开Eclipse，新建MapReduce工程，如图2-35、图2-36所示。
需要配置Hadoop的安装目录，因为这里的Eclipse安装在Windows系统上，所以这里的Hadoop安装目录就是指Hadoop安装包的解压目录。
建好的工程如图2-37所示（注意，这里还有相关jar包没有列出）。
2）参考上一节的代码编写单词计数程序。

3）使用Eclipse的Export中的JAR file工具打包成jar包，如图2-38、图2-39所示。

4）获取导出的jar包，通过Linux连接工具把该jar包上传到Hadoop客户端，并使用命令yarn jar的方式运行。

5）查看输出结果信息及相关监控信息，并能进行简要分析。
思考：
1）使用yarn jar的方式运行完程序后，终端输出的信息怎么解读？
2）查看相关监控，除了使用浏览器，还可以使用什么方式查询？

文章标签：

云原生大数据计算服务 MaxCompute

监控

Windows

Web App开发

大数据

分布式计算

关键词：

云原生大数据计算服务 MaxCompute实践

数据挖掘实践

云原生大数据计算服务 MaxCompute wordcount

云原生大数据计算服务 MaxCompute运行

云原生大数据计算服务 MaxCompute程序

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

华章计算机

目录

相关文章

武子康

|

消息中间件分布式计算大数据

大数据-113 Flink DataStreamAPI 程序输入源自定义输入源非并行源与并行源

大数据-113 Flink DataStreamAPI 程序输入源自定义输入源非并行源与并行源

武子康

185 0 0

武子康

|

分布式计算监控大数据

大数据-114 Flink DataStreamAPI 程序输入源自定义输入源 Rich并行源 RichParallelSourceFunction

大数据-114 Flink DataStreamAPI 程序输入源自定义输入源 Rich并行源 RichParallelSourceFunction

武子康

253 0 0

武子康

|

分布式计算资源调度大数据

大数据-110 Flink 安装部署下载解压配置 Standalone模式启动打包依赖（一）

大数据-110 Flink 安装部署下载解压配置 Standalone模式启动打包依赖（一）

武子康

377 0 0

武子康

|

分布式计算资源调度大数据

大数据-110 Flink 安装部署下载解压配置 Standalone模式启动打包依赖（二）

大数据-110 Flink 安装部署下载解压配置 Standalone模式启动打包依赖（二）

武子康

311 0 0

武子康

|

分布式计算大数据 Java

大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行梦开始的地方

大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行梦开始的地方

武子康

295 1 1

大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行梦开始的地方

zzy的aly

|

分布式计算大数据 Linux

大数据体系知识学习（二）：WordCount案例实现及错误总结

这篇文章介绍了如何使用PySpark进行WordCount操作，包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题，并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。

zzy的aly

256 1 1

武子康

|

SQL 存储分布式计算

Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划实机配置运行

Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划实机配置运行

武子康

272 3 3

蓝易云

|

存储分布式计算算法

探索Hadoop的三种运行模式：单机模式、伪分布式模式和完全分布式模式

在配置Hadoop集群之前，了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况，选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段，单机模式和伪分布式模式能为用户提供便利和成本效益。进而，当用户要处理大规模数据集时，完全分布式模式将是理想的选择。

蓝易云

973 2 2

武子康

|

消息中间件资源调度大数据

大数据-112 Flink DataStreamAPI 程序输入源 DataSource 基于文件、集合、Kafka连接器

大数据-112 Flink DataStreamAPI 程序输入源 DataSource 基于文件、集合、Kafka连接器

武子康

260 0 0

武子康

|

SQL 分布式计算大数据

大数据-108 Flink 快速应用案例重回Hello WordCount！方案1批数据方案2流数据（一）

大数据-108 Flink 快速应用案例重回Hello WordCount！方案1批数据方案2流数据（一）

武子康

208 0 0

华章出版社

热门文章

最新文章

【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐

数据挖掘实战：带你做客户价值分析(附代码)

一小时了解数据挖掘⑤数据挖掘步骤＆常用的聚类、决策树和CRISP-DM概念

150+面试题，十大必读书，数据挖掘offer轻松搞定 | 面试宝典系列

数据挖掘实战（一）：Kaggle竞赛经典案例剖析

数据挖掘与数据化运营实战

【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化

资源总结——七步学习数据挖掘与数据科学

数据挖掘应用案例：RFM模型分析与客户细分

Python数据挖掘与机器学习技术入门实战

大数据处理：挖掘价值之道

大数据技术人员的打怪升级之路

利用SparkSQL Logical Plan Parse 打造大数据平台SQL诊断利器

大数据平台治理资源成本化

闲侃数仓优化-大数据治理和优化

探索云原生技术在大数据分析领域的应用

探索大数据技术：Hadoop与Spark的奥秘之旅

AI与大数据：智慧城市安全的护航者与变革引擎

大数据用户画像之基本概念

大数据之 Solr 集群搭建

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

下一篇

附部署代码｜云数据库RDS 全托管 Supabase服务：小白轻松搞定开发AI应用