spark wordcount 第一个spark 程序

简介:       wordcount package com.baoy.worldcount import org.apache.spark.{SparkConf, SparkContext} /** * Created by cmcc-B100036 on 2016/4/1.

 

 

 

wordcount

package com.baoy.worldcount

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by cmcc-B100036 on 2016/4/1.
  */
object WordCount {
  def main(args: Array[String]) {
    if(args.length == 0) {
      println("usage: wordcount <file>")
      System.exit(1)
    }
    val conf = new SparkConf ().setAppName("wordcount")
    val sc = new SparkContext(conf)
    sc.textFile(args(0))
      .flatMap(_.split(" "))
      .map(x => (x, 1))
      .reduceByKey(_ + _)
      .foreach(println)
    sc.stop()
  }
}

 

 

pom

 <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.10</artifactId>
      <version>1.4.1</version>
      <scope>provided</scope>
    </dependency>

 

 

准备原始数据



 

在 /home/cloudera/baoyou/data/log

创建文件 wordcount.log   

 

 在 hdfs 上创建 /data 路径

hdfs dfs -mkdir /data

 

 

上传 wordcount.log 到data路径

hdfs dfs -put wordcount.log /data/

 

 

 

 

运行 本地 spark-submit

 spark-submit  --class com.baoy.worldcount.WordCount --master local  /home/cloudera/baoyou/project/SparkDemo.jar /data/wordcount.log

 

 

运行结果:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

捐助开发者

在兴趣的驱动下,写一个免费的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。



 
 
 谢谢您的赞助,我会做的更好!

 

 

 

 

目录
相关文章
|
8月前
|
分布式计算 Java Scala
181 Spark IDEA中编写WordCount程序
181 Spark IDEA中编写WordCount程序
44 0
|
8月前
|
分布式计算 算法 Shell
180 Spark程序执行
180 Spark程序执行
32 0
|
2月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
111 0
|
11天前
|
分布式计算 资源调度 Java
Scala+Spark+Hadoop+IDEA实现WordCount单词计数,上传并执行任务(简单实例-下)
Scala+Spark+Hadoop+IDEA实现WordCount单词计数,上传并执行任务(简单实例-下)
16 0
|
11天前
|
分布式计算 Hadoop Scala
Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数(简单实例-上)
Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数(简单实例-上)
13 0
|
2月前
|
分布式计算 Java 测试技术
Spark 单元测试报Error:(26, 16) java: 程序包sun.misc不存在
Spark 单元测试报Error:(26, 16) java: 程序包sun.misc不存在
23 0
|
2月前
|
分布式计算 监控 Java
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
60 0
|
2月前
|
分布式计算 大数据 Java
大数据必知必会系列——面试官问能不能手写一个spark程序?[新星计划]
大数据必知必会系列——面试官问能不能手写一个spark程序?[新星计划]
56 0
|
2月前
|
分布式计算 资源调度 监控
Spark应用程序的结构与驱动程序
Spark应用程序的结构与驱动程序
|
2月前
|
存储 分布式计算 Apache
Spark编程范例:Word Count示例解析
Spark编程范例:Word Count示例解析