1、统计文本中性别为“男”的用户数。2、统计每个省（或直辖市）用户数。-阿里云开发者社区

1、统计文本中性别为“男”的用户数。2、统计每个省（或直辖市）用户数。

2023-05-18 154

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1、统计文本中性别为“男”的用户数。2、统计每个省（或直辖市）用户数。

/*1、统计文本中性别为“男”的用户数。

2、统计每个省（或直辖市）用户数。*/

package thisterm;
import java.util.ArrayList;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
/*1、统计文本中性别为“男”的用户数。
2、统计每个省（或直辖市）用户数。*/
public class tongji {
  public static void main(String[] args) {
    SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local");
      JavaSparkContext sc = new JavaSparkContext(sparkConf);
      JavaRDD<String> rdd1 = sc.textFile
          ("file:///home/gyq/下载/spark-2.3.2-bin-hadoop2.7/data/test.txt");//*是所有文件内容
      List<String> list=new ArrayList<String>();
      list.add("北京市");
      list.add("天津市");
      list.add("上海市");
      list.add("重庆市");
      JavaRDD<String> manrdd=rdd1.filter(f->f.contains("男"));//男性
      long a = manrdd.count();
      System.err.println("男性为"+a);
      JavaPairRDD<String,Integer> prdd1=rdd1.mapToPair(f->{//中国辽宁省,1) (中国 广东省,1)有这种东西存在
        return new Tuple2<>(f.split(",")[6].trim().
            replaceAll("[\\pP+~$`^=|<>～｀＄＾＋＝｜＜＞￥×]" , "")
            .replaceAll("中国", "").trim().
            replaceAll("廣東省", "广东省").
            replaceAll("広東省", "广东省").
            replaceAll("廣西省", "广西省").
            replaceAll("辽省", "辽宁省").
            replaceAll("北京省", "北京市")
            ,1);});
      JavaPairRDD<String,Integer> prdd5=prdd1.filter(f->
      ((f._1.matches(".*省")||list.contains(f._1))&&!isNumeric(f._1));//
    //(94省,1)有这种东西存在
      JavaPairRDD<String,Integer> rdd2=prdd5.reduceByKey((x,y)->x+y);
      rdd2.foreach(f->System.err.println(f));
      sc.stop();
  }
   static boolean isNumeric(String str) {//判读是否含有数字
    for (int i = str.length(); --i >= 0;) {
    int chr = str.charAt(i);
    if (chr > 48 && chr < 57)
    return true;
  }
return false;
    }
}
————————————————
版权声明：本文为CSDN博主「西柚与蓝莓」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/m0_53291740/article/details/123458033

47.1.png

台湾是中国的省

1、统计文本中性别为“男”的用户数。2、统计每个省（或直辖市）用户数。

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

1、统计文本中性别为“男”的用户数。2、统计每个省（或直辖市）用户数。

热门文章

最新文章

相关电子书