【大数据学习篇9】各区域热门商品Top3分析

2023-06-12 111

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【大数据学习篇9】各区域热门商品Top3分析

学习目标/Target

掌握各区域热门商品Top3分析实现思路

掌握如何创建Spark连接并读取数据集

掌握利用Spark获取业务数据

掌握利用Spark过滤商品的行为类型

掌握利用Spark转换数据格式

掌握利用Spark统计每个区域中的不同商品

掌握利用Spark根据区域进行分组

掌握利用Spark根据区域内商品的查看次数进行排序

掌握将数据持久化到HBase数据库

熟悉通过Spark On YARN运行程序

用户在访问电商网站时，网站在存储用户行为数据的同时，还会通过IP地址或位置信息存储用户触发行为所在的区域数据。通过统计各区域不同商品被查看的次数，获取每个区域内比较热门的商品。本章将通过对电商网站存储的用户行为数据进行分析，从而统计出各区域排名前3的热门商品。

1. 实现思路分析

获取数据集中所有用户数据，过滤出用户行为类型为查看的数据，通过商品被查看的次数为依据判断哪些商品属于热门商品。对过滤后的数据进行聚合操作，统计每个区域不同商品的查看次数。按照区域对聚合后的数据进行分组处理，将分组后的数据进行降序排序，获取各区域排名前3的商品，就是各区域热门商品Top3。

读取/转换：读取数据集中的区域名称（address_name）、行为类型（event_type）和商品ID（product_id）数据；

过滤：过滤行为类型为view（查看）的数据；

转换：便于后续聚合处理时，将相同Key的Value值进行累加，这里需要对数据格式进行转换处理，将区域名称和商品ID作为Key，值1作为Value。由于过滤后的数据行为类型都是查看，在后续的处理中便不再需要行为类型数据；

聚合：统计每个区域中不同商品的查看次数；

转换/分组：对数据格式进行转换，将区域名称作为Key，商品ID和商品被查看的次数作为Value。接下来，将转换后的数据根据Key进行分组，统计各个区域被查看的商品及每个商品查看的次数；

排序：对每一组数据的值进行排序，即对各个区域每个商品被查看的次数进行降序排序。

2. 实现各区域热门商品Top3

2.1 创建Spark连接并读取数据集

在项目SparkProject的 java目录新建Package包“cn.itcast.top3”，用于存放实现各区域热门商品Top3的Java文件。在包“cn.itcast.top3”中创建文件AreaProductTop3.java，用于实现各区域热门商品Top3。

public class AreaProductTop3{
    public static void main(String[] arg){
    //实现各区域热门商品Top3分析
    }f
}

在main()方法中，创建JavaSparkContext和SparkConf对象，JavaSparkContext对象用于实现Spark程序，SparkConf对象用于配置Spark程序相关参数。

SparkConf conf = new SparkConf(); //设置Application名称为top3_area_product conf.setAppName("top3_area_product"); JavaSparkContext sc = new JavaSparkContext(conf);

在main()方法中，调用JavaSparkContext对象的textFile()方法读取外部文件，将文件中的数据加载到textFileRDD。

JavaRDD<String> textFileRDD = sc.textFile(arg[0]);

2.2 获取业务数据

在main()方法中，使用mapToPair()算子转换textFileRDD的每一行数据，用于获取每一行数据中的行为类型、区域名称和商品ID数据，将转换结果加载到transProductRDD。

JavaPairRDD<Tuple2<String,String>,String> transProductRDD = textFileRDD.mapToPair(new PairFunction<String,Tuple2<String, String>,String>() {

@Override

public Tuple2<Tuple2<String, String>, String> call(String s) throws Exception {

JSONObject json = JSONObject.parseObject(s);

String address_name = json.getString("address_name").replaceAll("\\u00A0+",""); String product_id = json.getString("product_id");

String event_type = json.getString("event_type");

Tuple2<Tuple2<String,String>,String> tuple2 =

new Tuple2<>( new Tuple2<>(address_name,product_id), event_type);

return tuple2;

}

});

2.3 过滤商品的行为类型

在main()方法中，使用filter()算子过滤transProductRDD每一行数据中行为类型为加入购物车和购买的数据，只保留行为类型为查看的数据，将过滤结果加载到getViewRDD。

JavaPairRDD<Tuple2<String, String>, String> getViewRDD =

transProductRDD.filter(new Function<Tuple2<

Tuple2<String, String>, String>, Boolean>() {

@Override

public Boolean call(

Tuple2<Tuple2<String, String>, String> tuple2)

throws Exception {

String event_type = tuple2._2;

return event_type.equals("view");

}

});

2.4 转换数据格式

在main()方法中，使用mapToPair()算子转换getViewRDD的每一行数据，用于替换行为类型数据为1，将转换结果加载到productByAreaRDD。

JavaPairRDD<Tuple2<String,String>,Integer> productByAreaRDD = getViewRDD.mapToPair(

new PairFunction<Tuple2<Tuple2<String, String>, String>,

Tuple2<String, String>,

Integer>() {

@Override

public Tuple2<Tuple2<String, String>, Integer> call(

Tuple2<Tuple2<String, String>, String> tuple2)

throws Exception {

return new Tuple2<>(tuple2._1,new Integer(1));

}

});

2.5 统计每个区域中的不同商品

在main()方法中，使用reduceByKey()算子对productByAreaRDD进行聚合操作，用于统计每个区域中不同商品的查看次数，将统计结果加载到productCountByAreaRDD。

JavaPairRDD<Tuple2<String,String>,Integer> productCountByAreaRDD = productByAreaRDD.reduceByKey(

new Function2<Integer, Integer, Integer>() {

@Override

public Integer call(Integer integer, Integer integer2)

throws Exception {

return integer+integer2;

}

});

2.6 根据区域进行分组

在main()方法中，使用mapToPair()算子转换productCountByAreaRDD的每一行数据，将转换结果加载到transProductCountByAreaRDD

JavaPairRDD<String,Tuple2<String,Integer>> transProductCountByAreaRDD =productCountByAreaRDD.mapToPair(new PairFunction<Tuple2<Tuple2<String, String>, Integer>,String, Tuple2<String, Integer>>() {

@Override

public Tuple2<String, Tuple2<String, Integer>> call(Tuple2<Tuple2<String, String>, Integer> tuple2) throws Exception {
                return new Tuple2<>(tuple2._1._1, new Tuple2<>(tuple2._1._2,tuple2._2));
            }
        });

在main()方法中，使用groupByKey()算子对transProductCountByAreaRDD进行分组操作，将同一区域内的商品以及商品被查看的次数合并在一起，通过productGroupByAreaRDD加载分组结果。

JavaPairRDD<String, Iterable<Tuple2<String, Integer>>>

productGroupByAreaRDD = transProductCountByAreaRDD.groupByKey();

2.7 根据区域内商品的查看次数进行排序

在main()方法中，使用mapToPair()算子转换productGroupByAreaRDD的每一行数据，将同一区域内的商品按照商品被查看的次数进行逆序排序，通过productSortByAreaRDD加载排序结果。

JavaPairRDD<String, Iterable<Tuple2<String, Integer>>> productSortByAreaRDD =productGroupByAreaRDD

.mapToPair( new PairFunction<Tuple2<String, Iterable<Tuple2<String, Integer>>>,String,Iterable<Tuple2<String, Integer>>>() {

@Override

public Tuple2<String, Iterable<Tuple2<String, Integer>>> call(Tuple2<String, Iterable<Tuple2<String, Integer>>> tuple2)

throws Exception {

List<Tuple2<String,Integer>> list = new ArrayList<>(); Iterator<Tuple2<String,Integer>> iter = tuple2._2.iterator(); while (iter.hasNext()){

list.add(iter.next());

}

list.sort(new Comparator<Tuple2<String, Integer>>() {

@Override

public int compare(Tuple2<String, Integer> o1,Tuple2<String, Integer> o2) {

return o2._2 - o1._2;

}

});

return new Tuple2<>(tuple2._1,list);

}

});

2.8 数据持久化

获取各区域热门商品Top3数据

在类AreaProductTop3的main()方法中，使用mapToPair()算子转换productSortByAreaRDD的每一行数据，获取每个区域排名前3的商品，通过productSortByAreaRDD加载转换结果。

JavaPairRDD<String, Iterable<Tuple2<String, Integer>>> top3AreaProductRDD=productSortByAreaRDD.mapToPair(new PairFunction<Tuple2<String, Iterable<Tuple2<String, Integer>>>,String,Iterable<Tuple2<String, Integer>>>() {

@Override

public Tuple2<String, Iterable<Tuple2<String, Integer>>> call(Tuple2<String, Iterable<Tuple2<String, Integer>>> tuple2) throws Exception {

List<Tuple2<String,Integer>> list = new ArrayList<>();

Iterator<Tuple2<String,Integer>> iter = tuple2._2.iterator();

int i = 0;

while (iter.hasNext()){

list.add(iter.next());

i++;

if (i == 3){

break;

}

return new Tuple2<>(tuple2._1,list);

}

});

持久化各区域热门商品Top3数据

在类AreaProductTop3的main()方法中，添加方法top3ToHbase()，用于将各区域热门商品Top3分析结果持久化到HBase数据库中，该方法包含参数rdd，表示各区域热门商品Top3分析结果数据。

public static void top3ToHbase(JavaPairRDD<String, Iterable<Tuple2<String, Integer>>> rdd) throws IOException {

}

在方法top3ToHbase()中创建数据表top3和列族top3_area_product，并且创建数组column用于存储数据表top3的列名。

HbaseUtils.createTable("top3","top3_area_product");

String[] column ={"area","product_id","viewcount"};

持久化各区域热门商品Top3数据

在方法top3ToHbase()中通过foreach()算子遍历各区域热门商品Top3分析结果数据。

rdd.foreach(new VoidFunction<Tuple2<String,Iterable<Tuple2<String, Integer>>>>()

{

@Override

public void call(Tuple2<String, Iterable<Tuple2<String, Integer>>> tuple2) throws Exception { String area = tuple2._1,product_id = "",viewcount = "";

Iterator<Tuple2<String,Integer>> iter = tuple2._2.iterator();

List<Tuple2<String,Integer>> myList = Lists.newArrayList(iter);

for (Tuple2<String,Integer> tuple : myList) {

product_id = tuple._1;

viewcount = String.valueOf(tuple._2);

String [] value = {area,product_id,viewcount};

try { HbaseUtils.putsToHBase("top3",area+product_id,"top3_area_product",column,value); } catch (Exception e) {

e.printStackTrace();

}

});

}

在类AreaProductTop3的main()方法中，调用top3ToHbase()方法并传入参数top3AreaProductRDD，用于在Spark程序中实现top3ToHbase()方法，将各区域热门商品Top3分析结果持久化到HBase数据库中的数据表top3。

try {

top3ToHbase(top3AreaProductRDD);

} catch (IOException e) {

e.printStackTrace();

}

HbaseConnect.closeConnection();

sc.close();

3. 运行程序

在IntelliJ IDEA中将各区域热门商品Top3分析程序封装成jar包，并上传到集群环境中，通过spark-submit将程序提交到YARN中运行。

封装jar包：

由于在封装热门品类Top10分析程序jar包时，将程序主类指向了“cn.itcast.top10.CategoryTop10”，因此这里需要将pom.xml文件中的程序主类修改为“cn.itcast.top3.AreaProductTop3”。根据封装热门品类Top10分析程序jar包的方式封装各区域热门商品Top3分析程序。将封装完成的jar包重命名为“AreaProductTop3”，通过远程连接工具SecureCRT将AreaProductTop3.jar上传到虚拟机Spark01的/export/SparkJar/目录下。

提交各区域热门商品Top3分析程序到YARN集群

通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交各区域热门商品Top3分析程序到YARN集群运行。

查看程序运行结果：

在虚拟机Spark01执行“hbase shell”命令，进入HBase命令行工具。

在HBase命令行工具中执行“list”命令，查看HBase数据库中的所有数据表。

> list TABLE

test

top10 top3

2 row(s) in 0.1810 seconds

在HBase命令行工具执行“scan 'top3'”命令，查看数据表top3中所有数据。

本文主要讲解了如何通过用户行为数据实现各区域热门商品Top3分析，首先通过分析实现思路，使读者了解各区域热门商品Top3分析的实现流程。然后通过IntelliJ IDEA开发工具实现各区域热门商品Top3分析程序并将分析结果存储到HBase数据库，使读者掌握运用Java语言编写Spark Core和HBase程序的能力。最后封装各区域热门商品Top3分析程序并提交到集群运行，使读者掌握运用IntelliJ IDEA开发工具封装Spark Core程序以及Spark ON YARN模式运行Spark Core程序的方法。

【大数据学习篇9】各区域热门商品Top3分析

学习目标/Target

1. 实现思路分析

2. 实现各区域热门商品Top3

2.1 创建Spark连接并读取数据集

2.2 获取业务数据

2.3 过滤商品的行为类型

2.4 转换数据格式

2.5 统计每个区域中的不同商品

2.6 根据区域进行分组

2.7 根据区域内商品的查看次数进行排序

2.8 数据持久化

持久化各区域热门商品Top3数据

持久化各区域热门商品Top3数据

3. 运行程序

封装jar包：

提交各区域热门商品Top3分析程序到YARN集群

查看程序运行结果：

热门文章

最新文章

相关课程

相关电子书

相关实验场景