Java【代码分享 02】商品全部分类数据获取（建表语句+Jar包依赖+树结构封装+获取及解析源代码）包含csv和sql格式数据下载可用-阿里云开发者社区

Java【代码分享 02】商品全部分类数据获取（建表语句+Jar包依赖+树结构封装+获取及解析源代码）包含csv和sql格式数据下载可用

2023-12-23 424

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Java【代码分享 02】商品全部分类数据获取（建表语句+Jar包依赖+树结构封装+获取及解析源代码）包含csv和sql格式数据下载可用

【资源链接】

链接：https://pan.baidu.com/s/15fuerPIQgmwV1MZEts8jEQ

提取码：6psl

【包含文件】

1.说明

当前项目需要用到商品分类数据，在网上查了电商的首页进行获取。

2.实现

2.1 建表语句

项目用的是GreenPlum数据库，其他类型的数据库建表小伙伴儿们自己动手啊 😄

-- 建表
CREATE TABLE "data_commodity_classification" ( 
"id" VARCHAR ( 32 ), 
"parent_id" VARCHAR ( 32 ), 
"level" int2, 
"name" VARCHAR ( 64 ), 
"merger_name" VARCHAR ( 255 ) 
);
-- 注释
COMMENT ON TABLE "data_commodity_classification" IS '3级商品分类数据表';
COMMENT ON COLUMN "data_commodity_classification"."level" IS '类别等级';
COMMENT ON COLUMN "data_commodity_classification"."name" IS '商品分类';
COMMENT ON COLUMN "data_commodity_classification"."merger_name" IS '商品类别组合名';

2.2 Jar包依赖

jsoup是必须的，项目使用了mybatis-plus在保存对象时可以调用.saveBatch()方法，不是必须的。

<!--不用纠结于版本-->
<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.10.2</version>
</dependency>
<!--不是必须的-->
<dependency>
  <groupId>com.baomidou</groupId>
  <artifactId>mybatis-plus-boot-starter</artifactId>
  <version>3.3.0</version>
</dependency>

2.3 对象封装

用了lombok为的是在构建对象时用builder来简化代码：

@Data
@EqualsAndHashCode(callSuper = false)
@Accessors(chain = true)
@ApiModel(value="DataCommodityClassification对象", description="")
@Builder
public class DataCommodityClassification implements Serializable {
    private static final long serialVersionUID=1L;
    private String id;
    private String parentId;
    @ApiModelProperty(value = "类别等级")
    private Integer level;
    @ApiModelProperty(value = "商品分类")
    private String name;
    @ApiModelProperty(value = "商品类别组合名")
    private String mergerName;
}

2.4 爬虫源代码

html 页面标签：

数据获取逻辑：清除历史数据 > 爬取最新数据并封装 > 保存最新数据。

public boolean getCommodityClassificationData() throws IOException {
    // 首先清除历史数据
        LambdaQueryWrapper<DataCommodityClassification> lambdaQuery = Wrappers.lambdaQuery(DataCommodityClassification.class);
        dataCommodityClassificationService.remove(lambdaQuery);
        // 处理树结构ID【随手就写了 不知道有没有更好的方法】
        AtomicInteger atomicIntegerOne = new AtomicInteger();
        AtomicInteger atomicIntegerTwo = new AtomicInteger();
        AtomicInteger atomicIntegerThree = new AtomicInteger();
        // 结果数据
        List<DataCommodityClassification> dataCommodityClassificationList = new ArrayList<>();
        // ************* 以下是爬虫代码 *************
    // 地址信息
        String url = "https://www.jd.com/allSort.aspx";
        Document document = Jsoup.parse(new URL(url), 300000);
        // 获取包含所有分类数据的根元素
        Element root = document.getElementsByClass("category-items clearfix").get(0);
        // 获取一级分类标签数据
        Elements levelOne = root.getElementsByClass("category-item m");
        levelOne.forEach(one -> {
            String levelOneData = one.getElementsByClass("item-title").get(0).child(2).text();
            String oneId = "" + atomicIntegerOne.getAndIncrement();
            dataCommodityClassificationList.add(DataCommodityClassification.builder().id(oneId).parentId(null).level(0).name(levelOneData).build());
            // 获取二级分类标签数据
            Elements levelTwo = one.getElementsByClass("items").get(0).getElementsByTag("dl");
            levelTwo.forEach(two -> {
                String levelTwoData = two.getElementsByTag("dt").text();
                String twoId = oneId + atomicIntegerTwo.getAndIncrement();
                String mergerNameTwo = levelOneData + "," + levelTwoData;
                dataCommodityClassificationList.add(DataCommodityClassification.builder().id(twoId).parentId(oneId).level(1).name(levelTwoData).mergerName(mergerNameTwo).build());
                // 获取三级级分类标签数据
                Elements levelThree = two.getElementsByTag("dd").get(0).children();
                levelThree.forEach(three -> {
                    // 获取三级分类信息
                    String levelThreeData = three.text();
                    String threeId = twoId + atomicIntegerThree.getAndIncrement();
                    String mergerNameThree = mergerNameTwo + "," + levelThreeData;
                    dataCommodityClassificationList.add(DataCommodityClassification.builder().id(threeId).parentId(twoId).level(2).name(levelThreeData).mergerName(mergerNameThree).build());
                });
            });
        });
        // 保存最新数据
        boolean isSaveSuccess = dataCommodityClassificationService.saveBatch(dataCommodityClassificationList);
        return isSaveSuccess;
  }

3.结果

一级分类的parent_id和merger_name没有进行处理，不知道在业务使用的过程中有没有问题。

提供了csv和sql格式的数据，获取日期是20220310，需要最新数据的话就需要小伙伴儿们运行源代码获取了。

Java【代码分享 02】商品全部分类数据获取（建表语句+Jar包依赖+树结构封装+获取及解析源代码）包含csv和sql格式数据下载可用

1.说明

2.实现

2.1 建表语句

2.2 Jar包依赖

2.3 对象封装

2.4 爬虫源代码

3.结果

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Java【代码分享 02】商品全部分类数据获取（建表语句+Jar包依赖+树结构封装+获取及解析源代码）包含csv和sql格式数据下载可用

1.说明

2.实现

2.1 建表语句

2.2 Jar包依赖

2.3 对象封装

2.4 爬虫源代码

3.结果

热门文章

最新文章

相关课程

相关电子书

推荐镜像