2021年北京积分落户名单公布了,爬了两个多小时得到了所有数据,有了惊人的发现(附源码)

简介: 2021年北京积分落户名单公布了,手痒痒就写了一段Java代码,运行了两个多小时,终于到了所有数据,如下截图:

2021年北京积分落户名单公布了,手痒痒就写了一段Java代码,运行了两个多小时,终于到了所有数据,如下截图:

本着“Talk is cheap, Show me the code.”的原则,先看一下源码。

源码

落户实体类

先写一个落户实体类,便于储存和分析。

    @Setter
    @Getter
    static class Person {

        private int id;
        private String number;
        private String name;
        private int year;
        private int month;
        private String company;
        private double totalScore;
        private double[] detailScore;
    }

获取落户名单

获取落户名单的Ajax请求返回的居然是HTML,想法比较惊奇。直接写个正则表达式,提取想要的数据。

    private final static Pattern LIST_PATTERN = Pattern.compile(
            "<tr>[^<]*?<td[^>]*?>(\\S*?)</td>[^<]*?<td[^>]*?>(\\S*?)</td>[^<]*?<td[^>]*?>(\\d+)\\-(\\d+)</td>[^<]*?<td[^>]*?>(\\S*?)</td>[^<]*?<td[^>]*?>(\\S*?)</td>[^<]*?<td[^>]*?>[^<]*?<a[\\s\\S]*?onclick=\"showDetails\\('(\\d+)'\\)\">查看</a>[^<]*?</td>[^<]*?</tr>");

    private static List<Person> findPersonList() throws InterruptedException {
        String url = "http://fuwu.rsj.beijing.gov.cn/jf2021integralpublic/settlePerson/tablePage";
        List<Person> personList = new ArrayList<>();
        for (int page = 0; page <= 6040; page += 10) {
            Map<String, String> params = new HashMap<>();
            params.put("name", "");
            params.put("rows", "10");
            params.put("page", Integer.toString(page));
            String result = HttpUtils.doPost(url, params);
            Matcher matcher = LIST_PATTERN.matcher(result);
            while (matcher.find()) {
                Person person = new Person();
                person.setNumber(matcher.group(1));
                person.setName(matcher.group(2));
                person.setYear(Integer.parseInt(matcher.group(3)));
                person.setMonth(Integer.parseInt(matcher.group(4)));
                person.setCompany(matcher.group(5));
                person.setTotalScore(Double.parseDouble(matcher.group(6)));
                person.setId(Integer.parseInt(matcher.group(7)));
                personList.add(person);
            }
            log.info("page: {} ", page);
            Thread.sleep(1000);
        }
        return personList;
    }

获取积分详情

积分详情的Ajax请求返回也是HTML,直接写10个正则表达式,提取想要的数据。

    private final static Pattern[] DETAIL_PATTERN_ARRAY = {
            Pattern.compile("合法稳定就业</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("合法稳定住所</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("教育背景</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("扣除取得学历(学位)期间累计的居住及就业分值</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("创新创业</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("职住区域</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("纳税</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("年龄</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("荣誉表彰</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
            Pattern.compile("守法记录</td>[^<]*?<td[^>]*?>([\\d\\.\\-]+)"),
    };

    private static void enrichPersonList(List<Person> personList) throws InterruptedException {
        String url = "http://fuwu.rsj.beijing.gov.cn/jf2021integralpublic/settlePerson/settlePersonDetails";
        for (int i = 0; i < personList.size(); i++) {
            Person person = personList.get(i);
            Map<String, String> params = new HashMap<>();
            params.put("id", Integer.toString(person.getId()));
            String result = HttpUtils.doPost(url, params);
            double[] detailScore = new double[DETAIL_PATTERN_ARRAY.length];
            for (int j = 0; j < DETAIL_PATTERN_ARRAY.length; j++) {
                Matcher matcher = DETAIL_PATTERN_ARRAY[j].matcher(result);
                if (matcher.find()) {
                    detailScore[j] = Double.parseDouble(matcher.group(1));
                } else {
                    log.error("index: {}\n{}", j, result);
                }
            }
            person.setDetailScore(detailScore);
            log.info("person count: {} / {}", i, personList.size());
            Thread.sleep(1000);
        }
    }

数据分析

现在已经有很多统计和分析,比如:年龄分布、公司排名,都已经烂大街了,一搜就能搜到,我们来看看不一样的。

有163人没上过大学,其中有19人年薪超过65万,占比11.65%;有5882人上了大学,其中有1476人年薪超过65万,占比25.09%。所以,要想获得更好的生活条件和境遇,需要更高的学历

相关文章
|
Android开发
程序人生 - 为什么王者荣耀有排名没称号,周一几点有荣耀称号?
程序人生 - 为什么王者荣耀有排名没称号,周一几点有荣耀称号?
235 0
|
机器学习/深度学习 人工智能 安全
官宣:NeurIPS 2020转为纯线上大会,注册费大降,人数不限
在审稿截止日期两次推迟之后,人工智能顶会 NeurIPS 2020 今天宣布将完全转为线上会议。
185 0
官宣:NeurIPS 2020转为纯线上大会,注册费大降,人数不限
|
Unix 程序员 编译器
史上最烂项目:苦撑12年,600多万行代码
  君不见超级长且烂的项目,还在坚持干了12年。   你见过最烂的项目,撑了多长时间才完蛋?六个月?一年?今天介绍的这个奇葩项目,不但一开始就烂得透透的,还硬撑了12年多,直到项目负责人被逮起来丢进监狱才完事。   到底有多烂?用下面这组触目惊心的数据告诉你:   总共 600 多万行 C++ 代码。   总共 50000 多个类。   受编译器版本限制,用的 C++ 语法都是陈旧过时的,只能在某个(早就没有维护)的操作系统上部署。   基于 CORBA。
188 0
|
人工智能 机器人
“机甲战士”外卖小哥现身上海!负重一百斤一口气爬五楼,饿了么回应:落地时间未知
“机甲战士”外卖小哥现身上海!负重一百斤一口气爬五楼,饿了么回应:落地时间未知
211 0
|
运维 监控 Kubernetes
【云栖号案例 | 新零售】三只松鼠2019年全平台双11用时19分23秒破亿的秘诀
大促服务节点负载压力大,难以快速补充资源!上云后资源限定优化,订单处理2527笔/分时效缩短36%,发现问题快速滚动迭代,整体感受快、稳、方便。
【云栖号案例 | 新零售】三只松鼠2019年全平台双11用时19分23秒破亿的秘诀
|
达摩院 安全
第二届达摩院青橙奖名单揭晓,每人奖励100万!最小获奖者仅28岁
9月25日杭州云栖大会现场,阿里巴巴达摩院揭晓了第二届青橙奖获奖名单。10位青年科研学者经过层层筛选获得了这一奖项,每人将获得达摩院提供的100万元人民币奖金和全方位的研发资源支持。
|
存储 数据采集 数据挖掘
2018年苏州房价都快超过上海了,python技术实践分析一波!
2018年苏州房价都快超过上海了,python技术实践分析一波!
1244 0
|
新零售 大数据 搜索推荐
8月17日科技联播:搜索热度赶超214情人节,七夕成中国情侣“撒狗粮”官方指定时间
行行好,给单身狗一条活路呗,七夕已经当仁不让地成为“过浪漫”、“撒狗粮”官方指定时间,红芯浏览器微信致歉不应强调国产自主,这样的道歉你接受吗?“靠脸吃饭”的时代真的来了,支付宝宣布刷脸支付已经具备商业化的能力!.....在.“七夕效应”的影响下,今天的科技圈比较平静,可能大家都去撒狗粮了!
2161 0
天猫618理想生活狂欢季预售规则出炉!
天猫618理想生活狂欢季预售规则发布,和网商君一起来划重点!
1167 0