莆田系医院清洗日记(科普小文)

本文涉及的产品
数据可视化 DataV,5个大屏 1个月
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
简介: 用高德接口清洗可疑莆田医院的数据

引子

一夜间,百度和莆田系的话题院占领了俺的朋友圈。

直到这几天我才幡然觉悟,从小的性病广告,到公交车站的整容广告,到各种一看就伪科学的网站广告,原来师出一派。

本人不善口诛笔伐和道德说教,但好歹也被医院坑过一次,花了800做了个其实应该免费的婚检,自此才知道『军』字打头的医院未必是个好鸟。

昨天当我在github上看到了这个项目: https://github.com/langhua9527/BlackheartedHospital, 心头一震, 原来码农也能为这件事做点什么。

github是一个分布式代码托管仓库,这么说有点装逼,简言之是大家可以在这里进行多人协作,比如我修改了一个片段,他修改了一个片段,github可以帮着做合并。

现在github已经被玩坏了,比如这个找医院的项目,至今有57个人参与其中,3000多个star()。

清洗数据

问题来了,目前只有500个野鸡医院的名字,你要取得这500个医院的电话、省份、 城市、地区、地址供研究,你会怎么做,是一个个去搜索吗?

500个可以手动,如果是5000个呢,每次找到网站并刷出来需要15s,复制黏贴需要3s, 5个字段需要15s,加起来一条记录需要30s,5000条数据需要你一刻不停地高效率干一天半。

码农就是暖男,暖男让你的工作更省心。

如果我们用手机打开百度地图或者高德地图,随手输入一个地址,上海交大、上海交通大学、东川路800号,或在上海的视图搜索交大、交通大学,基本上你能找得到这个地方。

虽然一个地址不是很标准,我们还是能找到标准的信息,有时候还能跳个小框出来,告诉你这个地方的联系电话是多少。

代码片段

如果我们打开chrome,然后打开控制台(windows用户按f12,mac用户 alt + command + r),然后点击network。

然后在搜索框搜索『上海交通大学』,打开控制台,你可以找到一条类似于这样的请求:

http://ditu.amap.com/service/poiInfo?query_type=TQUERY&city=330100&keywords=%E4%B8%8A%E6%B5%B7%E4%BA%A4%E9%80%9A%E5%A4%A7%E5%AD%A6&pagesize=20&pagenum=1&qii=true&cluster_state=5&need_utd=true&utd_sceneid=1000&div=PC1000&addr_poi_merge=true&is_classify=true&geoobj=119.917027%7C30.180823%7C120.390125%7C30.393979

image

这个url有一段比较关键

keywords=%E4%B8%8A%E6%B5%B7%E4%BA%A4%E9%80%9A%E5%A4%A7%E5%AD%A6

很多字符是不能存在于url中的,所以浏览器会自动转化,各种语言应该都有这种转化的办法,比如javascript提供了2个函数做转换,我们可以在console里对这堆乱码进行试验,我们用encodeURI函数把中文转乱码,又用decodeURI转换成中文:

image

因此,如果我们有一堆可疑医院的列表,一条条告诉程序,程序把刚才url中key后面的乱码用下面的函数处理替换,就可以开始搜集信息了。

encodeURI('你想要搜索的地址')

我们可以看看这个接口包含的信息:

image

随意下载

爬虫的细节就先略过了,如果调用太频繁,有时候会被高德封掉,最简单的方法可疑让任务排个队,每次完了休息一小会。

这份数据大家可以免费地使用,也提供了json和csv的格式可供下载,因为初始数据修改过, 目前还没有合并到主项目中。
https://github.com/zhouningyi/BlackheartedHospital

所有的数据都为网友采集,并不为准,大家可以利用互联网,开始进一步的调查。

谢谢每天我们用来导航的地图服务,利用这个,我们批量清洗出了可疑医院的详细信息。

可疑医院地图

对于这份数据,顺便做了一份简单的热力图,可以点击每个热点看详细信息:

http://hotu.co/hospital/

image
image

贴些sample:

image

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
目录
相关文章
|
1月前
|
SQL 开发框架 Java
互联网医院在线问诊系统的设计与实现(论文+源码)_kaic
互联网医院在线问诊系统的设计与实现(论文+源码)_kaic
|
1月前
|
数据采集 NoSQL 搜索推荐
五一假期畅游指南:Python技术构建的热门景点分析系统解读
五一假期畅游指南:Python技术构建的热门景点分析系统解读
|
1月前
|
新能源 图形学
两千字——零基础开始打化工设计大赛——附搜集到的小白资料站、一次项目复盘
两千字——零基础开始打化工设计大赛——附搜集到的小白资料站、一次项目复盘
52 0
|
Windows
消防救援工作案例技术分享
无人机实时画面集成实现技术
消防救援工作案例技术分享
|
9月前
|
机器学习/深度学习 传感器 安全
2023 年高教社杯E题黄河水沙监测数据分析思路及代码(持续更新)
2023 年高教社杯E题黄河水沙监测数据分析思路及代码(持续更新)
|
机器学习/深度学习 数据采集 人工智能
【数据采集】采集软科大学排名、天气网、学校新闻网的数据 | 文末送书✨
目录 1. ① 1.1 题目 1.2 思路 1.2.1 发送请求 1.2.2 解析网页 1.2.3 获取结点 1.2.4 数据输出 2. ② 2.1 题目 2.2 思路 2.2.1 发送请求 2.2.2 解析网页 2.2.3 获取结点 2.2.4 数据输出 3. ③ 3.1 题目 3.2 思路 3.2.1 发送请求 3.2.2 解析网页 3.2.3 获取结点 3.2.4 数据输出 4. 福利送书
126 0
【数据采集】采集软科大学排名、天气网、学校新闻网的数据 | 文末送书✨
【氚云】嘘!揭开浙江机场值班签到系统的神秘面纱……
嘘!揭开浙江机场值班签到系统的神秘面纱……
361 0
【氚云】嘘!揭开浙江机场值班签到系统的神秘面纱……
|
数据采集 前端开发 Java
小猿日记(10) - 网站发展记录
做免费内容的时代已经过去,就连csdn从去年开始,重心就放在了收费模式上,也就是gitchat 那么我现在做的网站,做免费的内容是什么一个情况
627 0
|
存储 SQL 算法
戴口罩也能刷门禁?疫情下AnalyticDB亮出社区管理的宝藏神器!
戴口罩也能刷门禁?疫情下AnalyticDB亮出社区管理的宝藏神器!
1368 0
|
Web App开发 机器学习/深度学习 数据采集
<进击的虫师>舆情监测之获取数据
舆情监测是对互联网上公众的言论和观点进行监视和预测的行为.监测技术大多是基于爬虫的, 如果我们把相关热点事件的关键词, 用搜索引擎进行搜索, 并将结果保存到本地,就实现了舆情监测的第一环节:实时获取互联网数据 舆情监测.
1256 0