一日一技:如何从地址中提取省市区?

简介: 一日一技:如何从地址中提取省市区?

摄影:产品经理今年自己做的第一锅小龙虾

假设我们通过爬虫获取了上万条不规范的地址信息:



杭州市滨江区网商路599号东城区和平里街道上海市徐汇区 xx 小区...

现在老板想让你把这些地址统一格式化为标准的省市区地址格式,并写入到 Excel 中。你应该如何操作?

有一个库,叫做 cpca,可以非常方便地解决这个问题。我们来写一段非常简单的代码,看看这个库有多简单:


import cpca
address_list = '''杭州市滨江区网商路599号东城区和平里街道上海市徐汇区 xx 小区'''.split('\n')
df = cpca.transform(address_list)print(df)

这个库能自动根据你写的部分地址,推测出这个地址所在的省市区。即使你把省市区省略了一部分,或者是使用简称,它也能识别出来,如下图所示:

cpca.transform返回的是一个 Pandas 的 DataFrame 对象,我们可以调用它的.to_csv()直接生成 csv 文件。如果我们再安装一个第三方库openpyxl,还可以直接生成 Excel 文件,如下图所示:

大家可以访问 GitHub - DQinYuan/chinese_province_city_area_mapper: 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块[1]查看更多用法,包括如何处理不同城市的同名区,并且还可以绘制热力图。

目录
相关文章
|
2月前
|
存储 自然语言处理 API
基于 Python 的地址解析:自动识别姓名、电话、地址、详细地址与省市区
基于 Python 的地址解析:自动识别姓名、电话、地址、详细地址与省市区
253 1
|
4月前
Map——全国省市区EXCEL表格(包含code)
Map——全国省市区EXCEL表格(包含code)
61 0
|
JSON 定位技术 数据格式
GeoJSON区县级地理数据信息拼接使用说明
GeoJSON区县级地理数据信息拼接使用说明
658 0
|
定位技术
百度地图开发系列(3):地址逆解析
百度地图开发系列(3):地址逆解析
99 0
|
XML 数据采集 Web App开发
XPath数据提取与贴吧爬虫应用示例
XPath(XML Path Language)是一种用于在XML文档中定位和选择节点的语言。它提供了一种简洁的方式来遍历和提取XML文档中的数据。
127 1
提取信息
提取信息
172 0
|
小程序 开发者
微信小程序中如何实现省市区街道四级地址级联选择
微信小程序中如何实现省市区街道四级地址级联选择
2172 0
微信小程序中如何实现省市区街道四级地址级联选择
|
XML Oracle Java
JavaWeb-解析行政区划数据
手写Java实现网站文本解析功能,获取行政区划数据
347 0
JavaWeb-解析行政区划数据
|
JSON 定位技术 开发工具
DLA新增函数发布:身份证、星座、拼音、Json数组、经纬度城市查询、互联网坐标系经纬度转换等
概述 本月,Data Lake Analytics(https://et.aliyun.com/bdad/datalake)发布了一批新增的内置函数,涉及身份证地域查询、星座查询、中文拼音转换、Json数组内容字段提取、互联网坐标系经纬度转换等。
|
Web App开发
DEDE如何提取文章内容里面的第一张图片地址
 文章内容页里面是这样调用的  {dede:field.body/}  这个内容里面包含了图片,在后面,我要读取到第一张图片的地址,怎么办? 把{dede:field.body/}替换成以下代码:    dede教程-598080707.
642 0