一日一技:如何从地址中提取省市区?

简介: 一日一技:如何从地址中提取省市区?

摄影:产品经理今年自己做的第一锅小龙虾

假设我们通过爬虫获取了上万条不规范的地址信息:



杭州市滨江区网商路599号东城区和平里街道上海市徐汇区 xx 小区...

现在老板想让你把这些地址统一格式化为标准的省市区地址格式,并写入到 Excel 中。你应该如何操作?

有一个库,叫做 cpca,可以非常方便地解决这个问题。我们来写一段非常简单的代码,看看这个库有多简单:


import cpca
address_list = '''杭州市滨江区网商路599号东城区和平里街道上海市徐汇区 xx 小区'''.split('\n')
df = cpca.transform(address_list)print(df)

这个库能自动根据你写的部分地址,推测出这个地址所在的省市区。即使你把省市区省略了一部分,或者是使用简称,它也能识别出来,如下图所示:

cpca.transform返回的是一个 Pandas 的 DataFrame 对象,我们可以调用它的.to_csv()直接生成 csv 文件。如果我们再安装一个第三方库openpyxl,还可以直接生成 Excel 文件,如下图所示:

大家可以访问 GitHub - DQinYuan/chinese_province_city_area_mapper: 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块[1]查看更多用法,包括如何处理不同城市的同名区,并且还可以绘制热力图。

目录
相关文章
|
存储 Cloud Native Linux
openCV 图像对象的创建和赋值
openCV 图像对象的创建和赋值
|
存储 SQL 分布式计算
Flink - 读取 Parquet 文件 By Scala / Java
parquet 文件常见与 Flink、Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面介绍 Flink 场景下如何读取 Parquet。
1996 0
Flink - 读取 Parquet 文件 By Scala / Java
|
6月前
|
JSON 分布式计算 搜索推荐
用 Spark 优化亿级用户画像计算:Delta Lake 增量更新策略详解
在亿级用户画像计算中,传统全量更新面临数据量大、更新频繁、延迟敏感等挑战。本文详解如何结合 Spark 与 Delta Lake 实现高效增量更新,通过仅处理变化数据,显著降低资源消耗并提升实时性,助力构建高性能用户画像系统。
275 3
|
10月前
|
存储 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 8 数据库生态
PolarDB是一款开源的云原生分布式数据库,源自阿里云商业产品。为降低使用门槛,PolarDB携手伙伴打造了完整的开源生态,涵盖操作系统、芯片、存储、集成管控、监控、审计、开发者工具、数据同步、超融合计算、ISV软件、开源插件、人才培养、社区合作及大型用户合作等领域。通过这些合作伙伴,PolarDB提供了丰富的功能和服务,支持多种硬件和软件环境,满足不同用户的需求。更多信息请访问[PolarDB开源官方网站](https://openpolardb.com/home)。
483 4
|
12月前
|
JSON 前端开发 Java
【Bug合集】——Java大小写引起传参失败,获取值为null的解决方案
类中成员变量命名问题引起传送json字符串,但是变量为null的情况做出解释,@Data注解(Spring自动生成的get和set方法)和@JsonProperty
全国行政区划查询免费API接口教程
该接口提供全国(不含港澳台)各级行政区划查询服务,适用于地址填写、资料登记等场景。支持5级划分:省、市、区县、乡镇、村。请求需提供用户ID、KEY及查询级别等参数,返回地名列表或错误信息。 示例中ID和KEY为公共测试用,建议使用个人ID和KEY以享受更高调用频率。
2400 23
|
存储 缓存 JavaScript
WebSocket 学习
WebSocket是用于创建低延迟、高效率双向通信的协议,适合实时数据传输如即时通讯和在线游戏。它通过一次性握手建立长期连接,允许服务器主动推送数据。WebSocket API包括WebSocket对象和事件处理程序,如onopen、onmessage、onerror和onclose。示例代码展示了如何创建WebSocket连接、发送和接收消息及处理各种事件。WebSocket服务器通常需要特定的框架支持,如Node.js中的`ws`库。使用WebSocket时,前端和后端都可以监听open、close、error和message事件来管理连接状态和数据交换。
346 8
通过正则表达式获取字符串中的省市区
通过正则表达式获取字符串中的省市区
495 0
通过正则表达式获取字符串中的省市区
|
安全 开发工具 iOS开发
探索macOS原版镜像ISO的下载之道
探索macOS原版镜像ISO的下载之道
|
存储 NoSQL 搜索推荐
Redis地理位置和搜索:实现位置服务和简单搜索引擎
本篇深入研究了Redis的地理位置数据类型及其应用,以及如何基于Redis构建一个简单的搜索引擎。我们首先介绍了地理位置数据类型(Geo),展示了如何使用它来存储位置信息,并进行位置查询、距离计算以及附近位置搜索。通过代码示例,读者可以了解如何利用地理位置数据类型实现位置服务。
842 0

热门文章

最新文章