一个还不错的离线 IP 地址定位库,99.9% 准确率

简介: 一个还不错的离线 IP 地址定位库,99.9% 准确率
  • Ip2region特性
  • ip2region快速测试
  • ip2region安装
  • ip2region 并发使用
  • ip2region.db的生成

 

ip2region - 准确率99.9%的离线IP地址定位库,0.0x毫秒级查询,ip2region.db数据库只有数MB,提供了java,php,c,python,nodejs,golang,c#等查询绑定和Binary,B树,内存三种查询算法。

 

Ip2region特性

 

99.9%准确率

 

数据聚合了一些知名ip到地名查询提供商的数据,这些是他们官方的的准确率,经测试着实比经典的纯真IP定位准确一些。

 

ip2region的数据聚合自以下服务商的开放API或者数据(升级程序每秒请求次数2到4次): 01, >80%, 淘宝IP地址库, http://ip.taobao.com/ 02, ≈10%, GeoIP, https://geoip.com/ 03, ≈2%, 纯真IP库, http://www.cz88.net/ **备注:**如果上述开放API或者数据都不给开放数据时ip2region将停止数据的更新服务。

 

标准化的数据格式

 

每条ip数据段都固定了格式:

 

_城市Id|国家|区域|省份|城市|ISP_

 

只有中国的数据精确到了城市,其他国家有部分数据只能定位到国家,后前的选项全部是0,已经包含了全部你能查到的大大小小的国家(请忽略前面的城市Id,个人项目需求)。

 

体积小

 

包含了全部的IP,生成的数据库文件ip2region.db只有几MB,最小的版本只有1.5MB,随着数据的详细度增加数据库的大小也慢慢增大,目前还没超过8MB。

 

查询速度快

 

全部的查询客户端单次查询都在0.x毫秒级别,内置了三种查询算法

 

  1. memory算法:整个数据库全部载入内存,单次查询都在0.1x毫秒内,C语言的客户端单次查询在0.00x毫秒级别。
  2. binary算法:基于二分查找,基于ip2region.db文件,不需要载入内存,单次查询在0.x毫秒级别。
  3. b-tree算法:基于btree算法,基于ip2region.db文件,不需要载入内存,单词查询在0.x毫秒级别,比binary算法更快。

 

任何客户端b-tree都比binary算法快,当然memory算法固然是最快的!

 

多查询客户端的支持

 

已经集成的客户端有:java、C#、php、c、python、nodejs、php扩展(php5和php7)、golang、rust、lua、lua_c, nginx。

 

binding 描述 开发状态 binary查询耗时 b-tree查询耗时 memory查询耗时
c ANSC c binding 已完成 0.0x毫秒 0.0x毫秒 0.00x毫秒
c# c# binding 已完成 0.x毫秒 0.x毫秒 0.1x毫秒
golang golang binding 已完成 0.x毫秒 0.x毫秒 0.1x毫秒
java java binding 已完成 0.x毫秒 0.x毫秒 0.1x毫秒
lua lua实现的binding 已完成 0.x毫秒 0.x毫秒 0.x毫秒
lua_c lua的c扩展 已完成 0.0x毫秒 0.0x毫秒 0.00x毫秒
nginx nginx的c扩展 已完成 0.0x毫秒 0.0x毫秒 0.00x毫秒
nodejs nodejs 已完成 0.x毫秒 0.x毫秒 0.1x毫秒
php php实现的binding 已完成 0.x毫秒 0.1x毫秒 0.1x毫秒
php5_ext php5的c扩展 已完成 0.0x毫秒 0.0x毫秒 0.00x毫秒
php7_ext php7的c扩展 已完成 0.0毫秒 0.0x毫秒 0.00x毫秒
python python bindng 已完成 0.x毫秒 0.x毫秒 0.x毫秒
rust rust binding 已完成 0.x毫秒 0.x毫秒 0.x毫秒

 

ip2region快速测试

 

请参考每个binding下的README说明去运行cli测试程序,例如C语言的demo运行如下:

 

cd binding/c/
gcc -g -O2 testSearcher.c ip2region.c
./a.out ../../data/ip2region.db

 

会看到如下cli界面:

 

initializing  B-tree ...
+----------------------------------+
| ip2region test script            |
| Author: chenxin619315@gmail.com  |
| Type 'quit' to exit program      |
+----------------------------------+
p2region>> 101.105.35.57
2163|中国|华南|广东省|深圳市|鹏博士 in 0.02295 millseconds

 

输入IP地址开始测试,第一次会稍微有点慢,在运行命令后面接入binary,memory来尝试其他算法,建议使用b-tree算法,速度和并发需求的可以使用memory算法,具体集成请参考不同binding下的测试源码。

 

ip2region安装

 

具体请参考每个binding下的README文档和测试demo,以下是一些可用的快捷安装方式:

 

maven仓库地址

 

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>ip2region</artifactId>
    <version>1.7.2</version>
</dependency>

 

nodejs

 

npm install node-ip2region --save

 

nuget安装

 

Install-Package IP2Region

 

php composer

 

# 插件来自:https://github.com/zoujingli/ip2region
composer require zoujingli/ip2region

 

ip2region 并发使用

 

  1. 全部binding的各个search接口都不是线程安全的实现,不同线程可以通过创建不同的查询对象来使用,并发量很大的情况下,binary和b-tree算法可能会打开文件数过多的错误,请修改内核的最大允许打开文件数(fs.file-max=一个更高的值),或者使用持久化的memory算法。
  2. memorySearch接口,在发布对象前进行一次预查询(本质上是把ip2region.db文件加载到内存),可以安全用于多线程环境。

 

ip2region.db的生成

 

从1.8版本开始,ip2region开源了ip2region.db生成程序的java实现,提供了ant编译支持,编译后会得到以下提到的dbMaker-{version}.jar,对于需要研究生成程序的或者更改自定义生成配置的请参考${ip2region_root}/maker/java内的java源码。

 

从ip2region 1.2.2版本开始里面提交了一个dbMaker-{version}.jar的可以执行jar文件,用它来完成这个工作:

 

  1. 确保你安装好了java环境(不玩Java的童鞋就自己谷歌找找拉,临时用一用,几分钟的事情)
  2. cd到${ip2region_root}/maker/java,然后运行如下命令:

 

java -jar dbMaker-{version}.jar -src 文本数据文件 -region 地域csv文件 [-dst 生成的ip2region.db文件的目录]
 
# 文本数据文件:db文件的原始文本数据文件路径,自带的ip2region.db文件就是/data/ip.merge.txt生成而来的,你可以换成自己的或者更改/data/ip.merge.txt重新生成
# 地域csv文件:该文件目的是方便配置ip2region进行数据关系的存储,得到的数据包含一个city_id,这个直接使用/data/origin/global_region.csv文件即可
# ip2region.db文件的目录:是可选参数,没有指定的话会在当前目录生成一份./data/ip2region.db文件

 

获取生成的ip2region.db文件覆盖原来的ip2region.db文件即可

 

默认的ip2region.db文件生成命令:

相关文章
|
算法 JavaScript Java
使用强大的离线IP地址定位库ip2region获取城市信息
ip2region - 准确率99.9%的离线IP地址定位库,0.0x毫秒级查询,ip2region.db数据库只有数MB,提供了java、php、c、python、nodejs、golang、c#等查询绑定和Binary,B树,内存三种查询算法。
使用强大的离线IP地址定位库ip2region获取城市信息
|
4月前
|
自然语言处理
预训练模型STAR问题之开放信息抽取(OpenIE)目标的问题如何解决
预训练模型STAR问题之开放信息抽取(OpenIE)目标的问题如何解决
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
278 0
|
Web App开发 存储 缓存
离线网络搜索
离线网络搜索是指在本地计算机或移动设备上进行网络搜索,而不是通过互联网连接到远程服务器进行搜索。这种技术可以用于在没有网络连接或网络连接不稳定的情况下进行搜索,或者出于隐私或安全考虑而需要保护搜索历史记录和搜索活动。
514 3
|
数据采集 监控 开发者
网站流量日志分析--数据预处理--点击流模型之 pageviews 模型| 学习笔记
快速学习网站流量日志分析--数据预处理--点击流模型之 pageviews 模型
网站流量日志分析--数据预处理--点击流模型之 pageviews 模型| 学习笔记
|
数据采集 监控 开发者
网站流量日志分析--数据预处理--点击流模型概念| 学习笔记
快速学习网站流量日志分析--数据预处理--点击流模型概念
网站流量日志分析--数据预处理--点击流模型概念| 学习笔记
|
数据采集 监控 BI
网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记
快速学习网站流量日志分析--数据预处理--点击流模型之 visit 模型
网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记
|
数据采集 监控 开发者
网站流量日志分析--数据预处理--点击流模型 pageviews 编程实现思路| 学习笔记
快速学习网站流量日志分析--数据预处理--点击流模型 pageviews 编程实现思路
网站流量日志分析--数据预处理--点击流模型 pageviews 编程实现思路| 学习笔记
|
数据采集 存储 消息中间件
爬虫识别-准备离线计算数据| 学习笔记
快速学习爬虫识别-准备离线计算数据
爬虫识别-准备离线计算数据| 学习笔记
|
Ubuntu
Kitti360数据下载(无需科学上网)
Kitti360数据下载(无需科学上网)
1643 0