MaxCompute中实现IPv4和IPv6地址归属地转换-阿里云开发者社区

开发者社区> 阿里巴巴大数据计算> 正文
登录阅读全文

MaxCompute中实现IPv4和IPv6地址归属地转换

简介: 大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能。其中把IP地址转换为归属地又是极为常见的一种场景。本文将介绍在MaxCompute如何根据IPv4和IPv6地址实现归属地转换。

一、需求场景

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能,其中应用非常广泛的一种场景就是把IP地址转换为归属地又是极为常见的一种场景。那么利用MaxCompute如何实现IPv4和IPv6地址向归属地的转换呢?

本文通过MaxCompute UDF方式来实现IPv4和IPv6地址转换。首先,要实现IPv4和IPv6地址与归属地的转换必须要有IP地址库。没错,我们首先要把IPv4和IPv6地址库下载到本地,分别命名为ipv4.txt和ipv6.txt。

二、实现思路

1、将ipv4.txt和ipv6.txt地址库中IPv4和IPv6分别转换为数值和数值字符串做排序。 

2、采用二分查找找到ip所属的范围,根据ipv4.txt和ipv6.txt库输出对应范围所归属的省份和城市信息。

三、UDF编写

MaxCompute如何实现UDF可以参考官方文档:MaxCompute UDF

实现UDF需要继承com.aliyun.odps.udf.UDF类,并实现evaluate方法。

1、实现setup方法加载IP地址库数据,并做初始化

代码片段如下:

    public void setup(ExecutionContext ctx) throws UDFException, IOException {
        //IPV4
        if(ipV4ObjsArray==null)
        {
            BufferedInputStream bufferedInputStream = ctx.readResourceFileAsStream("ipv4.txt");

            BufferedReader br = new BufferedReader(new InputStreamReader(bufferedInputStream));
            ArrayList<IpV4Obj> ipV4ObjArrayList=new ArrayList<>();
            String line = null;
            while ((line = br.readLine()) != null) {
                String[] f = line.split("\\|", -1);
                if(f.length>=5)
                {
                    long startIp = IpUtils.StringToLong(f[0]);
                    long endIp = IpUtils.StringToLong(f[1]);
                    String city=f[3];
                    String province=f[4];
                    IpV4Obj ipV4Obj = new IpV4Obj(startIp, endIp, city, province);
                    ipV4ObjArrayList.add(ipV4Obj);
                }
            }
            br.close();
            List<IpV4Obj> collect = ipV4ObjArrayList.stream().sorted(Comparator.comparing(IpV4Obj::getStartIp)).collect(Collectors.toList());
            ArrayList<IpV4Obj> basicIpV4DataList=(ArrayList)collect;
            IpV4Obj[] ipV4Objs = new IpV4Obj[basicIpV4DataList.size()];
            ipV4ObjsArray = basicIpV4DataList.toArray(ipV4Objs);
        }

        //IPV6
        if(ipV6ObjsArray==null)
        {
            BufferedInputStream bufferedInputStream = ctx.readResourceFileAsStream("ipv6.txt");
            BufferedReader br = new BufferedReader(new InputStreamReader(bufferedInputStream));
            ArrayList<IpV6Obj> ipV6ObjArrayList=new ArrayList<>();
            String line = null;
            while ((line = br.readLine()) != null) {
                String[] f = line.split("\\|", -1);
                if(f.length>=5)
                {
                    String startIp = IpUtils.StringToBigIntString(f[0]);
                    String endIp = IpUtils.StringToBigIntString(f[1]);
                    String city=f[3];
                    String province=f[4];
                    IpV6Obj ipV6Obj = new IpV6Obj(startIp, endIp, city, province);
                    ipV6ObjArrayList.add(ipV6Obj);
                }
            }
            br.close();
            List<IpV6Obj> collect = ipV6ObjArrayList.stream().sorted(Comparator.comparing(IpV6Obj::getStartIp)).collect(Collectors.toList());
            ArrayList<IpV6Obj> basicIpV6DataList=(ArrayList)collect;
            IpV6Obj[] ipV6Objs = new IpV6Obj[basicIpV6DataList.size()];
            ipV6ObjsArray = basicIpV6DataList.toArray(ipV6Objs);
        }

    }

2、实现evaluate方法,完成用户数据IP地址到归属地的转换逻辑

代码片段如下:

    public String evaluate(String ip){
        if(ip==null||ip.trim().isEmpty()||!(ip.contains(".")||ip.contains(":")))
        {
            return null;
        }
        int ipV4OrV6=0;
        try {
            ipV4OrV6= IpUtils.isIpV4OrV6(ip);
        } catch (Exception e) {
            return null;
        }
        //如果是IPV4
        if(ipV4OrV6==4)
        {
            int i = binarySearch(ipV4ObjsArray, IpUtils.StringToLong(ip));
            if(i>=0)
            {
                IpV4Obj ipV4Obj = ipV4ObjsArray[i];
                return ipV4Obj.city+","+ipV4Obj.province;
            }else{
                return null;
            }
        }else if(ipV4OrV6==6)//如果是IPV6
        {
            int i = binarySearchIPV6(ipV6ObjsArray, IpUtils.StringToBigIntString(ip));
            if(i>=0)
            {
                IpV6Obj ipV6Obj = ipV6ObjsArray[i];
                return ipV6Obj.city+","+ipV6Obj.province;
            }else{
                return null;
            }
        }else{//如果不符合IPV4或IPV6格式
            return null;
        }

    }

四、UDF函数注册

MaxCompute UDF函数操作可以参考官方文档:MaxCompute函数操作

这里通过两种方式注册MaxCompute UDF函数

1、通过odpscmd

odpscmd客户端下载安装以及使用请参考:客户端

--上次资源:
add file ipv4.txt -f;
add file ipv6.txt -f;
add jar ipv4_ipv6_aton.jar;

--注册函数:
--类名:com.aliyun.odps.udf.udfFunction.IpLocation
create function function_name as 'com.aliyun.odps.udf.udfFunction.IpLocation' using 'ipv4_ipv6_aton.jar, ipv4.txt, ipv6.txt';

8B196E1B-730D-4472-8088-BACF735FBD64.png

2、DataWorks

DataWorks注册MaxCompute函数请参考文档:DataWorks注册MaxCompute函数

(1)上传MaxCompute资源

这里需要上传的资源列表:ipv4_ipv6_aton.jar, ipv4.txt, ipv6.txt

参考上述文档上传资源截图如下:
       其中ipv4_ipv6_aton.jar选择 MaxCompute-->JAR

ipv4.txt, ipv6.txt选择MaxCompute-->File

5430F290-7339-42fc-90A4-94E22CD029EB.png

2.png

(2)注册函数

3.png

904DB16F-C709-484b-B98E-0241D0EC27CF.png

五、UDF函数测试

D25FF2FA-1A66-4e1d-A014-615E9912ED2D.png

六、函数源码

MaxCompute IPv4-IPv6地址转换UDF源码请点击下载:

IPv4-IPv6 UDF源码

IPv4-IPv6地址库

七、参考文档

MaxCompute IP地址转换历史参考文档:

1、【大数据技巧】MaxCompute中实现IP地址归属地转换

八、MaxCompute开发者社区交流群

欢迎加入“MaxCompute开发者社区2群”,点击链接MaxCompute开发者社区2群申请申请加入或扫描以下二维码加入。

70fc1458bc5346b7b70dae07c0c097cc.png




版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
阿里巴巴大数据计算
使用钉钉扫一扫加入圈子
+ 订阅

阿里大数据官方技术圈

官方博客
链接