自定义hive url parse函数-阿里云开发者社区

自定义hive url parse函数

2017-11-15 1593

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在用hive做nginx日志url 分析的时候，经常需要parse url。
hive中自带的函数parse_url可以实现这个功能，不过它对格式的要求比较严格，不能直接用于nginx log的request字段。

 
        hive -e 
        "select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST') from dual" 
       
        facebook.com

 
        hive -e 
        "select parse_url('facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST') from dual" 
       
        NULL

也可以通过regexp_extract来实现，不过需要写正则，同时性能也有些问题。。

 
        hive -e 
        "select regexp_extract('GET /vips-mobile/router.do?api_key=24415b921531551cb2ba756b885ce783&app_version=1.8.6&fields=sku_id HTTP/1.1','.+? +(.+?)app_version=(.+?)&(.+) .+?',2) from dual" 
       
        1.8.6

考虑自己写一个，借鉴parse_url的udf：
代码如下：

 
        package 
        com.hive.myudf; 
       
        import 
        java.net.URL; 
       
        import 
        java.util.regex.Matcher; 
       
        import 
        java.util.regex.Pattern; 
       
        import 
        org.apache.hadoop.hive.ql.exec.UDF; 
       
        public 
        class 
        UDFNginxParseUrl 
        extends 
        UDF { 
       
        private 
        String schemal = 
        "http://"
        ; 
       
        private 
        String host1 = 
        null
        ; 
       
        private 
        Pattern p1 = 
        null
        ; 
       
        private 
        URL url = 
        null
        ; 
       
        private 
        Pattern p = 
        null
        ; 
       
        private 
        String lastKey = 
        null
        ; 
       
        public 
        UDFNginxParseUrl() { 
       
        } 
       
        public 
        String evaluate(String host1, String urlStr, String partToExtract) { 
       
        if 
        (host1 == 
        null 
        || urlStr == 
        null 
        || partToExtract == 
        null
        ) { 
       
        return 
        null
        ; 
       
        } 
       
        p1 = Pattern.compile(
        "(.+?) +(.+?) (.+)"
        ); 
       
        Matcher m1 = p1.matcher(urlStr); 
       
        if 
        (m1.matches()){ 
       
        String realUrl = schemal + host1 + m1.group(
        2
        ); 
       
        System.out.println(
        "URL is " 
        + realUrl); 
       
        try
        { 
       
        url = 
        new 
        URL(realUrl); 
       
        }
        catch 
        (Exception e){ 
       
        return 
        null
        ; 
       
        } 
       
        } 
       
        /* 
       
        if (lastUrlStr == null || !urlStr.equals(lastUrlStr)) { 
       
        try { 
       
        url = new URL(urlStr); 
       
        } catch (Exception e) { 
       
        return null; 
       
        } 
       
        } 
       
        lastUrlStr = urlStr; 
       
        */ 
       
        if 
        (partToExtract.equals(
        "HOST"
        )) { 
       
        return 
        url.getHost(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "PATH"
        )) { 
       
        return 
        url.getPath(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "QUERY"
        )) { 
       
        return 
        url.getQuery(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "REF"
        )) { 
       
        return 
        url.getRef(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "PROTOCOL"
        )) { 
       
        return 
        url.getProtocol(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "FILE"
        )) { 
       
        return 
        url.getFile(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "AUTHORITY"
        )) { 
       
        return 
        url.getAuthority(); 
       
        } 
       
        if 
        (partToExtract.equals(
        "USERINFO"
        )) { 
       
        return 
        url.getUserInfo(); 
       
        } 
       
        return 
        null
        ; 
       
        } 
       
        public 
        String evaluate(String host, String urlStr, String partToExtract, String key) { 
       
        if 
        (!partToExtract.equals(
        "QUERY"
        )) { 
       
        return 
        null
        ; 
       
        } 
       
        String query = 
        this
        .evaluate(host, urlStr, partToExtract); 
       
        if 
        (query == 
        null
        ) { 
       
        return 
        null
        ; 
       
        } 
       
        if 
        (!key.equals(lastKey)) { 
       
        p = Pattern.compile(
        "(&|^)" 
        + key + 
        "=([^&]*)"
        ); 
       
        } 
       
        lastKey = key; 
       
        Matcher m = p.matcher(query); 
       
        if 
        (m.find()) { 
       
        return 
        m.group(
        2
        ); 
       
        } 
       
        return 
        null
        ; 
       
        } 
       
        }

add jar和create function之后测试：

 
        hive -e 
        "select nginx_url_parse('test.test.com','GET /vips-mobile/router.do?api_key=24415&app_version=1.8.6&fields=sku_id HTTP/1.1','HOST') FROM dual;" 
       
        test.test.com

 
        hive -e 
        "select nginx_url_parse('test.test.com','GET /vips-mobile/router.do?api_key=24415&app_version=1.8.6&fields=sku_id HTTP/1.1','QUERY','api_key') FROM dual;" 
       
        24415

这样就可以直接应用于nginx的日志了。

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1350463，如需转载请自行联系原作者

自定义hive url parse函数

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

自定义hive url parse函数

热门文章

最新文章

相关课程

相关电子书