我们在做文本挖掘处理的时候,需要经常把全角字符转成半角处理,今天为大家提供一个全角转半角的MaxCompute UDF,下载地址见附件。
效果如下:
MaxCompute UDF代码如下:
package com.yinlin.udf.dev;
import com.aliyun.odps.udf.UDF;
//import org.apache.commons.lang.StringUtils;
/**
* 提供对字符串的全角->半角,半角->全角转换
*/
public class BCConvert extends UDF {
/**
* ASCII表中可见字符从!开始,偏移位值为33(Decimal)
*/
static final char DBC_CHAR_START = 33; // 半角!
/**
* ASCII表中可见字符到~结束,偏移位值为126(Decimal)
*/
static final char DBC_CHAR_END = 126; // 半角~
/**
* 全角对应于ASCII表的可见字符从!开始,偏移值为65281
*/
static final char SBC_CHAR_START = 65281; // 全角!
/**
* 全角对应于ASCII表的可见字符到~结束,偏移值为65374
*/
static final char SBC_CHAR_END = 65374; // 全角~
/**
* ASCII表中除空格外的可见字符与对应的全角字符的相对偏移
*/
static final int CONVERT_STEP = 65248; // 全角半角转换间隔
/**
* 全角空格的值,它没有遵从与ASCII的相对偏移,必须单独处理
*/
static final char SBC_SPACE = 12288; // 全角空格 12288
/**
* 半角空格的值,在ASCII中为32(Decimal)
*/
static final char DBC_SPACE = ' '; // 半角空格
/**
* 全角字符->半角字符转换
* 只处理全角的空格,全角!到全角~之间的字符,忽略其他
*/
public String evaluate(String src) {
if (src == null) {return src;}
StringBuilder buf = new StringBuilder(src.length());
char[] ca = src.toCharArray();
for (int i = 0; i < src.length(); i++) {
if (ca[i] >= SBC_CHAR_START && ca[i] <= SBC_CHAR_END)
{// 如果位于全角!到全角~区间内
buf.append((char) (ca[i] - CONVERT_STEP));
}
else if (ca[i] == SBC_SPACE)
{// 如果是全角空格
buf.append(DBC_SPACE);
}
else { // 不处理全角空格,全角!到全角~区间外的字符
buf.append(ca[i]);
}
}
return buf.toString();
}
}
使用方法:
1、通过Eclipse将BCConver.java编译成Jar包,命名为BCConver.jar。
2、通过大数据开发套件,上传资源BCConver.jar;
3、通过大数据开发套件,引用第二步上传的BCConver.jar资源,注册bcconver函数;
4、通过大数据开发套件新建SQL脚本,输入SQL函数进行测试。
--创建虚拟表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;
--提供对字符串的全角->半角
select bcconvert('nihaohk | nihehe ,。 78 7 ') from yinlin_demo.dual limit 1;
到此为止,实验完成。
常见问题
Q:无结果?
我们在创建虚拟dual表的时候,一定要保证表中有数据。
Q:无法找到函数?
利用大数据开发套件注册函数的时候需要包名+类名,否则会找不到类。