回一楼的的用法,执行会报错,稍微修正一下,单斜杠改为双斜杠\即可运行:
select regexp_extract("阿里巴巴", "([\\x{4e00}-\\x{9fa5}]+)", 1);
支持;
maxcompute(原ODPS)正则表达式规范,请参考:
https://help.aliyun.com/document_detail/27871.html
odps数据都是以utf8编码保存,对于中文字符可以用对应的16进制编码表示,格式是x{1234}
中文字符编码的范围是[x{4e00}-x{9fa5}],
例如select regexp_extract("阿里巴巴", "([\x{4e00}-\x{9fa5}]+)", 1) from dual; 可以匹配上中文字符串“阿里巴巴”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。