问题1:大数据计算MaxCompute假设我来源表和目标表都有大类a,小类b两个字段,现在需要在大类a的维度下对小类b进行自定义结巴分词,,,,上面这一步我已经实现了,,,现在我想依据大类a不同的数据(比如人类,动物类)进行选择不同的自定义分词文件,请问这个怎么实现呢?
问题2:这个测试通过也没问题的,但是这是一个自定义词库,我现在有很多个自定义词库,需要大类a字段的数据进行匹配相应的自定义词库
回答1:用自定义词库是不是可以?
https://help.aliyun.com/zh/dataworks/use-cases/use-a-pyodps-node-to-segment-chinese-text-based-on-jieba?spm=a2c4g.11174283.0.i1#section-4jl-3rq-7z9
回答2:只能自己写一个udf解决了,没有这样的实践文档,此回答整理自钉群“MaxCompute开发者社区2群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。