NLP自学习平台NLP只解析处理文本内容 主要是解析什么?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
对于文本数据而言,通常文本数据里面会含有很多跟任务无关的噪音,这时应该进行文本的预处理。
在NLP自学习平台内置了一些预处理规则,如果您觉得有必要进行预处理,可以选择这些规则。我们内置的规则包括:
去除 URL 链接;
去除 emoji 表情符号;
英文大写转小写;
中文繁体转简体。
可能平台目前没有您需要的预处理规则,暂时需要您自己在数据上次前进行处理,可以给我们反馈,我们会及时新增更多的预处理规则。
预处理的原则是去除掉对于判断类别无用的信息,也就是说,如果这个信息是有用的,则不应该去掉。比如 emoji 表情对于情感的判断是有帮助的,所以在情感分类中,不应该去除掉 emoji 表情。