2018-09-14 932
之前查找了很多资料,发现语料准备这块的方法论很有限,在我看来如果说AI是个学生,语料其实是教科书,是知识的海洋,是AI的粮食,非常重要。 本文主要探讨有充分的语料基础后对语料进行预处理的办法。 1,众包打标签 2,手工规则提取 关键词特征,使用数据库进行批量标记。 实体识别后特征选取,使用分词工具根据词性来标记。 词频统计,对高频特殊词单独标记。 ### Dialogflow 边标记边训练,不断校正测试效果。 Explosion.ai 的 Prodigy , 快速手工标记,后台学习,提供预判,个人觉得并不好用。 3, 专家手工打标签 推荐Excel,可以与数据库互传数据,可以指定标签词汇范围,进行快速输入。 我总觉得语料工具应该有更大的发展空间,需要做的更好!
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。