开发者社区> ebxinxi> 正文

语料准备

简介: 之前查找了很多资料,发现语料准备这块的方法论很有限,在我看来如果说AI是个学生,语料其实是教科书,是知识的海洋,是AI的粮食,非常重要。 本文主要探讨有充分的语料基础后对语料进行预处理的办法。
+关注继续查看

之前查找了很多资料,发现语料准备这块的方法论很有限,在我看来如果说AI是个学生,语料其实是教科书,是知识的海洋,是AI的粮食,非常重要。
本文主要探讨有充分的语料基础后对语料进行预处理的办法。
1,众包打标签
2,手工规则提取
关键词特征,使用数据库进行批量标记。
实体识别后特征选取,使用分词工具根据词性来标记。
词频统计,对高频特殊词单独标记。
### Dialogflow 边标记边训练,不断校正测试效果。
Explosion.ai 的 Prodigy , 快速手工标记,后台学习,提供预判,个人觉得并不好用。
3, 专家手工打标签
推荐Excel,可以与数据库互传数据,可以指定标签词汇范围,进行快速输入。
我总觉得语料工具应该有更大的发展空间,需要做的更好!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
中英文语料公开数据集大全
中英文语料公开数据集大全
12 0
【文本分类】《短文本分类的ResLCNN模型》
【文本分类】《短文本分类的ResLCNN模型》
19 0
【文本分类】基于改进TF-IDF特征的中文文本分类系统
【文本分类】基于改进TF-IDF特征的中文文本分类系统
28 0
零样本文本分类——低资源场景下文本分类的利器
笔者近期在使用一些开源算法解决低资源场景分类时,发现使用一些在modelscope社区上开源的零样本分类模型可以极大提高分类准确率,因此对零样本文本分类模型进行了梳理,希望对大家有所帮助~
97 0
SnowNLP使用自定义语料进行模型训练(情感分析)
SnowNLP使用自定义语料进行模型训练(情感分析)
458 0
快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
61 0
文本分类
文本分类模型介绍
75 0
投机取巧:将语音分类转变为图像分类
投机取巧:将语音分类转变为图像分类
202 0
推荐系统常用数据集
推荐系统常用数据集
1005 0
+关注
ebxinxi
全栈码农是泡沫时代低成本而有效的一个办法。ES + SPring +Docker + 小程序前端,NLP Inside。
文章
问答
视频
文章排行榜
最热
最新
相关课程
更多
相关电子书
更多
纯干货 | 机器学习中梯度下降法的分类及对比分析
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载