批量挖掘到有价值样本放进训练集训练模型,并控制数据均衡,就能提高性能?
too young, too simple, sometimes naive ! orz
模棱两可的样本比较有训练价值,被挖掘回来的概率比较大,而在我们面对的问题里,这批数据往往容易被错打标。
我们试过不同的脏数据剔除方法,有开源的算法,也有根据任务自行设计的算法。最后总结出以下经验分享给大家:
脏数据剔除工作是一定要进行的,因其对模型性能影响很大。 无法彻底剔除脏数据,因为彻底剔除代价很大。 若不考虑噪声学习技巧,仅通过数据挑选让脏数据低于一定比例,依旧能得到性能不错的模型。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。