开发者社区> 问答> 正文

怎么理解基于业务场景设计的脏数据剔除?

怎么理解基于业务场景设计的脏数据剔除?

展开
收起
岩茶芋泥 2021-12-03 19:57:23 536 0
1 条回答
写回答
取消 提交回答
  • 批量挖掘到有价值样本放进训练集训练模型,并控制数据均衡,就能提高性能?

    too young, too simple, sometimes naive ! orz

    模棱两可的样本比较有训练价值,被挖掘回来的概率比较大,而在我们面对的问题里,这批数据往往容易被错打标。

    我们试过不同的脏数据剔除方法,有开源的算法,也有根据任务自行设计的算法。最后总结出以下经验分享给大家:

    脏数据剔除工作是一定要进行的,因其对模型性能影响很大。 无法彻底剔除脏数据,因为彻底剔除代价很大。 若不考虑噪声学习技巧,仅通过数据挑选让脏数据低于一定比例,依旧能得到性能不错的模型。

    2021-12-03 21:16:47
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
+ 订阅
关于阿里的机器智能创新技术均呈现于此.
问答排行榜
最热
最新

相关电子书

更多
事务、全局索引、透明分布式 立即下载
MongoDB多数据中⼼的⽅案选型之路 立即下载
重新出发:阿里云数据库开源整体策略 立即下载