开发者社区> 问答> 正文

怎么理解基于业务场景设计的样本难度?

怎么理解基于业务场景设计的样本难度?

展开
收起
罗鹏大佬 2021-12-03 20:04:42 614 0
1 条回答
写回答
取消 提交回答
  • 批量挖掘到有价值样本放进训练集训练模型,并控制数据均衡,剔除脏数据,就能提高性能?

    Maybe. May God bless you !

    若挖掘到一倍的训练数据,直接将训练集double了,模型几乎无一例外地都学偏了(至少在我们的场景下是如此)。这种根据模型某一状态的判断就一步到位地确定大批量训练数据的方法容易引入“偏见”,训练出的模型找到的分界面并非最佳分界面。

    为了解决这个问题,我们从训练集样本构成角度动刀,让挑选数据集不全是当前模型分界面附近的hard样本,同时存在一定比例的容易样本。我们通过在主动学习算法中使用性能较弱的预测模型挑选数据,以实现这个目的。

    2021-12-03 21:07:10
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
+ 订阅
关于阿里的机器智能创新技术均呈现于此.
问答排行榜
最热
最新

相关电子书

更多
增长的真相暨金数据新产品发布 立即下载
亿级广告事件预测系统构建之道 立即下载
研发效能提升 36 计:用「故事地图」拆分和组织需求,促进持续交付与快速迭代 立即下载