高效实现这一整套机器学习流程,往往会面临以下两个问题:
1.繁杂的数据采集和预处理工作:每天亿级的数据都需要通过自动化的方式进行采集、存储和处理,对于这些原始数据还需要进行统计、分析和处理来发现用户行为的基本规律,这就要求开发者具备长分析能力和长期经验积累,比如发现原始数据正负不均衡时,如何构建出正负样本数均衡的样本数据,这些还需要一定的算法工作经验。
2.大海捞针般的算法调参:面对错综复杂的算法参数,开发者们往往需要花费非常多的时间进行调试,而这就如同大海捞针一般。当找到一个看似靠谱的参数组合之后,这个参数组合是否最优还会存在一定不确定性。
以上内容摘自《大数据工程师必读手册》电子书,点击https://developer.aliyun.com/topic/download?id=29可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。