吴恩达《机器学习》课程总结(10)应用机器学习的建议

简介: 10.1决定下一步该干什么当系统的效果很差时,你可能考虑到收集更多的样本,也可能:(1)尝试减少特征的数量;(2)尝试获得更多的特征;(3)尝试增加多项式特征;(4)尝试减少正则化程度λ;(5)尝试增加正则化程度λ。

10.1决定下一步该干什么

当系统的效果很差时,你可能考虑到收集更多的样本,也可能:

(1)尝试减少特征的数量;

(2)尝试获得更多的特征;

(3)尝试增加多项式特征;

(4)尝试减少正则化程度λ;

(5)尝试增加正则化程度λ。

如果做决策将是本章的内容。而不是盲目的选择一种策略。

10.2评估一个假设

将数据集分为训练集和测试集,在测试集上计算误差:

(1)对于线性回归模型,我们利用测试集数据计算代价函数J;

(2)对于逻辑回归模型,不仅可以利用测试集计算代价函数外,还可以利用误分类的比率来计算结果:

10.3模型选择和交叉验证集

将数据集按照8:2:2分为训练集,交叉验证集和测试集。

模型选择的方法:

(1)使用训练集训练处10个模型;

(2)用10个模型分别对交叉验证集计算得出交叉验证集误差;

(3)选取 代价函数数值最小的模型;

(4)用步骤3中选出的模型对测试集计算得出推广误差。

10.4诊断偏差和方差

(1)偏差(欠拟合)、方差(过拟合)

(2)误差随多项式次数的关系

次数低时,训练误差和验证误差都大,欠拟合;次数高时,训练误差小,验证误差大,过拟合。

训练误差和验证误差相近时,欠拟合;验证误差高于训练误差时过拟合。

10.5正则化和偏差/方差

(1)正则化的影响:

(2)λ的选择(以2为倍数增加,如0,0.01,0.02,0.04,0.08,0.16,0.32……): 

1.使用训练集训练出12个不同程度的正则化模型;

2.用12个模型分别对交叉验证集计算出交叉验证误差;

3.选择得出交叉验证误差最小的模型;

4.运用步骤3中选出模型对测试集计算得出推广误差。

(3)训练误差和验证误差与λ的关系:

10.6学习曲线

(1)学习曲线是将训练误差和交叉验证集误差作物训练样本数量(m)的函数绘制的图表:

(2)训练误差很大,高偏差(增加数据不会有改观)

(3)验证集误差与训练集误差相差很大,高方差(增加数据可以提高算法效果)

10.7决定下一步做什么

通过以上的诊断,下面是一些策略:

(1)获得更多的训练实例——解决高方差

(2)尝试减少特征的数量——解决高方差

(3)尝试获得更多的特征——解决高偏差

(4)尝试增加多项式——阶段高偏差

(5)尝试减小正则化程度——解决高偏差

(6)尝试增加正则化程度——解决高方差

一般使用较大的网络加上正则化会比使用小网络更有效。

相关文章
|
1月前
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
150 88
|
2月前
|
机器学习/深度学习 监控 算法
机器学习在图像识别中的应用:解锁视觉世界的钥匙
机器学习在图像识别中的应用:解锁视觉世界的钥匙
498 95
|
2天前
|
机器学习/深度学习 数据采集 运维
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
31 18
|
7天前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
199 36
|
22天前
|
机器学习/深度学习 安全 持续交付
让补丁管理更智能:机器学习的革命性应用
让补丁管理更智能:机器学习的革命性应用
45 9
|
1月前
|
存储 分布式计算 MaxCompute
使用PAI-FeatureStore管理风控应用中的特征
PAI-FeatureStore 是阿里云提供的特征管理平台,适用于风控应用中的离线和实时特征管理。通过MaxCompute定义和设计特征表,利用PAI-FeatureStore SDK进行数据摄取与预处理,并通过定时任务批量计算离线特征,同步至在线存储系统如FeatureDB或Hologres。对于实时特征,借助Flink等流处理引擎即时分析并写入在线存储,确保特征时效性。模型推理方面,支持EasyRec Processor和PAI-EAS推理服务,实现高效且灵活的风险控制特征管理,促进系统迭代优化。
61 6
|
2月前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
102 12
|
1月前
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
|
3月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
77 1