谷歌《机器学习速成课程》学习摘要

简介: 机器学习概念机器学习简介机器学习可以胜任编写一个程序纠正英语拼写错误,并扩展到支持100种语言。

机器学习概念

机器学习简介
框架处理
深入了解机器学习
降低损失
使用TF的基本步骤
泛化
训练集和测试集
验证
表示法
特征组合
正则化:简单性
逻辑回归
分类
正则化:稀疏性
神经网络简介
训练神经网络
多类别神经网络
嵌入

机器学习工程

生产环境机器学习系统
静态训练与动态训练
静态推理与动态推理
数据依赖关系
视频讲座
视频讲座总结
机器学习系统的行为取决于其输入特征的行为和品质。当这些特征的输入数据发生更改时,您的模型也会随之变化。有时,这种变化是可取的,有时则反之。

在传统的软件开发中,您的注意力更多地放在代码而非数据上。在机器学习开发中,虽然编码仍是工作的一部分,但您必须同时关注数据。例如,在传统的软件开发项目中,编写单元测试来验证代码是一种最佳做法。而在机器学习项目中,您还必须不断地对输入数据进行测试、验证和监控。

例如,您应该持续监控您的模型以移除不用(或很少使用)的特征。假设某一特定特征对模型贡献很少或没有贡献。如果该特征的输入数据突然发生更改,则您模型的行为也可能会以意想不到的方式突然发生变化。

可靠性
以下是针对输入数据的可靠性询问的一些问题:

信号是否始终可用?信号来源是否不可靠?例如:
信号是否来自因负载过重而崩溃的服务器?
信号是否来自每年 8 月去度假的人群?
版本控制
以下是针对版本控制询问的一些问题:

计算此数据的系统是否发生过变化?如果是:
多久一次?
您如何知道系统发生变化的时间?
有时数据来自上游进程。如果该进程突然发生变化,您的模型可能会受到影响。

请考虑为从上游进程接收的数据创建您自己的副本。然后,只有当您确定这样做安全时,才跳转到下一版上游数据。

必要性
以下问题可以提醒您留意正则化:

特征的实用性是否能证明值得添加此特征?
人们往往倾向于向模型添加更多特征。例如,假设您找到一个新特征,添加该特征可让您的模型略微准确一点。较高的准确率听起来当然比较低的准确率更好。不过,现在您只是增加了自己的维护负担。添加的特征可能会意外降级,因此需要对它进行监控。在添加会带来短期利好的特征之前,请谨慎考虑。

相关性
某些特征会与其他特征相关联(正相关或负相关)。问问自己以下问题:

是否有任何特征密不可分,以至于需要采取额外策略来梳理它们?
反馈环
有时,模型会影响其自身的训练数据。例如,来自某些模型的结果反过来是同一模型的直接或间接输入特征。

有时,一个模型会影响另一个模型。以下列两个股价预测模型为例:

模型 A - 不理想的预测模型。
模型 B。
由于模型 A 有误,因此会导致错误地决定购买股票 X 的股票,而购买这些股票会抬高股票 X 的价格。模型 B 将股票 X 的股价用作输入特征,因此它很容易对股票 X 的价值得出错误结论。然后,模型 B 会根据模型 A 的错误行为购买或销售股票 X 的股份,反过来,模型 B 的行为会影响模型 A,而这样很可能会触发郁金香狂热效应或导致 X 公司的股价下滑。
检查您的理解情况

机器学习现实世界应用示例

癌症预测
标签泄漏
18世纪文学
数据集的拆分
现实世界应用准则
下面简要说明了有效的机器学习准则:
1.确保第一个模型简单易用。
2.着重确保数据管道的正确性。
3.使用简单且可观察的指标进行训练和评估。
4.拥有并监控您的输入特征。
5.将您的模型配置视为代码:进行审核并记录在案。
6.记下所有实验的结果,尤其是“失败”的结果。

总结

后续步骤
课程是过了一遍,理解十分有限,姑且写写,未完待续。

相关文章
|
3月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
101 0
|
9天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之机器学习PAI的学习方法不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
机器学习/深度学习 前端开发 测试技术
机器学习第10天:集成学习
机器学习第10天:集成学习
28 0
|
3月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
57 1
|
7天前
|
机器学习/深度学习 分布式计算 物联网
【Python机器学习专栏】联邦学习:保护隐私的机器学习新趋势
【4月更文挑战第30天】联邦学习是保障数据隐私的分布式机器学习方法,允许设备在本地训练数据并仅共享模型,保护用户隐私。其优势包括数据隐私、分布式计算和模型泛化。应用于医疗、金融和物联网等领域,未来将发展更高效的数据隐私保护、提升可解释性和可靠性的,并与其他技术融合,为机器学习带来新机遇。
|
7天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
7天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习中的Bagging与Boosting
【4月更文挑战第30天】本文介绍了集成学习中的两种主要策略:Bagging和Boosting。Bagging通过自助采样构建多个基学习器并以投票或平均法集成,降低模型方差,增强稳定性。在Python中可使用`BaggingClassifier`实现。而Boosting是串行学习,不断调整基学习器权重以优化拟合,适合弱学习器。Python中可利用`AdaBoostClassifier`等实现。示例代码展示了如何在实践中运用这两种方法。
|
7天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】关联规则学习:Apriori算法详解
【4月更文挑战第30天】Apriori算法是一种用于关联规则学习的经典算法,尤其适用于购物篮分析,以发现商品间的购买关联。该算法基于支持度和置信度指标,通过迭代生成频繁项集并提取满足阈值的规则。Python中可借助mlxtend库实现Apriori,例如处理购物篮数据,设置支持度和置信度阈值,找出相关规则。
|
7天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习算法的原理与应用
【4月更文挑战第30天】集成学习通过组合多个基学习器提升预测准确性,广泛应用于分类、回归等问题。主要步骤包括生成基学习器、训练和结合预测结果。算法类型有Bagging(如随机森林)、Boosting(如AdaBoost)和Stacking。Python中可使用scikit-learn实现,如示例代码展示的随机森林分类。集成学习能降低模型方差,缓解过拟合,提高预测性能。
|
8天前
|
机器学习/深度学习 人工智能 算法
【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题
【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题