【学习记录】《DeepLearning.ai》第九课:机器学习策略(2)(ML Strategy)

简介: 2021/9/10

第九课:机器学习策略(2)(ML Strategy)

2.1 进行误差分析(Carrying out error analysis)

image

将识别错误的例子人工挑选出来,同时查看每一个错误的原因,比如识别猫的时候,其中有8%是狗,有43%是大猫,61%是模糊,我们可以在开发集或测试集里观察假阳性(False Positives)和假阴性(False Negatives),统计属于不同错误类型的错误数量,如上图所示。然后根据错误所占比重首先根据高比重错误进行改善。


2.2 清除标注错误的数据(Cleaning up Incorrectly labeled data)

开发集和测试集必须来自同一分布。

image

如上图,总体错误10%的时候,如果有0.6%的错误是由于标记出错导致的,其他都是由其他错误导致的,我们可以忽略掉这个错误,由标记出错导致的错误所占比重比较少。

如果总体错误是2%,我们需要重新对开发集进行标记。


2.3 快速搭建一个系统并进行迭代

一句话:自己快速搭建一个简单的系统并进行迭代。


2.4 使用来自不同分布的数据进行测试和训练

训练集与测试集和开发集的样本可以来自不同的分布,比如猫图片识别中,训练集可以是网上爬取的数据,而测试集和开发集可以是用户app上上传的图片。


2.5 数据分布不匹配时的偏差与方差的分析

前提是训练集和开发测试集来自不同的分布

image

上图所示,对于大多数据来说,第一行表示人类水平错误率,第二行表示训练错误率,第三行表示训练-开发集错误率10%,一个集合里面既包括训练集也包括开发集。红框的最后是开发集或者测试集错误率6%。通过如上图所示Human level和training error之间的两个数字之差表示了可避免偏差的大小,training error和training-dev error之间的差距表示了方差的大小,training-dev error和Dev/test dev之间的差距表示了数据不匹配问题。

上图是一个举例,便于理解。

方差、偏差问题都有对应的解决方法,而数据不匹配问题的解决方法下节课讲。


2.6 处理数据不匹配问题

总而言之,如果认为存在数据不匹配问题,建议做错误分析,或者看看训练集,或者看看开发集,试图找出,试图了解这两个数据分布到底有什么不同,然后看看是否有办法收集更多看起来像开发集的数据作训练。
我们谈到其中一种办法是人工数据合成,人工数据合成确实有效。在语音识别中。我已经看到人工数据合成显著提升了已经非常好的语音识别系统的表现,所以这是可行的。但当你使用人工数据合成时,一定要谨慎,要记住你有可能从所有可能性的空间只选了很小一部分去模拟数据。

人工数据合成例子:汽车语音识别里面在实际情况中是有噪音的,我们可以找到清晰的录音再找到噪音,然后两个合成就得到了需要的测试集(尽量和开发集一致)。


2.7 迁移学习(Transfer learning)

image

从A迁移到B的条件:

1.A与B有相同的输入:如都是图像或者都是语音

2.对于B来说A有更多的数据。

3.来自于A的低层次特征对于B学习来说是有帮助的。


2.8 多任务学习(Multi-task learning)

多任务学习能让你训练一个神经网络来执行许多任务,这可以给你更高的性能,比单独完成各个任务更高的性能。但要注意,实际上迁移学习比多任务学习使用频率更高。我看到很多任务都是,如果你想解决一个机器学习问题,但你的数据集相对较小,那么迁移学习真的能帮到你,就是如果你找到一个相关问题,其中数据量要大得多,你就能以它为基础训练你的神经网络,然后迁移到这个数据量很少的任务上来。


2.9 端到端的深度学习

端到端的深度学习:训练一个巨大的神经网络,输入是一段音频,输出直接是听写文本,通常端到端的深度学习系统表现更好。

端到端的深度学习只需要把训练集拿过来,直接学到了x和y之间的函数映射,绕过其中很多步骤。


2.10 是否使用端到端的深度学习

优点:

1.只要有足够多的(x,y)数据就可以训练足够大的神经网络

2.所需要的手工设计的组件更少,不用花太多时间手工设计功能。

缺点:

1.需要大量的数据

2.它排除了可能有用的手工设计组件,功能。

相关文章
|
1月前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
22小时前
|
机器学习/深度学习 人工智能 自然语言处理
Java+机器学习基础:打造AI学习基础
随着人工智能(AI)技术的飞速发展,越来越多的开发者开始探索如何将AI技术应用到实际业务场景中。Java作为一种强大的编程语言,不仅在企业级应用开发中占据重要地位,在AI领域也展现出了巨大的潜力。本文将通过模拟一个AI应用,从背景历史、业务场景、优缺点、底层原理等方面,介绍如何使用Java结合机器学习技术来打造一个AI学习的基础Demo。
34 15
|
1月前
|
SQL 人工智能 关系型数据库
PolarDB-PG AI最佳实践 2 :PolarDB AI X EAS实现自定义库内模型推理最佳实践
PolarDB通过POLAR_AI插件支持使用SQL调用AI/ML模型,无需专业AI知识或额外部署环境。结合阿里云EAS在线模型服务,可轻松部署自定义模型,在SQL中实现如文本翻译等功能。
|
1月前
|
人工智能 安全 大数据
PAI年度发布:GenAI时代AI基础设施的演进
本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。
|
2月前
|
人工智能 安全 算法
PAI负责任的AI解决方案: 安全、可信、隐私增强的企业级AI
在《PAI可信AI解决方案》会议中,分享了安全、可信、隐私增强的企业级AI。会议围绕三方面展开:首先通过三个案例介绍生活和技术层面的挑战;其次阐述构建AI的关键要素;最后介绍阿里云PAI的安全功能及未来展望,确保数据、算法和模型的安全与合规,提供全方位的可信AI解决方案。
|
26天前
|
存储 人工智能 自然语言处理
AI 工程学习 - 三张图说明白什么是 RAG
RAG(检索增强生成)是一种结合信息检索和生成模型的自然语言处理框架,通过引入外部知识库(如文档库、数据库等),增强生成模型的回答准确性与相关性。其核心在于避免模型仅依赖训练数据产生不准确或“幻觉”内容,而是通过实时检索外部资料,确保回答更精准、丰富且上下文相关。RAG的实现包括建立索引(清洗、分割、嵌入存储)和检索生成(计算相似度、选择最优片段、整合提示词模板提交给大模型)。
79 0
|
3月前
|
人工智能 自然语言处理 前端开发
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
VideoChat 是一款智能音视频内容解读助手,支持批量上传音视频文件并自动转录为文字。通过 AI 技术,它能快速生成内容总结、详细解读和思维导图,并提供智能对话功能,帮助用户更高效地理解和分析音视频内容。
207 6
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
|
1月前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
1月前
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI驱动的个性化学习路径优化
在当前教育领域,个性化学习正逐渐成为一种趋势。本文探讨了如何利用人工智能技术来优化个性化学习路径,提高学习效率和质量。通过分析学生的学习行为、偏好和表现,AI可以动态调整学习内容和难度,实现真正的因材施教。文章还讨论了实施这种技术所面临的挑战和潜在的解决方案。
177 7

热门文章

最新文章