(转)为什么选择机器学习策略

简介: 转自 吴恩达deeplearningai   机器学习(machine learning)是无数重要应用的基础,其包含网络搜索、垃圾邮件检测、语音识别以及产品推荐等内容。假如你和你的团队正在研发一项机器学习应用,并且想要取得较为快速的进展,本书的一些内容将会有所帮助。

转自 吴恩达deeplearningai

 

机器学习(machine learning)是无数重要应用的基础,其包含网络搜索、垃圾邮件检测、语音识别以及产品推荐等内容。假如你和你的团队正在研发一项机器学习应用,并且想要取得较为快速的进展,本书的一些内容将会有所帮助。

假设你正在建立一家初创公司,该公司将为猫咪爱好者们提供不计其数的猫咪图片。与此同时,你决定使用神经网络(neural network)技术来构建一套计算机视觉系统,用来识别图片中的猫。

你的团队有许多的改进方案,例如:

  • 获取更多的数据,即收集更多猫的图片

  • 收集更加多样化的训练数据集,比如处于不常见位置的猫的图片,颜色奇异的猫的图片,以及使用不同相机参数拍摄的猫的图片

  • 通过增加梯度下降(gradient descent)的迭代次数,使算法训练得久一些

  • 尝试一个拥有更多层(layer)/更多隐藏元(hidden units)/更多参数(parameters)的,规模更大的神经网络

  • 尝试加入正则化(例如 L2 正则化)

  • 改变神经网络的架构(激活函数,隐藏元数量等等)

  • ...

 

如果你能够在以上可能的方向中做出正确的选择,那么你将建立起一个领先的猫咪图片识别平台,并带领你的公司获得成功。但如果你选择了一个糟糕的方向,则可能因此浪费掉几个月甚至数年的开发时间。

监督学习(supervised learning)是指使用已标记(labeled)的训练样本  来学习一个从  映射到  的函数。监督学习算法主要包括线性回归(linear regression)、对数几率回归(logistic regression,又译作逻辑回归)和神经网络(neural network)。虽然机器学习的形式有许多种,但当前具备实用价值的大部分机器学习算法都来自于监督学习。

我将经常提及神经网络(和“深度学习”中所提到的一致),但你只需对此有基础的了解就可以阅读后面的内容。

 

如果对上文提到的一些概念你还不是很熟悉,可以在 Coursera 观看《机器学习》前三周的课程内容。(课程地址:http://ml-class.org

不少关于深度学习(神经网络)的想法已经存在了数十年,而这些想法为什么现在才流行起来了呢?

有两个主要因素推动着近期的发展:

  • 数据可用性(data availability):如今人们在数字设备(笔记本电脑、移动设备等)上花费的时间越来越多,数字化行为与活动产生了海量的数据,而这些数据都可以提供给我们的学习算法用来训练。

  • 计算规模(computational scale):在近些年前,我们才开始能够使用现有的海量数据集来训练规模足够大的神经网络。

 

具体而言,即使你积累了更多的数据,但应用在类似于对数几率回归(logistic regression)这样的旧学习算法上,其性能表现(performance)也将趋于”平稳“。这意味着算法的学习曲线将”变得平缓“,即使提供更多的数据,算法的性能也将停止提升。

旧的学习算法似乎并不知道要如何来处理如今这个规模量级的数据。

 

如果你在相同的监督学习任务上选择训练出一个小型的神经网络(neutral network, NN),则可能会获得较好的性能表现.

因此,为了获得最佳的性能表现,你可以这样做:

(i) 训练大型的神经网络,效果如同上图的绿色曲线;

(ii) 拥有海量的数据。

在算法训练时,许多其它的细节也同等重要,例如神经网络的架构。但目前来说,提升算法性能的更加可靠的方法仍然是训练更大的网络以及获取更多的数据。

 

完成 (i) 和 (ii) 的过程异常复杂,本书将对其中的细节作进一步的讨论。我们将从传统学习算法与神经网络中都起作用的通用策略入手,循序渐进地讲解至最前沿的构建深度学习系统的策略。

目录
相关文章
|
6天前
|
机器学习/深度学习 数据挖掘 数据处理
构建高效机器学习模型的五大策略
【5月更文挑战第31天】 在数据驱动的时代,机器学习已成为创新的核心动力。本文将深入探讨如何构建高效的机器学习模型,涵盖数据处理、特征工程、模型选择、调参技巧及模型评估五个关键策略。不同于常规摘要的形式,我们将通过具体实例和案例分析,提供一套实操性强的方法论,帮助读者在实际工作中提升模型性能,解决业务问题。
|
6天前
|
机器学习/深度学习 运维 Cloud Native
构建未来:云原生架构在企业数字化转型中的关键作用构建高效机器学习模型的五大策略
【5月更文挑战第31天】 随着企业数字化进程的加速,传统的IT架构日益显示出其局限性。本文将探讨云原生架构如何成为推动企业敏捷性、可扩展性和创新能力的核心力量。通过深入分析云原生技术的基本原理及其在业务连续性、资源优化和跨云协作方面的应用,揭示了其在实现高效、灵活的企业IT环境中所扮演的角色。
|
1天前
|
机器学习/深度学习 安全 算法
利用机器学习优化网络安全防御策略
【6月更文挑战第3天】随着网络攻击的日益猖獗,传统的安全防御机制已难以满足企业对数据保护的需求。本文探讨如何应用机器学习技术来预测和防御潜在的网络安全威胁,通过分析历史数据模式,自动调整安全策略,从而在不断变化的威胁环境中保持企业的网络安全。
|
6天前
|
机器学习/深度学习 监控 算法
利用机器学习优化数据中心能效的策略
【5月更文挑战第31天】 在数据中心管理和运营的众多挑战中,能效优化是减少运营成本和环境影响的关键要素。随着机器学习技术的不断进步,本文探讨了如何应用机器学习算法来监测和调控数据中心的能源使用效率。通过分析历史能耗数据、服务器负载以及环境变量,机器学习模型能够预测数据中心的能耗模式并实施节能措施。文中介绍了几种主要的机器学习方法,并讨论了它们在实际场景中的应用效果。
|
6天前
|
机器学习/深度学习 存储 算法
利用机器学习优化数据中心能效的策略
【5月更文挑战第31天】在信息技术不断进步的今天,数据中心作为计算和存储的核心,其能源效率问题日益凸显。传统的能效管理方法已无法满足当前复杂多变的需求。本文提出了一种基于机器学习技术的数据中心能效优化策略,通过智能算法实时监控和调整数据中心的运行状态,以达到降低能耗、提高资源利用率的目的。该策略不仅考虑了服务器负载和冷却系统的效率,还兼顾了可再生能源的使用情况,为绿色计算提供了新的视角。
|
6天前
|
机器学习/深度学习 监控
构建高效机器学习模型的五大策略
【5月更文挑战第30天】 在数据驱动的时代,机器学习(ML)已成为创新的核心动力。然而,构建一个既高效又准确的ML模型并非易事。本文将探讨五种实用的策略,帮助从业者优化其ML模型的性能和效率。我们将深入剖析特征工程的重要性、调参的艺术、集成学习的优势、模型压缩与加速技术,以及持续监控与评估的必要性。通过实践这些策略,读者将能够提升模型的准确率和应用的响应速度,同时降低计算成本。
|
7天前
|
机器学习/深度学习 存储 运维
利用机器学习优化数据中心能效的策略
【5月更文挑战第30天】在信息技术不断进步的今天,数据中心作为核心基础设施之一,其能效管理已成为技术创新和成本控制的焦点。本文通过分析当前数据中心能耗问题,提出了一种基于机器学习的优化策略,旨在实现数据中心能源使用的最大化效率和最小化开销。我们采用预测算法对工作负载进行实时分析,动态调整资源分配,并通过仿真实验验证了该方法的有效性。结果表明,应用机器学习技术可以显著降低数据中心的能耗,同时保持服务质量。
|
7天前
|
机器学习/深度学习 存储 人工智能
利用机器学习优化数据中心能效的策略研究
【5月更文挑战第30天】 在信息技术日益发展的当下,数据中心作为其支撑的基础设施之一,承担着处理和存储海量数据的重要任务。随着数据中心规模的扩张和计算需求的增加,如何在保证性能的同时降低能耗成为了业界关注的焦点。本文通过引入机器学习技术,探讨了数据中心能效优化的新方法。文中首先概述了数据中心能效的重要性及其面临的挑战,随后详细介绍了机器学习在数据中心能效管理中的应用方式,包括预测模型的构建、能源消耗模式的分析以及动态调整策略的实施。最后,通过一系列实验验证了所提策略的有效性,并与传统方法进行了对比分析。
|
7天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与实践
【5月更文挑战第29天】 在数据驱动的时代,机器学习模型已成为解决复杂问题的关键工具。本文旨在探讨如何构建一个高效的机器学习模型,包括数据处理、算法选择、模型训练和评估等关键步骤。我们将通过实例展示如何应用这些策略来优化模型性能,并讨论在实际应用中可能遇到的挑战和解决方案。
|
7天前
|
机器学习/深度学习 算法 调度
利用机器学习优化数据中心能效的策略
【5月更文挑战第29天】 在信息技术不断进步的今天,数据中心作为计算和存储的核心设施,其能源效率已成为评价其可持续性的关键指标。本文旨在探讨如何通过机器学习技术优化数据中心的能源使用效率,减少环境影响并降低运营成本。文中首先介绍了数据中心能耗的现状及其重要性,随后详细阐述了机器学习在此领域的应用方法和策略,包括预测模型、智能调度系统和异常检测机制。最后,文章通过案例分析展示了机器学习在提高能效方面的实际效果,并对未来的发展趋势进行了展望。