深度科普:What the f,机器学习中的“ f”到底是什么(二)

简介: 深度科普:What the f,机器学习中的“ f”到底是什么(二)

为什么我们要这个f?

image.png

我们需要找到一个好的f的主要原因有3个:

  • 有了一个好的f,我们可以输入所有3种媒体的预算并预测销售量。
  • 我们可以了解哪些预测因素(例如电视,广播,报纸预算)对影响Y至关重要。我们可能会发现,花钱买报纸实际上是一种浪费,因为报纸广告并不能大大提高销售量。
  • 我们也许能够理解每个预测变量如何影响Y。例如,我们可能会发现,投资电视广告的效率是投资报纸广告的5倍。

我怎么找到这个f?

在回答这个问题之前,我们需要问自己以下问题:

在广阔,华丽的宇宙中是否存在一些完美的f?

image.png

好吧,也许不是“完美”的f,但是有一个理想/最优的f。如果我们看一下图2,我们会发现一些奇怪的地方-对于X轴(报纸预算)上的某一点,在某些情况下似乎有多个对应的Y(销售)值。例如,图2中绘制的数据中,对于x = 6.4,Y轴上有两个对应的值:y = 11.9和y = 17.3。

image.png

图2:销售与报纸预算

因此,理想函数可以简单地是对应于特定x的所有y值的平均值。换句话说,对于上图:

image.png

用更多的“数学”术语,所有X上所有Y的平均值称为期望值E(Y)。因此,将任何X的所有Y值取平均值的过程就是我们的“理想”函数。我们的理想f可以用以下方式表示:

image.png

(不必担心Y | X…。这只是“数学”的说法,“ Y等于X等于某个特定值x”)

好的...。但是为什么我们需要机器学习?

可悲的是,因为我们生活在“现实世界”中。

image.png

在“现实世界”中,我们不能使用上面讨论的平均思想可靠地估计Y所需的所有数据。即使对于销售广告数据,您也可以看到在图2中,对于x = 77.5,x = 95,x = 110等,没有相应的Y值。

解决数据丢失问题的一种有效方法是使用邻里关系。

image.png

这意味着,我们可以取在x = 77.5相邻点出现的所有Y值的平均值,而不是严格地取x的平均值Y = 77.5。因此,可能从x = 75取到x = 80(参见图3中的蓝色垂直线)。

image.png

图3:对于f(77.5),我们取所有Y值的平均值,取75≥x≤80

我们的定义和表示法有一些变化,以反映以下思想:我们不再局限于在给定点X = x上精确地出现的Y值,而是查看在X = x附近的Y值。

image.png

这种方法有两个主要问题:

  • 当除了报纸预算外还有多个预测变量(例如:电视,广播,Facebook广告,Google广告…)。在这种情况下,问题扩展到多个维度(不仅限于x和y轴),并且越来越难以定义我们宝贵的“邻居”。(此问题的名称很糟糕:维度诅咒)
  • 当相邻区域中没有数据时会发生什么?例如,在图3中,没有从x = 115到x = 145以及以后的数据。

机器学习助您一臂之力!

为了不使f受上述两个问题的约束,我们转向机器学习来估计f。虽然有各种各样的机器学习模型可供选择,但让我们考虑一个简单而有效的模型-线性回归模型。在线性回归模型中,将输入X1(电视预算),X2(广播预算),X3(报纸预算)分别乘以w1,w2和w3,然后相加得出Y。

image.png

在上式中,w0,w1,w2,w3是参数,其值是通过训练模型并将其拟合到数据上而获知的。换句话说,这些参数的值通过“查看”数据并反复进行猜测而改变,这些猜测随着时间的推移会越来越好,直到我们获得足够好的f。

结论

估计f时应选择哪种模型,如何执行程序以及如何判断f的“足够好”是机器学习从业人员在处理特定问题时进行反复调查的非平凡问题。机器学习从业人员通常依靠经验,领域知识和经验证据来尝试回答这些问题。尽管如此,无论问题的背景和性质如何,找到良好的f都是使用机器学习进行预测,推理和解决问题的基础。

参考/灵感

  • Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.
  • Hastie, Trevor, Robert Tibshirani, and J. H Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. New York: Springer, 2009.
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 算法
AI基础科普:机器学习入门与实践
本文全面介绍了机器学习及其在信用评分预测中的应用。首先概览了机器学习作为人工智能核心领域的重要性及其实现数字化转型的作用。接着定义了机器学习,并区分了监督、无监督和强化学习等主要类型。随后,通过一个具体的场景——利用Python与scikit-learn库构建逻辑回归模型来预测客户的信用等级,详细阐述了从数据准备、模型训练到评估的全过程。此外,还介绍了如何借助阿里云机器学习平台PAI进行云上的模型训练和部署。最后,通过总结逻辑回归算法和其在金融领域的应用,鼓励读者深入学习并实践AI技术,以适应快速发展的科技趋势。
131 2
AI基础科普:机器学习入门与实践
|
机器学习/深度学习
深度科普:What the f,机器学习中的“ f”到底是什么(一)
深度科普:What the f,机器学习中的“ f”到底是什么(一)
153 0
深度科普:What the f,机器学习中的“ f”到底是什么(一)
|
机器学习/深度学习 数据采集 人工智能
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
在 NeurIPS 的第一届 Expo 上,百度向 NeurIPS 2018 年大会参与者展现了什么?
175 0
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
|
机器学习/深度学习 人工智能 算法
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
152 4
|
10天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
100 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
26天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
48 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
58 1