为什么我们要这个f?
我们需要找到一个好的f的主要原因有3个:
- 有了一个好的f,我们可以输入所有3种媒体的预算并预测销售量。
- 我们可以了解哪些预测因素(例如电视,广播,报纸预算)对影响Y至关重要。我们可能会发现,花钱买报纸实际上是一种浪费,因为报纸广告并不能大大提高销售量。
- 我们也许能够理解每个预测变量如何影响Y。例如,我们可能会发现,投资电视广告的效率是投资报纸广告的5倍。
我怎么找到这个f?
在回答这个问题之前,我们需要问自己以下问题:
在广阔,华丽的宇宙中是否存在一些完美的f?
好吧,也许不是“完美”的f,但是有一个理想/最优的f。如果我们看一下图2,我们会发现一些奇怪的地方-对于X轴(报纸预算)上的某一点,在某些情况下似乎有多个对应的Y(销售)值。例如,图2中绘制的数据中,对于x = 6.4,Y轴上有两个对应的值:y = 11.9和y = 17.3。
图2:销售与报纸预算
因此,理想函数可以简单地是对应于特定x的所有y值的平均值。换句话说,对于上图:
用更多的“数学”术语,所有X上所有Y的平均值称为期望值E(Y)。因此,将任何X的所有Y值取平均值的过程就是我们的“理想”函数。我们的理想f可以用以下方式表示:
(不必担心Y | X…。这只是“数学”的说法,“ Y等于X等于某个特定值x”)
好的...。但是为什么我们需要机器学习?
可悲的是,因为我们生活在“现实世界”中。
在“现实世界”中,我们不能使用上面讨论的平均思想可靠地估计Y所需的所有数据。即使对于销售广告数据,您也可以看到在图2中,对于x = 77.5,x = 95,x = 110等,没有相应的Y值。
解决数据丢失问题的一种有效方法是使用邻里关系。
这意味着,我们可以取在x = 77.5相邻点出现的所有Y值的平均值,而不是严格地取x的平均值Y = 77.5。因此,可能从x = 75取到x = 80(参见图3中的蓝色垂直线)。
图3:对于f(77.5),我们取所有Y值的平均值,取75≥x≤80
我们的定义和表示法有一些变化,以反映以下思想:我们不再局限于在给定点X = x上精确地出现的Y值,而是查看在X = x附近的Y值。
这种方法有两个主要问题:
- 当除了报纸预算外还有多个预测变量(例如:电视,广播,Facebook广告,Google广告…)。在这种情况下,问题扩展到多个维度(不仅限于x和y轴),并且越来越难以定义我们宝贵的“邻居”。(此问题的名称很糟糕:维度诅咒)
- 当相邻区域中没有数据时会发生什么?例如,在图3中,没有从x = 115到x = 145以及以后的数据。
机器学习助您一臂之力!
为了不使f受上述两个问题的约束,我们转向机器学习来估计f。虽然有各种各样的机器学习模型可供选择,但让我们考虑一个简单而有效的模型-线性回归模型。在线性回归模型中,将输入X1(电视预算),X2(广播预算),X3(报纸预算)分别乘以w1,w2和w3,然后相加得出Y。
在上式中,w0,w1,w2,w3是参数,其值是通过训练模型并将其拟合到数据上而获知的。换句话说,这些参数的值通过“查看”数据并反复进行猜测而改变,这些猜测随着时间的推移会越来越好,直到我们获得足够好的f。
结论
估计f时应选择哪种模型,如何执行程序以及如何判断f的“足够好”是机器学习从业人员在处理特定问题时进行反复调查的非平凡问题。机器学习从业人员通常依靠经验,领域知识和经验证据来尝试回答这些问题。尽管如此,无论问题的背景和性质如何,找到良好的f都是使用机器学习进行预测,推理和解决问题的基础。
参考/灵感
- Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.
- Hastie, Trevor, Robert Tibshirani, and J. H Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. New York: Springer, 2009.