“大数据,多大算大?”——这是一个经常被问到的问题。
这不是一个经济学问题,也不是一个数学问题,而是需要具体情况具体分析的一个实验问题。然而,实验需要工具。
首先,这取决于目标。如果没有明确的目标,数据常常被笼统地认为有用。然而,实际并非如此。互联网每天都产生大量数据,但其中大部分数据是噪音,不仅没有用,还需要被化疗掉。当我们设定好一个可以量化的目标变量,算法才可以用科学的方式量化评估数据价值。
其次,我们需要工具,可以自动化跑通建模全流程,从而评估效果。这在机器学习技术——有监督学习中有详细介绍。在分类问题中,量化效果的指标包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回归问题中,量化效果的指标包括:RMSE, RMSLE, MAE, Gini。也就是说,当我们明确目标后,把数据丢给工具,工具告诉我们:用这份数据建模,效果是多少。
当我们有了目标和工具,我们便可以评估样本大小和数据价值的关系了。我们可以把数据进行分割,一份用于训练模型(训练数据),一份用于测试效果。对于训练数据,我们可以再随机均分为N份,基于部分训练数据进行预测并计算效果。然后,我们便可以评估训练样本大小和模型效果之间的关系。不仅如此,我们还可以由此推断,什么类型的样本最有价值。
不是所有特征(变量)都有用,有用的特征往往并不多。建模工具同时还可以提供——哪些特征有用,权重分别是多少,详见机器学习技术——有监督学习。基于机器学习算法选择的变量和对应权重,我们可以进一步进行关联,找到和有用变量相关的其他潜在变量。
“大数据,多大算大?”这是一个简单的问题,如果你有工具。你丢给工具一份数据,工具告诉你:
1.这份数据的效果有多好?
2.样本大小与数据效果的关系?
3.什么样本最有用?
4.什么特征最有用?
如此,你便可以继续收集和重要样本类似的样本,继续提取和重要变量相关的变量。
如果我们可以轻而易举地知道什么数据有用,那么,大数据,多大都不算大。
本文转自d1net(转载)