大数据,多大算大?

简介:

“大数据,多大算大?”——这是一个经常被问到的问题。

这不是一个经济学问题,也不是一个数学问题,而是需要具体情况具体分析的一个实验问题。然而,实验需要工具。

首先,这取决于目标。如果没有明确的目标,数据常常被笼统地认为有用。然而,实际并非如此。互联网每天都产生大量数据,但其中大部分数据是噪音,不仅没有用,还需要被化疗掉。当我们设定好一个可以量化的目标变量,算法才可以用科学的方式量化评估数据价值。

其次,我们需要工具,可以自动化跑通建模全流程,从而评估效果。这在机器学习技术——有监督学习中有详细介绍。在分类问题中,量化效果的指标包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回归问题中,量化效果的指标包括:RMSE, RMSLE, MAE, Gini。也就是说,当我们明确目标后,把数据丢给工具,工具告诉我们:用这份数据建模,效果是多少。

当我们有了目标和工具,我们便可以评估样本大小和数据价值的关系了。我们可以把数据进行分割,一份用于训练模型(训练数据),一份用于测试效果。对于训练数据,我们可以再随机均分为N份,基于部分训练数据进行预测并计算效果。然后,我们便可以评估训练样本大小和模型效果之间的关系。不仅如此,我们还可以由此推断,什么类型的样本最有价值。

不是所有特征(变量)都有用,有用的特征往往并不多。建模工具同时还可以提供——哪些特征有用,权重分别是多少,详见机器学习技术——有监督学习。基于机器学习算法选择的变量和对应权重,我们可以进一步进行关联,找到和有用变量相关的其他潜在变量。

“大数据,多大算大?”这是一个简单的问题,如果你有工具。你丢给工具一份数据,工具告诉你:

1.这份数据的效果有多好?

2.样本大小与数据效果的关系?

3.什么样本最有用?

4.什么特征最有用?

如此,你便可以继续收集和重要样本类似的样本,继续提取和重要变量相关的变量。

如果我们可以轻而易举地知道什么数据有用,那么,大数据,多大都不算大。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
算法 Unix BI
操作系统(5.2)--请求分页储存管理模式
在请求分页系统中所需要的主要数据结构是页表。为支持请求分页,须在页表中再增加若干项,供程序(数据)在换进、换出时参考。
908 0
|
SQL DataWorks
【DataWorks】【odpsSQL格式化】使用快捷键快速实现代码左对齐
【DataWorks】【odpsSQL格式化】使用快捷键快速实现代码左对齐
2846 0
|
9月前
|
Ubuntu 网络安全 数据安全/隐私保护
访问仓库
访问仓库
297 0
|
数据采集 自然语言处理 安全
控制电脑手机的智能体人人都能造,微软开源OmniParser
微软研究团队推出OmniParser,旨在提升GPT-4V等多模态模型在用户界面操作方面的性能。通过解析用户界面截图为结构化元素,OmniParser显著增强了模型的交互能力,使其在多种基准测试中表现出色。该技术开源,促进了社区合作与技术创新,但同时也面临数据质量、计算资源及安全隐私等挑战。
518 14
|
10月前
|
机器学习/深度学习 传感器 数据采集
可穿戴设备助力远程医疗:从数据监测到智能诊疗的技术变革
可穿戴设备助力远程医疗:从数据监测到智能诊疗的技术变革
468 3
|
12月前
|
运维 安全 网络安全
VMware NSX 4.2.1.3 下载 - 网络安全虚拟化平台
VMware NSX 4.2.1.3 下载 - 网络安全虚拟化平台
484 0
VMware NSX 4.2.1.3 下载 - 网络安全虚拟化平台
|
安全 Android开发 iOS开发
深入探讨Android与iOS系统的差异及未来发展趋势
本文旨在深入分析Android和iOS两大移动操作系统的核心技术差异、用户体验以及各自的市场表现,进一步探讨它们在未来技术革新中可能的发展方向。通过对比两者的开放性、安全性、生态系统等方面,本文揭示了两大系统在移动设备市场中的竞争态势和潜在变革。
|
SQL 存储 关系型数据库
(九)MySQL之MVCC机制:为什么你改了的数据我还看不见?
在《MySQL锁机制》这篇文章中,咱们全面剖析了MySQL提供的锁机制,对于并发事务通常可以通过其提供的各类锁,去确保各场景下的线程安全问题,从而能够防止脏写、脏读、不可重复读及幻读这类问题出现。
547 0
|
开发者
Flutter笔记:Widgets Easier组件库(12)使用消息吐丝(Notify Toasts)
Flutter笔记:Widgets Easier组件库(12)使用消息吐丝(Notify Toasts)
257 0
|
前端开发 JavaScript
Select2(4.0.6)城市搜索
实现了城市列表的前端搜索,输入汉字、拼音首字母均可搜索,前端搜索。
1211 0
Select2(4.0.6)城市搜索