大数据理论遇上新兴分析工具 挑战无处不在

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

对于大数据,有观点认为有了足够大的数据集,分析的统计方法就是非必要的。我们将其称为“N等价于所有”的理论。而按这样的说法,抽样和推理都是浪费时间。拥有了所有的数据,就只需让数据说话。

虽然“N等价于所有”的理论在短短几年前还是革命性的产物,作为正在上线的新颖而且更具潜在价值的分析方法,它很快就过时了。对于将所有数据对应一个给定主题这样的概念,物联网(IoT)分析和认知计算这对大数据的流行观点带来了挑战,而且这也要求那些分析专家重新对他们的做法进行评估。

“N等价于所有”的框架的早期形成是在2008年——大数据时代的开端。Chris Anderson在《连线》杂志中撰文谈及的例子提到,在广告和生物等领域,拍字节大小的数据存储可以让答案变得清晰。足够大的数据集意味着研究人员甚至不需要设定问题或是假设。这些数字说明了一切。但是当你在谈论新兴分析技术的时候,事情并不是这样的。

物联网不会将所有数据收入囊中
一说到物联网,会很自然地将曾经所有的数据排除在外。它包括每秒钟刷新的源源不断传入的信息流。它会告诉你时刻发生的事情,而不是寻求获得大量关键数据来回答可溯源问题。

最有效的物联网策略可以从传统大数据的角度识别技术有何不同。对于物联网来说,边缘分析已经成为关键组成部分。这包括了在随着数据创建用于计算的边缘网络的网络设备和传感器中的统计算法,对于要将哪些数据送回中心数据库,要抛弃哪些数据,它们会进行决策。在这种情况下,更多的数据只会是负担。你永远不会想要所有的数据。我们会使用统计方法来决定使用哪些数据。

认知计算带来不同的挑战

由认知计算带来的对主流大数据理论的挑战是有所不同的。在认知计算中,不论我们是否在谈论人工智能(AI)或深度学习,或者你是否能有足够的数据是没有意义的。算法通过经验加以改进,而且它们越是获得更多的训练,表现会越出色。

谷歌的围棋人工智能算法AlphaGo(阿尔法狗)通过提取人类玩家完成的3000万棋局走法,学会了玩棋类游戏。这是作为该算法的初步训练,但这还不够。接着它跟自己下了数千局棋,并对每场比赛进行改进。最终,它改进到能够击败该棋类游戏的每个人类大师。

但是,从理论上讲,该算法还是能够通过不断学习来进行自身优化。你永远不能说它已经学会了玩儿这种游戏的所有内容。这同样适用于像语音识别,计算机视觉和自然语言处理之类的其他深度学习实践。人类是认知计算算法最为接近的模拟。没有理由认为一种算法能够获得所有需要的数据来最优地执行这些任务。

是时候重新考虑大数据的性质了

曾经有段时间“N等价于所有”的大数据理论被认为是终极的价值主张。调查整个数据集的能力似乎为提出特定问题和接收特定的答案提供了功能,而不必依赖必须涉及一定程度上不确定性的统计方法。

但是,越来越多的企业真正的价值和他们在市场上逐渐面临差异将来自于这些新兴的分析趋势。那些想要在业界保持领先的企业需要对“什么是大数据”进行重新审视。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
搜索推荐 算法 大数据
大数据无处不在:揭秘日常生活中的大数据魔力
大数据无处不在:揭秘日常生活中的大数据魔力
102 10
|
8月前
|
存储 SQL 数据挖掘
GCP大数据分析工具:BigQuery使用指南
【7月更文挑战第15天】BigQuery作为GCP中的一项重要大数据分析工具,以其高性能、可扩展性和易用性,在数据仓库、实时数据分析、日志分析等多个领域发挥着重要作用。通过本文的介绍,读者可以了解到BigQuery的基本功能、使用场景以及配置和使用方法,为后续的数据分析和业务决策提供支持。希望读者能够充分利用BigQuery的强大能力,挖掘数据背后的价值,为企业的发展贡献力量。
1019 3
|
10月前
|
数据可视化 Linux Apache
CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问
CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问
|
10月前
|
数据可视化 BI Apache
大数据可视化BI分析工具Apache Superset实现公网远程访问
大数据可视化BI分析工具Apache Superset实现公网远程访问
|
大数据 云计算
云计算给大数据分析工具带来了什么
如果大数据是一块蛋糕,那么大数据分析工具就是切蛋糕的刀叉。人们都期待着能用“刀叉”从大数据中挖出自己想要的“价值”,因此大数据分析工具被人们寄予厚望。而云计算技术的兴起似乎又给大数据注入了新的推进剂,那么大数据和云计算的结合又会发生怎样的化学反应?对大数据分析工具的发展又有怎样的影响? 大数据的机遇or挑战大数据与传统的海量数据不同的是,它除了数据规模呈现几何级数增长的特征之外,还包括所有数据类型的整合、处理、分析和展现等多个方面,从而最终实现从大数据挖掘潜在巨大价值的目的。
1666 0
|
存储 SQL 消息中间件
大数据的分析工具有哪些?
大数据就是在各种类型的数据中快速获得有有效 有价值的信息的技术,大数据领域现今已经出现大量的 便于操作的新型技术,他们会是大数据采集,处理,存储和信息展现的最有效的工具。
|
分布式计算 大数据 云栖大会
【2018杭州云栖】大数据计算专场:带你感知无处不在的超大规模大数据计算
云栖大会首日,与主论坛一同亮相的大数据计算专场获得了极大关注。阿里巴巴计算平台六位技术专家与衣二三公司CTO,共同引领开发者们直击阿里巴巴超大规模的大数据计算服务,解构数据世界,分享大数据计算前沿科技。整个下午座无虚席,众多来宾站立参与全程。
5617 0