大数据大规律

简介:

大数据正在改变我们的生活,影响我们思考和解决问题的方式,为了适应时代的潮流,组织必须学会用数据说话,如果坐拥大量的数据却束手无策或无动于衷,那和没有数据是一样的。但是,在进行数据分析时,完全的自我创造是不可取的,因为有大量可以遵循和借鉴的经验能节约大量的时间和成本。最近, OrionX.net 的联合创始人Shahin Khan 就发表了一篇文章,介绍了他的 团队从大数据、物联网和云计算市场上总结的经验和规律 。

保留数据的成本要比删除数据的成本低。另外,还要有多个备份。正因为保留了足够多的数据,大数据才成为可能,因此无论如何都不要删除数据,因为你不知道什么时候会用到它,删除这些数据会有哪些法律风险。保留数据的成本很低,另外,如果将来发生了什么事情,你也能从这些数据中找到证据。

无论开始收集数据的动机是什么,它们都会导致你收集更多的数据。大部分数据收集工作关注于正在进行的活动,但一旦知道了如何使用这些数据,获取更多数据的意愿就会增加。

大数据系统开始较小,但慢慢会变大,没有中间大小。很少有中等规模的大数据系统,一旦某个项目的理念被证明是有前景的,那么它很快就会变大,并在迅速发展的同时孵化新项目。

数据必须流向有价值的地方,要考虑功能的上下文有什么价值。未使用的数据是一种闲置的资产,很有可能会造成价值的贬值。如果将大数据看做是工作流,那么必须将数据流向最有价值的地方。

永远都不要假设你知道原因是什么,有什么影响。大数据的大部分应用场景都是有价值的,值得付出努力,但是它的因果关系非常复杂,数据的不完整、用户的偏见不可避免。

有关数据与无关数据之间的比率将逐渐趋向于零。数据有很多,但通常情况下大部分都是无用的,只有一少部分有价值。收集的数据越多,这种现象越明显,也就是说无关数据的增长速度要远高于相关数据的增长速度。

分析的最终目的是合成。分析完成之后便需要合成,当然这需要引入机器学习和认知算法。

时间=金钱=数据。数据是一种资产,虽然它可以升值,但大多数时候随着新数据替代老数据,历史数据的价值会越来越低,因为它的相关性会越来越差。所以必须知道数据的“利率”,知道它贬值的速度有多快。

容量大—速度快—种类多—价值密度低 vs. 不可再现—不相关—不完整—不正确。数据的质量直接影响数据挖掘的质量。

给你足够的数据,你就能证明事物的“正反两面”。数据量越大,从中找到有价值信息的难度就越大,数据的复杂性、不合理的动机和无知都可能会造成无效的结论;但另一方面,数据越多,支持假设的证据就会越充分,通过完全科学的方法,有时这种支持率甚至会逐渐接近100%。

大数据的结论开始通常是有趣但无用的,但最终会变成有效且有用的。在新媒体时代,有趣但肤浅的内容要比深刻有见地的内容多得多,价值挖掘需要对数据有深刻的理解,但这需要时间。

随着数据量的增长,大数据和 高性能计算(HPC) 需要结合在一起。

如果有200行数据,可以使用电子表格;但如果有20亿行数据,就必须使用HPC。此外,随着数据量的增长,还需要数学和科学的知识将数据转换成模型。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
大数据
大数据在城市规划领域的应用有哪些?请举例说明。
大数据在城市规划领域的应用有哪些?请举例说明。
23 0
|
数据采集 安全 大数据
大数据面前,统计学的价值在哪里
很长一段时间里,大家对数据的理解,可能只是停留在阿拉伯数字这个层面。近些年来,大家开始讲大数据。结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?
757 0
|
存储 算法 大数据
大数据学习:带你从多个维度来分析大数据发展趋势
如今“大数据”已不再是单纯描述数据特征的词汇,而是一个多学科交融的热点研究领域,其背后有着复杂和深刻的新理念。
1938 0
|
机器学习/深度学习 人工智能 算法
必看!!大数据技术学习,深度挖掘大数据的现状分析
其实大数据有趣的是它不是直接可以炒作的东西。 能够获得广泛兴趣的产品和服务往往是那些人们可以触摸和感受到的,比如:移动应用,社交网络,可穿戴设备,虚拟现实等。
2060 0
|
大数据 数据挖掘 人机交互
|
人工智能 数据可视化 大数据
|
大数据 数据可视化 架构师