管理大数据需要了解面临的挑战

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

如今,我们每天有多少数据处理?每年将产生多少数据?这一数字变化如此之快,每一年或两年翻一番,人们只能从知情人士获得最佳的估计数量。而这些透露消息的人士,其中大部分都是在组织中数据管理领域的杰出人物,他们所估计这个数字如此之高,这几乎让人不可能想象。根据全球市场调查机构IDC公司称,在2011年,我们大约创造了1.8泽字节的数据,换而言之就是1.8万亿千兆字节的信息。他们继续说,在2012年,我们创造了2.8泽字节的信息。此外,他们说,到2020年,我们将产生40泽字节的信息。

据IBM公司估计,我们现在每天创建了2.50亿千兆字节的数据。

这种大规模的数据集被称为大数据。大数据是已经成为非常流行的一个术语,以皮字节和艾字节表示和描述数据集,并且其有时施加到数据集的技术,并处理它的应用设置。

对于这篇文章的目的,我们将限制定义一个描述巨大的数据量。在2014年9月AIP会议议事程序中,安德列德·毛罗,马可·格雷科,米歇尔·格里马尔迪为我们提供了一个更具体的和健壮的定义:“大数据代表着这种高容量的信息资产的特征,通过各种需要特定的技术和分析方法,将其转变为价值”。

注意,这个定义是很重要的。它不仅是数据的数量,或体积,而且还有速度,也就是服务和消耗的速度。数据流已经改变了我们对存储和交付数据的看法,并放置在基础设施和应用程序引擎中,而以前难以想象要求能这样做。

一个更近的维基百科定义了“体积,速度和品种”短语,并添加到另外两个额外的“V”的概念,这两者都与大数据所面临的挑战非常相关的:变异性和准确性。

数据采集及其应用

随着互联网的出现和使用大数据的人数成倍增长,收集大量数据的能力也与之一起成长。数据收集发生几乎一样的其他计算活动的副作用。在我们采取的过程中,数据在创建帐户,上传文件,以及产生其他明显的行动。然而,数据也被无意提交收集,因为一些其它活性的副产品。一个看似私人的行为,如点击一个链接,对于营销人员就可以提供一个有价值的信息。因此,数据正在被记录和存储。并且在某处进行处理。

而计算机对于工作人员处理信息是优秀的,但没过多久,营销等行业实现保留供收集数据的大量的潜力,因为它是在网络上传来传去,最引人注目的是互联网(虽然重要的是记住很多大数据,并将其存储在企业的内部网)。当该数据与其他数据,例如人口统计信息,一个人的YouTube的喜好,地理位置,社会行为与Outlook配对,这个数据变得更加强大。

其他行业也意识到,他们在收集和处理信息方面从来没有见过这样大的规模。不仅互联网,而且企业和其他实体的内部网络可以容纳大量的信息。在美国、印度和其他地方的政府已经能够运行更精细的数据调整,以赢得选举。国际组织收集和使用医疗保健、生产力,以及就业数据,以帮助他们了解发展资金是最好的花费。私营部门在许多方面使用大数据,包括交易数据和分析。科学研究涉及到大数据分析,例如,大型强子对撞机的科研活动,以及超大型望远镜(VLT)阵列的数据返回。此外,大数据改变了制造业,通过提供生产、需求、足够的数据,分析师将了解是什么导致短缺和过剩,并对以前难以确定行为和计划进行可用性分析。

数据记录的泽字节是一回事,数据采集方便又便宜。当你认为你正在做别的事情的时候,数据收集正在发生。而我们如何利用它是一个完全不同的问题,也是任何组织所面临的最大挑战之一,从企业营销到政府部门,将考虑如何有效地使用这样大量的数据。

德毛罗等人所描述的数据的品种是大数据的关键特征之一。数据源无处不在,并收集所有类型的信息,其中一些应该被认为是敏感的,需要安全处理。随着各种各样的数据到来,这意味着来自不同来源的数据,格式和可访问性,即使是相同的信息,也可能是不同的。最后,数据的可靠性和准确性,是数据分析人员必须关注的重点。“脏数据”一直是数据库管理的一个问题,但这个问题与今天的环境指数相乘,具有更高的容量,并提供数据多源。

当它被成功地分析,大数据可以帮助科学家解码DNA,它可以帮助政府预测恐怖活动,它可以调整企业的产品结构,以满足客户的需求。

但面对这样的数据采集,持有人的问题是将如何利用它?并且越来越多,我们如何对此保证安全?

挑战和安全

如今,人们所面临的安全漏洞一直是很严重的,但大数据的安全漏洞可能是灾难性的。数据收集可以包括非常敏感和极其隐秘的个人信息,这将成为身份盗窃和恶意操纵的潜在数据。随着企业开发他们的大数据存储和分析系统,安全性必须列于他们的优先级名单的首位。

数据分析系统面临着大数据这个第一大挑战是简单的事实,系统和流程都不能处理,我们现在希望定期处理这些数据。存储基础设施相对容易创建:因为存储设备已经成为廉价和可用的,并对其挑战有着相当充分的了解。具分析和使用数据是目前正在开发的高需求,很多企业都已经建立了自己的内部数据分析:谷歌公司在2014年每天处理的信息大约20PB。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
存储 分布式计算 关系型数据库
大数据Spark偏移量管理
大数据Spark偏移量管理
71 1
|
8月前
|
安全 大数据 API
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
338 0
|
8月前
|
SQL 分布式计算 MaxCompute
maxcompute之配置报错如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
109 0
|
6月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之使用临时查询创建的表,在表管理和公共表没有找到,是什么原因
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
114 0
|
6月前
|
分布式计算 DataWorks NoSQL
MaxCompute产品使用合集之如何操作和管理节点
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
149 0
|
6月前
|
数据采集 监控 关系型数据库
大数据运维之数据质量管理
大数据运维之数据质量管理
134 0
|
分布式计算 运维 监控
DataWorks如何配置MaxCompute监控进行订阅管理?
DataWorks如何配置MaxCompute监控进行订阅管理?
86 1
|
8月前
|
人工智能 监控 数据可视化
智慧工地管理云平台可视化AI大数据建造工地源码
数字孪生可视化大屏,一张图掌握项目整体情况;
94 3
|
8月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks基础属性:调度参数典型场景配置示例如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
79 0
|
8月前
|
分布式计算 DataWorks 数据处理
DataWorks产品使用合集之在DataWorks中管理MaxCompute模块的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
114 0
下一篇
开通oss服务