管理大数据需要了解面临的挑战

简介:

如今,我们每天有多少数据处理?每年将产生多少数据?这一数字变化如此之快,每一年或两年翻一番,人们只能从知情人士获得最佳的估计数量。而这些透露消息的人士,其中大部分都是在组织中数据管理领域的杰出人物,他们所估计这个数字如此之高,这几乎让人不可能想象。根据全球市场调查机构IDC公司称,在2011年,我们大约创造了1.8泽字节的数据,换而言之就是1.8万亿千兆字节的信息。他们继续说,在2012年,我们创造了2.8泽字节的信息。此外,他们说,到2020年,我们将产生40泽字节的信息。

据IBM公司估计,我们现在每天创建了2.50亿千兆字节的数据。

这种大规模的数据集被称为大数据。大数据是已经成为非常流行的一个术语,以皮字节和艾字节表示和描述数据集,并且其有时施加到数据集的技术,并处理它的应用设置。

对于这篇文章的目的,我们将限制定义一个描述巨大的数据量。在2014年9月AIP会议议事程序中,安德列德·毛罗,马可·格雷科,米歇尔·格里马尔迪为我们提供了一个更具体的和健壮的定义:“大数据代表着这种高容量的信息资产的特征,通过各种需要特定的技术和分析方法,将其转变为价值”。

注意,这个定义是很重要的。它不仅是数据的数量,或体积,而且还有速度,也就是服务和消耗的速度。数据流已经改变了我们对存储和交付数据的看法,并放置在基础设施和应用程序引擎中,而以前难以想象要求能这样做。

一个更近的维基百科定义了“体积,速度和品种”短语,并添加到另外两个额外的“V”的概念,这两者都与大数据所面临的挑战非常相关的:变异性和准确性。

数据采集及其应用

随着互联网的出现和使用大数据的人数成倍增长,收集大量数据的能力也与之一起成长。数据收集发生几乎一样的其他计算活动的副作用。在我们采取的过程中,数据在创建帐户,上传文件,以及产生其他明显的行动。然而,数据也被无意提交收集,因为一些其它活性的副产品。一个看似私人的行为,如点击一个链接,对于营销人员就可以提供一个有价值的信息。因此,数据正在被记录和存储。并且在某处进行处理。

而计算机对于工作人员处理信息是优秀的,但没过多久,营销等行业实现保留供收集数据的大量的潜力,因为它是在网络上传来传去,最引人注目的是互联网(虽然重要的是记住很多大数据,并将其存储在企业的内部网)。当该数据与其他数据,例如人口统计信息,一个人的YouTube的喜好,地理位置,社会行为与Outlook配对,这个数据变得更加强大。

其他行业也意识到,他们在收集和处理信息方面从来没有见过这样大的规模。不仅互联网,而且企业和其他实体的内部网络可以容纳大量的信息。在美国、印度和其他地方的政府已经能够运行更精细的数据调整,以赢得选举。国际组织收集和使用医疗保健、生产力,以及就业数据,以帮助他们了解发展资金是最好的花费。私营部门在许多方面使用大数据,包括交易数据和分析。科学研究涉及到大数据分析,例如,大型强子对撞机的科研活动,以及超大型望远镜(VLT)阵列的数据返回。此外,大数据改变了制造业,通过提供生产、需求、足够的数据,分析师将了解是什么导致短缺和过剩,并对以前难以确定行为和计划进行可用性分析。

数据记录的泽字节是一回事,数据采集方便又便宜。当你认为你正在做别的事情的时候,数据收集正在发生。而我们如何利用它是一个完全不同的问题,也是任何组织所面临的最大挑战之一,从企业营销到政府部门,将考虑如何有效地使用这样大量的数据。

德毛罗等人所描述的数据的品种是大数据的关键特征之一。数据源无处不在,并收集所有类型的信息,其中一些应该被认为是敏感的,需要安全处理。随着各种各样的数据到来,这意味着来自不同来源的数据,格式和可访问性,即使是相同的信息,也可能是不同的。最后,数据的可靠性和准确性,是数据分析人员必须关注的重点。“脏数据”一直是数据库管理的一个问题,但这个问题与今天的环境指数相乘,具有更高的容量,并提供数据多源。

当它被成功地分析,大数据可以帮助科学家解码DNA,它可以帮助政府预测恐怖活动,它可以调整企业的产品结构,以满足客户的需求。

但面对这样的数据采集,持有人的问题是将如何利用它?并且越来越多,我们如何对此保证安全?

挑战和安全

如今,人们所面临的安全漏洞一直是很严重的,但大数据的安全漏洞可能是灾难性的。数据收集可以包括非常敏感和极其隐秘的个人信息,这将成为身份盗窃和恶意操纵的潜在数据。随着企业开发他们的大数据存储和分析系统,安全性必须列于他们的优先级名单的首位。

数据分析系统面临着大数据这个第一大挑战是简单的事实,系统和流程都不能处理,我们现在希望定期处理这些数据。存储基础设施相对容易创建:因为存储设备已经成为廉价和可用的,并对其挑战有着相当充分的了解。具分析和使用数据是目前正在开发的高需求,很多企业都已经建立了自己的内部数据分析:谷歌公司在2014年每天处理的信息大约20PB。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 分布式计算 MaxCompute
maxcompute之配置报错如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 0
|
7月前
|
存储 分布式计算 关系型数据库
大数据Spark偏移量管理
大数据Spark偏移量管理
33 1
|
4月前
|
安全 大数据 API
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
63 0
|
6月前
|
分布式计算 运维 监控
DataWorks如何配置MaxCompute监控进行订阅管理?
DataWorks如何配置MaxCompute监控进行订阅管理?
44 1
|
4月前
|
监控 数据可视化 安全
Java智慧工地管理平台可视化大数据建造工地APP源码
Java智慧工地管理平台可视化大数据建造工地APP源码
59 0
|
4月前
|
人工智能 监控 Java
Java数字化智慧工地管理云平台源码(人工智能、物联网、大数据)
Java数字化智慧工地管理云平台源码(人工智能、物联网、大数据)
82 0
|
7月前
|
存储 消息中间件 大数据
大数据Flink状态管理
大数据Flink状态管理
33 0
|
12月前
|
小程序 Java 人机交互
智慧校园大数据云平台源码,实现基础数据共享、应用统一管理
智慧校园云平台电子班牌系统,利用先进的云计算技术,将教育信息化资源和教学管理系统进行有效整合,实现基础数据共享、应用统一管理。借助全新的智能交互识别终端和移动化教育管理系统,以考勤、课表、通知、家校互通等功能为切入点,从班级建设、校园文化、班级文化、学生工作、信息发布、家校共育六大方面,着力打造满足用户场景,深度贴合学校教育的改革需求。
|
分布式计算 MaxCompute 数据安全/隐私保护
《MaxCompute技术公开课第四季 之 MaxCompute数据安全管理解析》电子版地址
MaxCompute技术公开课第四季 之 MaxCompute数据安全管理解析
《MaxCompute技术公开课第四季 之 MaxCompute数据安全管理解析》电子版地址
|
存储 分布式计算 关系型数据库
大数据的存储和管理(二)|学习笔记
快速学习大数据的存储和管理(二)
148 0
大数据的存储和管理(二)|学习笔记

热门文章

最新文章