管理大数据需要了解面临的挑战-阿里云开发者社区

管理大数据需要了解面临的挑战

2017-07-10 1438

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介：

如今，我们每天有多少数据处理？每年将产生多少数据？这一数字变化如此之快，每一年或两年翻一番，人们只能从知情人士获得最佳的估计数量。而这些透露消息的人士，其中大部分都是在组织中数据管理领域的杰出人物，他们所估计这个数字如此之高，这几乎让人不可能想象。根据全球市场调查机构IDC公司称，在2011年，我们大约创造了1.8泽字节的数据，换而言之就是1.8万亿千兆字节的信息。他们继续说，在2012年，我们创造了2.8泽字节的信息。此外，他们说，到2020年，我们将产生40泽字节的信息。

据IBM公司估计，我们现在每天创建了2.50亿千兆字节的数据。

这种大规模的数据集被称为大数据。大数据是已经成为非常流行的一个术语，以皮字节和艾字节表示和描述数据集，并且其有时施加到数据集的技术，并处理它的应用设置。

对于这篇文章的目的，我们将限制定义一个描述巨大的数据量。在2014年9月AIP会议议事程序中，安德列德·毛罗，马可·格雷科，米歇尔·格里马尔迪为我们提供了一个更具体的和健壮的定义：“大数据代表着这种高容量的信息资产的特征，通过各种需要特定的技术和分析方法，将其转变为价值”。

注意，这个定义是很重要的。它不仅是数据的数量，或体积，而且还有速度，也就是服务和消耗的速度。数据流已经改变了我们对存储和交付数据的看法，并放置在基础设施和应用程序引擎中，而以前难以想象要求能这样做。

一个更近的维基百科定义了“体积，速度和品种”短语，并添加到另外两个额外的“V”的概念，这两者都与大数据所面临的挑战非常相关的：变异性和准确性。

数据采集及其应用

随着互联网的出现和使用大数据的人数成倍增长，收集大量数据的能力也与之一起成长。数据收集发生几乎一样的其他计算活动的副作用。在我们采取的过程中，数据在创建帐户，上传文件，以及产生其他明显的行动。然而，数据也被无意提交收集，因为一些其它活性的副产品。一个看似私人的行为，如点击一个链接，对于营销人员就可以提供一个有价值的信息。因此，数据正在被记录和存储。并且在某处进行处理。

而计算机对于工作人员处理信息是优秀的，但没过多久，营销等行业实现保留供收集数据的大量的潜力，因为它是在网络上传来传去，最引人注目的是互联网（虽然重要的是记住很多大数据，并将其存储在企业的内部网）。当该数据与其他数据，例如人口统计信息，一个人的YouTube的喜好，地理位置，社会行为与Outlook配对，这个数据变得更加强大。

其他行业也意识到，他们在收集和处理信息方面从来没有见过这样大的规模。不仅互联网，而且企业和其他实体的内部网络可以容纳大量的信息。在美国、印度和其他地方的政府已经能够运行更精细的数据调整，以赢得选举。国际组织收集和使用医疗保健、生产力，以及就业数据，以帮助他们了解发展资金是最好的花费。私营部门在许多方面使用大数据，包括交易数据和分析。科学研究涉及到大数据分析，例如，大型强子对撞机的科研活动，以及超大型望远镜（VLT）阵列的数据返回。此外，大数据改变了制造业，通过提供生产、需求、足够的数据，分析师将了解是什么导致短缺和过剩，并对以前难以确定行为和计划进行可用性分析。

数据记录的泽字节是一回事，数据采集方便又便宜。当你认为你正在做别的事情的时候，数据收集正在发生。而我们如何利用它是一个完全不同的问题，也是任何组织所面临的最大挑战之一，从企业营销到政府部门，将考虑如何有效地使用这样大量的数据。

德毛罗等人所描述的数据的品种是大数据的关键特征之一。数据源无处不在，并收集所有类型的信息，其中一些应该被认为是敏感的，需要安全处理。随着各种各样的数据到来，这意味着来自不同来源的数据，格式和可访问性，即使是相同的信息，也可能是不同的。最后，数据的可靠性和准确性，是数据分析人员必须关注的重点。“脏数据”一直是数据库管理的一个问题，但这个问题与今天的环境指数相乘，具有更高的容量，并提供数据多源。

当它被成功地分析，大数据可以帮助科学家解码DNA，它可以帮助政府预测恐怖活动，它可以调整企业的产品结构，以满足客户的需求。

但面对这样的数据采集，持有人的问题是将如何利用它？并且越来越多，我们如何对此保证安全？

挑战和安全

如今，人们所面临的安全漏洞一直是很严重的，但大数据的安全漏洞可能是灾难性的。数据收集可以包括非常敏感和极其隐秘的个人信息，这将成为身份盗窃和恶意操纵的潜在数据。随着企业开发他们的大数据存储和分析系统，安全性必须列于他们的优先级名单的首位。

数据分析系统面临着大数据这个第一大挑战是简单的事实，系统和流程都不能处理，我们现在希望定期处理这些数据。存储基础设施相对容易创建：因为存储设备已经成为廉价和可用的，并对其挑战有着相当充分的了解。具分析和使用数据是目前正在开发的高需求，很多企业都已经建立了自己的内部数据分析：谷歌公司在2014年每天处理的信息大约20PB。

====================================分割线================================

本文转自d1net（转载）

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

管理大数据需要了解面临的挑战

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

管理大数据需要了解面临的挑战

热门文章

最新文章

相关课程

相关电子书

相关实验场景