如何驾驭大数据?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

大数据

到2018年全球大数据方面的开支将达1140亿美元,是5年前的3倍;到2020年全球大数据规模将达44ZB(泽字节),是2013年的10倍。下一波大数据浪潮即将来袭,但是并没有多少组织为此做好准备。如果应对措施不当,你可能就不是弄潮的那个,而是被浪尖打翻的那个。如何为驾驭大数据做好准备呢?请看Crewspark CEO Cameron Sim的文章。

1140亿美元。这是2018年全球组织在大数据方面的开销,仅仅5年的时间就增长了300%以上。但是这些投入有多少是值得的呢?

过去10年,我们目睹了大数据管理新方法的广泛应用,如MapReduce、供大规模存储使用的非模式化数据库,以及用于存储和处理的Hadoop、Storm和Spark等。但是大数据的使用不仅仅是特定平台或范例的部署而已:理想情况下这意味着公司对数据的建构和组织要如何进行彻底的重新设计。

但据调查发现,目前还没有多少组织为新的数据平台和能力做好基本准备。只有35%的组织拥有了“健壮的数据捕捉、管理、验证及保存流程”,更有67%“缺乏衡量定义明确的大数据行动成功的标准。”那些大数据解决方案基本都是被动集成进来的。

但时间可不等人,根据2014年IDC的报告,到2020年,全球的数据总量将达44ZB,整整是2013年的10倍。面对着下一波的数据大爆发,那些未做好准备的公司将可能就会有背负运营和技术双重债务的风险,并因数据落后而被淘汰出局。

具体而言,这些风险体现在以下几个方面:

企业丧失透明度

业界将面临大规模的技能短缺问题——很少有IT专业人士有经验管理大规模的大数据平台。根据麦肯锡的分析,到2018年,美国将出现150万名有能力做出基于数据决策的经理。为了缩短这一鸿沟,麦肯锡估计企业将需要把数据和分析预算的50%投入到一线经理的培训上面。但是还没有多少公司意识到这一点。

随着数据需求的扩大,如果对信息管理缺乏深刻理解,对数据扩展性缺乏最佳实践,那么在管理数据驱动的系统时就会遭遇到重大挑战。而糟糕的运营透明度会导致企业很难识别出数据何时不准确和无意义,甚至连关键报表和指标是否正确运行都不知道。理清这些错综复杂并对数据提出正确的问题将成为IT人员的必备技能。否则就会缺乏对企业运营的可视性,无法有效做出知情决策并削弱企业的竞争优势。

人工成本飙升

据估计2014年时数据科学家50-80%的工作时间花在了数据集清理和处理上。近期公司往往倾向把数据准备工作的自动化外包给离岸或近岸的数据专家。对CloudFactory、MobileWorks及Samasource这类微工作平台的需求已经爆发,据估计,到2018年这类业务的规模将达到50亿美元。

但是外包无法规模满足需求。鉴于未来的数据量将达到44ZB,数据的这种快速增长会需要成千上万具备长期可行的解决方案的离岸或近岸外包团队。而任何可持续的解决方案都离不开显著的自动化。

通信障碍

现在企业间的交互依靠的是经过组织的数据,但与未来20年发生的事情相比,这种组织数据的过程将会显得苍白无力。未来将会出现新的企业数据网络标准以及相应的算法和元数据。未能参与到这一全球数据市场的公司将无法利用市面上销售的这些数据产品。

全球各个领域都在发生这种朝着大规模商业数据共享的演变。比方说,在要求第三方验证其研究的压力之下,像葛兰素史克这样的药企最近都拟定了更广泛共享实验数据的计划。奥巴马总统已经要求技术公司共享潜在黑客威胁的数据。Forrester最近的一项研究预测,数据服务将成为2015年的主流产品。按照这种节奏,10年后大数据的有效使用不仅会成为市场致胜的关键,而且还是参与市场的先决条件。

这些风险就像一个个大数据的定时炸弹,对你构成严峻挑战。不过如果你采取下面的三个步骤,危险也许就可以解除。

1、不要走一步看一步

为了确保未来的分析能力,企业必须现在就开始投资一个能够快速有效管理新数据集的平台。应该考虑业务未来在数据摄入与联合方面如何运作,如何从传统的系统过渡到端到端的自动化的数据与分析。

其核心是这个平台要能够有目的地、小心地、透明地扩充,而不是光收集数据,但对这些数据使用却没有明确的目的,或者在数据的解析上不做投入。

2、再痛也要重建旧数据应用架构

许多公司过度依赖维护开销很高的旧系统,导致升级或作出战略变革的优先性被贬低。甚至一些大公司也是如此,比方说三星的SmartHub TV是跑在云上面的,但是因为顾忌迁移成本,其所有的金融交易仍在本地处理。

其结果就是在许多组织里面数据形成了一个个以部门为单位的烟囱。某些数据,比方说社交媒体方面的信息,甚至还保存在公司以外,这又增加了一层复杂性。要想大数据创新,企业必须以提高跨部门运营透明度为焦点对旧的数据应用进行翻新。

3、模块化、多颗粒度的数据管理

要把裸数据和洞察数据塑造成模块化、组织得当、具备各种颗粒度的实体,这一步做得越深入,越能够有效的利用商业洞察,同时还能在永远变化的大数据形势中保持敏捷的反应力。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
54 4
|
1月前
|
机器学习/深度学习 数据可视化 大数据
驾驭股市大数据:Python实战指南
【10月更文挑战第1天】随着信息技术的发展,投资者现在能够访问到前所未有的海量金融数据。本文将指导您如何利用Python来抓取当前股市行情的大数据,并通过分析这些数据为自己提供决策支持。我们将介绍从数据获取到处理、分析以及可视化整个流程的技术方法。
72 2
|
4月前
|
机器学习/深度学习 存储 分布式计算
驾驭数据洪流:大数据处理的技术与应用
大数据处理不仅是信息技术领域的一个热门话题,也是推动各行各业创新和发展的重要力量。随着技术的进步和社会需求的变化,大数据处理将继续发挥其核心作用,为企业创造更多的商业价值和社会贡献。未来,大数据处理将更加注重智能化、实时性和安全性,以应对不断增长的数据挑战。
|
4月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
120 1
|
4月前
|
机器学习/深度学习 数据采集 大数据
驾驭大数据洪流:Pandas与NumPy在高效数据处理与机器学习中的核心作用
【7月更文挑战第13天】在大数据时代,Pandas与NumPy是Python数据分析的核心,用于处理复杂数据集。在一个电商销售数据案例中,首先使用Pandas的`read_csv`加载CSV数据,通过`head`和`describe`进行初步探索。接着,数据清洗涉及填充缺失值和删除异常数据。然后,利用`groupby`和`aggregate`分析销售趋势,并用Matplotlib可视化结果。在机器学习预处理阶段,借助NumPy进行数组操作,如特征缩放。Pandas的数据操作便捷性与NumPy的数值计算效率,共同助力高效的数据分析和建模。
83 3
|
6月前
|
大数据 数据管理 分布式数据库
探索 HBase GUI 工具,助您轻松驾驭大数据世界!
从此告别繁琐,迎接大数据时代的新利器! #HBase #GUI #数据管理 #工具分享
302 2
探索 HBase GUI 工具,助您轻松驾驭大数据世界!
|
30天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势