大数据技术如何创造更大价值

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:


“大数据”这个词汇已经火了好几年,在最近的一两年里,风头似乎被人工智能、深度学习等概念抢走,逐渐成为“过气”的科技词汇。但事实上,我们认为这种炒作过后的“消亡”过程表明,大数据作为一个前沿技术在各个领域中开始了真正的应用。

2016年是大数据里程碑式的一年,不仅在很多行业中得到应用,辅助做出更有意义的决策,而且在可用性、备份和恢复等性能上变得对企业更加的友好、更易操作。我们也将持续关注那些使生产更高效,资源配置更合理,交易效率更快,从而提升生产者收益的优质项目。

在2017年,大数据技术将如何为企业和用户创造更大的价值?

大数据经过了几年的发展,在基础设施建设上已经取得了长足的进步,一些企业已经成为了上市公司(例如HortonWorks和NewRelic),还有一些例如Cloudera、MongoDB等公司融资也已经超过了一亿美元。在基础设施层面加强存储和处理大数据的能力之外,各个行业对大数据的应用才刚刚开始。

在过去的一年中,我们看到了大数据在金融科技、医疗、农业、企业服务等行业的深度应用,大数据分析使设备连接更快速、决策更聪明、运转更高效。那么在2017年,大数据又能呈现出哪些新的活力呢?

第一大数据与深度学习的结合将更加紧密

2016年,深度学习的发展以及整合大数据平台和框架的工具出现使大数据分析得到了长足的进步。其实近两年深度学习的崛起很大程度上算是大数据的功劳,深度学习背后的算法早在十几年前便诞生了,但直到最近大数据可以足够便宜地获取、足够快速的处理后才发挥出了它的潜能。

同时,深度学习在不同领域、不同场景下的应用,尤其是深度学习框架的开源,将会导致需要更多的模型和应用程序来生成更大规模的数据。这种相互促进将会更紧密的绑定大数据与深度学习,使大数据分析在行业中起到更重要的作用。

第二大数据会促使更多的公司使用云托管服务

在大数据媒体O’Reilly最近的调查中发现,企业一旦在云中获得了大数据服务的经验之后,绝大部分会继续使用其他的大数据服务。这说明企业越来越接受基于云的大数据服务。

虽然公有云服务很流行,但企业原有系统、敏感数据、安全性、合规性和隐私等问题仍然使企业更愿意选择搭建私有云或是采用混合云的模式。现在一种更灵活的模式越来越被接受,就是在公有云中搭建企业的专有云,这就是专有托管服务,如用于工业物联网的Predix或是基于亚马逊AWS的CIA云。

现在已有各种各样的专有云托管大数据服务,包括存储、数据处理、可视化、分析和人工智能等。这样的好处一个是企业内部的数据专业人员将不需要学习如何维护云端的数据,云托管服务提供商将进行管理。另一个是数据可以沉淀并存储在云端,在计算、处理和移动上将越来越方便。

第三Hadoop在大数据中的地位将越来越被弱化,最终将被取代

在过去的几年里,我们看到了一些技术随着大数据浪潮而出现,满足了Hadoop分析的需求,例如Spark的出现。但是,具有复杂、异构环境的企业不再希望仅为了Hadoop一个数据源构建单独的BI访问点。在2017年,我们将看到更多的企业要对所有来源的数据进行分析,那些不依赖于某个数据源的平台将会茁壮成长。

2016年已经是Hadoop的第十个年头,它也不仅仅是一个存储和计算框架,而是一个庞大的生态系统了。但随着Spark、Yarn、Platfora(已被Workday收购)等新框架的出现和被越来越多的企业采用,Hadoop的作用越来越弱,最终将被取代。

第四物联网、云计算和大数据的融合将为自助服务分析创造新的机遇

在2017年,将会有越来越多的传感器投入使用,IoT将会生成大量的结构化和非结构化数据,并且越来越多的数据将会部署在云端。数据通常是异构的,并且存在于多个关系系统和非关系系统中。虽然存储和管理服务的创新加快了数据捕捉过程,但访问和理解数据本身仍然是一个重大挑战。因此,对于无缝连接各种云托管数据源的自助分析工具的需求日益增长。

自助服务分析平台允许用户基于平台数据仓库中已有的表,自助建立分析模型,进行分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行分析与可视化。在这个领域已经看到了大量的创新,如Alteryx、Trifacta和Paxata,这些工具降低了大数据使用者的门槛。

第五数据格式和来源的多样化将成为投资者们关注的重点

在上面提到的大数据的4V特性都在飞速的增长,但多样性将成为大数据投资的唯一最大驱动力。NewVantagePartners最近的一项调查结果显示,随着企业寻求整合更多来源的数据并关注大数据的“长尾”,如何处理和分析多样化数据则成为了企业的核心能力。从无模式的Json到其他数据库的嵌套类型,到非平面数据(Avro、Parquet、XML),数据格式正在成倍增长,2017年,连接多样化数据的分析平台则将成为投资者们关注的方向。

虽然我们还处在大数据技术的早期发展阶段,但这项技术在行业中的应用将会越来越广泛。随着大数据继续走向成熟,这个词汇本身将会“消亡”,等到这项技术像空气一样无所不在的时候,也即是它真正“消亡”之时。



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
143 2
|
3月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
201 4
|
2月前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
109 0
|
3月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
17天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
53 2
|
1月前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
95 4
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。