如何理解大数据分析

本文涉及的产品
文件存储 NAS,50GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据。而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语。

大数据定义之所以混乱的最常见的原因,是人们将大数据存储与大数据分析的结果混为一谈。“大数据”一词起源于开源社区,其开发和分析过程比传统的数据仓库速度更快,扩展性更强,并且可以通过网络在用户每天产生的大量非结构化数据中提取价值。

大数据的存储是相关的,其旨在解决大量的非结构化数据,助长企业级的数据增长。而扩展NAS和对象存储这些技术支撑大数据存储,已经存在了多年,并且人们对此有着充分的了解。

在一个非常简单的层面上,大数据存储无非是存储用于产生大量的非结构化数据的应用程序处理的大量数据。这包括高清晰度视频流,油气勘探,基因组学等数据。

一个大型存储厂商的一位营销高管表示,其公司正在考虑将“海量数据”作为其大数据存储条目的名称。

大数据分析是比较紧急的和多方面的,但IT人员对其理解较少。大数据分析发展过程在历史上一直受到网络的推动。然而,大数据分析的应用程序正在发生在所有主要垂直行业领域,现在的快速增长是一个增长的机会,值得所有供应商进行炒作。

大数据分析是快速增长的多样化的区域。因此,试图确定它有什么用可能是无益的。但是,可以识别和鉴定大数据分析的技术特征和共同点。这些包括:

·在可扩展性方面,传统的数据仓库处理速度太慢,而且有限制;

·融合来自多个数据源的数据的能力,其中包括结构化和非结构化的数据;

·从数据来源获取信息是至关重要的,其中包括越来越多的移动设备、无线射频识别技术、网络,以及自动化技术。

此外,在多样性大数据分析中可以找到至少四个主要发展片段。这些片段是MapReduce,可扩展的数据库,实时流处理和大数据应用。

(1)MapReduce

ApacheHadoop是MapReduce段开始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一种用于并行网络的数据处理称为MapReduce的概念。此后不久,ApacheHadoop的诞生成为一个开源实现MapReduce的过程。周围的社区正在快速成长,生产加载项扩展了企业数据中心内的ApacheHadoop的可用性。

Apache的Hadoop的用户通常在商用服务器建立自己的并行计算集群,各有专门存储在一个小型磁盘阵列的形式,最近,也开始采用固态硬盘(SSD)的形式。这些通常被称为“无共享”架构。而存储区域网络(SAN)和网络附加存储(NAS)的可扩展性和弹性,通常被视为缺乏I/O性能,这些集群需要超越标准的数据仓库的能力。因此,Hadoop的存储是直接连接存储(DAS)。然而,使用SAN和NAS的“二次”存储正在成为新兴的形式。

一个潜在的Hadoop用户面临的采购选择,从单纯的开源到高度商业化的版本,其范围内越来越广泛。Apache的Hadoop和相关的工具都可以免费在ApacheHadoop的网站下载。Cloudera的公司提供了一个商业版本,其中包括一些Cloudera的插件和支持。其他开放源代码的变种,如Facebook的distribution,也可以从Cloudera公司获得。其商业版本包括MAPR,EMC公司现在将其合并成一个Hadoop应用。

(2)可扩展的数据库

而Hadoop已经攫取了大部分的头条新闻,因为它在数据仓库环境下具有非结构化数据的处理能力,更有向大数据分析的发展空间。

结构化数据也得到了大量的关注。一个充满活力和快速增长的社区围绕NoSQL,这是一个开源的、非关系型、分布和横向扩展的数据库集合的结构,可以满足网络规模的数据库设计的高流量的网站和流媒体的需要。面向文档的实现包括MongoDB(如“humongous”DB)和Terrastore。

开源社区所产生的另一种面向分析的数据库是正在开发使用的scidb,包括环境观测和监测,射电天文学和地震,等等。

传统的数据仓库供应商并没有袖手旁观。甲骨文公司正在打造其“下一代”大数据平台,将利用其分析平台和内存计算的实时信息传递。Teradata公司最近收购了ASTER数据系统公司,将ASTER数据的SQLMapReduce添加到其产品组合中。

(3)实时流处理

对于多个数据流进行实时分析的StreamSQL从2003年开始使用,然而到现在为止,StreamSQL只能够渗透到一些比较小的小众市场,如金融服务,监视和通信网络监控等领域。而随着行业厂商和用户对大数据的兴趣不断增长,StreamSQL势必会得到更多的关注和寻找更多的市场机会。

Streamsql是生长计算研究的一个区域称为复杂事件处理(CEP),对真实世界的事件数据的低延迟处理技术。无论是IBM,还是InfoSphereStreams公司,以及StreamBase系统公司的产品都在这个领域中。

(4)大数据应用

作为大数据分析的兴趣扩展到企业数据中心,供应商群体看到了一个机会,把一起大数据“家电”。这些设备的服务器,网络和存储设备集成到加速信息传递到一个机箱和运行分析软件用户。这些设备针对企业买家都会看重大数据设备易用性和价值,以及其固有的实施和使用的特点而推出的。围绕Greenplum数据库引擎这个领域的厂商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商业化版本,预集成系统,内置设备,可与甲骨文和Teradata公司的版本相媲美。

大数据分析的大数据存储

大数据分析过程的从业人员一般都不喜欢共享存储。他们喜欢DAS的各种形式,从SSD到其内部并行处理节点的高容量的SATA硬盘。共享存储体系结构,如SAN和NAS,通常被认为是相对缓慢的复杂的,首先,是其价格昂贵。这些特点都不选用于大数据分析系统的系统性能,不能满足商品基础设施的低成本的蓬勃发展。

实时或接近实时信息传递是大数据分析的定义特征之一,因此,延迟是可以避免的,无论何时何地。在内存中的数据是良好的,至少比采用光纤传输到机械式硬盘要好,但也许比其他任何事情都更加糟糕,SAN在规模需要分析应用的成本让人望而却步。

在大数据分析中,有一个共享存储的案例。然而,存储厂商和一般的存储社区还没有成为大数据分析的实践者。这个例子可以在ParAccel的分析数据库(PADB)与NetAppSAN存储中看到。

数据存储技术的开发人员表示将存储看作从物理设备迁移到一个更虚拟和抽象的实体的实现。其结果是,共享存储环境可以并且应该被大数据从业者视为他们可以找到潜在有价值的数据服务,如:

(1)数据保护和系统可用性:基于存储的复制功能可以不需要数据库创建数据副本,当系统故障和数据损坏事件发生时,重新启动可以恢复系统。

(2)缩短部署新应用程序和自动化流程的时间:通过可重复使用的数据副本,当新的应用程序都可以在网上迅速被建立,提高业务灵活性。

(3)变更管理:共享存储可以帮助保持一个“永远在线”的能力,可能减少所需的改变和升级,以及对在线生产环境的影响。

(4)生命周期管理:当共享存储可以作为记录的数据库时,系统的演化变得更加容易管理,并且那些已经废弃的应用变得更加容易丢弃。

(5)节约成本:使用共享存储作为一个无共享架构,可以辅助DAS降低成本和处理器节点的复杂性。

以上提到的好处每个人都可以被映射到无共享架构的分析。我们可以期望看到更多的存储厂商这样做一段时间。例如,虽然尚未公布,EMC公司可以凭借其基于MAPR设备整合Isilon或Atmos公司的存储。

大数据是一个大问题

传统的数据仓库是一个大而相对较慢的生产商信息的业务分析。它从有限的数据资源,并依赖于反复的提取、转换和加载(ETL)过程。客户在快速寻找获取信息的基础上,从多个数据源同时淘汰掘金。大数据分析可以被定义,在一定程度上,需要从多个数据源解析大数据集,并产生实时或接近实时的信息。

大数据分析代表了一个巨大的机会。IT组织都在探索上述来自社交网络的繁荣,解析基于网络的数据源和提取价值分析技术。然而,现在有了一个更大的机会,那就是物联网成为了一种新兴的数据源。思科系统公司估计全球目前约有350亿个可以连接到互联网的电子设备。任何电子设备可以(有线或无线)连接到互联网,甚至汽车制造商正在建设连接到车辆的互联网。“连接的”汽车将在2020年成为司空见惯的事情,并产生数以百万计的瞬态数据流。

理解大数据分析

利用多个数据源,如物联网的力量将会远远超出传统的数据仓库技术。这将需要模仿人类大脑功能的过程。我们的大脑需要大量的感官数据流,并创建必要的相关关系,让我们知道我们在哪里,我们在做什么,最终我们在想什么,所有这些都是实时的。

关于作者

约翰·韦伯斯特是评估公司Evaluator集团的高级合伙人,主要从事数据存储技术,正在进行的研究包括硬件、软件和服务管理。

本文转自d1net(转载)

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
186 2
|
3月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
102 5
|
1月前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
163 15
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
1月前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
143 4
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
50 4
|
2月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
357 5
|
2月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
323 14
|
2月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
196 2

热门文章

最新文章