为您企业找到合适的大数据设备

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

企业应慎重选择一款大数据设备,以便确保其对于企业业务的价值。

似乎选择一款单一的、优化架构的方法来处理大数据是有一定意义的。

一款专门由硬件和软件组合所搭建起来的设备显然应该要比手工胡乱拼凑起来的设备要好很多,不是吗?

上述这一逻辑已然在数据管理人员的圈子中得到了广泛的认同。

例如,甲骨文已经收购了Exadata公司,并创建了一款被称为甲骨文大数据设备的系统。该结合了Sun的硬件与各种不同的软件方法,以便在一款设备中处理不同类型的数据。

而IBM公司在收购了Netezza公司之后,也采取了类似的方法,创建了一套被称为PureData的设备。

另外,戴尔和惠普也都有推出一系列的大数据应用设备;Teradata公司收购了Aster公司,并随后推出了其集成的大数据平台;日立数据系统具有超级横向扩充平台(Hyper Scale-Out Platform,HSP);而EMC公司则推出了其数据计算设备;存储专家DataDirect Networks公司有其被命名为SFA12K的大数据设备。

企业可以有许多不同的方式来进行大数据分析——自行构建方法,并将大数据作为服务只是一对常用的组合,但这些方法都充满了问题,而供应商正在努力帮助您企业避免。对于企业对大数据的利用而言,采用一款大数据设备的方法似乎正风靡一时,但大数据设备的选择是否真的如同其看上去那么简单呢?

要深入挖掘,首先就要充分了解到底什么是大数据。

关于大数据的五大特性

往往在太多数时候,大数据仍然仅被关注到了其庞大的数据信息量。然而,如果是这样的话,那么这应该只是一个大量数据的问题,而不是大数据;庞大的数据量只是大数据的五大特征之一。

想要充分理解大数据所带来的问题,就必须了解大数据的其他几个方面的特性,以及由这几大特性综合作用所为大数据世界创造的问题和提供的相关机遇。

如前所述,有海量的数据被处理。然而,如果所有这些被处理的数据都是正式的、结构化的数据,那么,拥有适当的横向扩展计算、存储和网络平台的标准数据库应该是足够的。

当您看到数据种类的多样性时,这些问题才真正开始突显,混合了结构化数据和非结构化数据的数据集合亟待进行处理。大多数的数据具有一定的层次结构,无论其承载的载体是否是一个微软Word文档的格式;或是以逗号分隔的机器对机器的数据;或是图像,视频或音频数据。然后是数据的传输速度的特性,这一特性这有2个方面。首先是数据被呈现给分析环境的速度。例如,实时数据分析处理物联网的数据,往往需要处理大量小数据包的数据,没有人能够延迟来使其减缓。其次是分析得出结果的速度。

例如,在金融交易中,与其他交易员相比,下游的交易员得到结果往往要稍微晚几毫秒的时间。而在生产线上,对于某个问题的识别往往需要在其成为一个问题之前采取行动,这样才能够使得生产线得以继续经营,而不是停掉整条生产线来进行处理。大数据的准确性这一特性也很重要。糟糕的数据分析往往会导致质量很差的输出。

因此,任何大数据系统必须能够检查其所分析的数据的质量,或者上游的数据源是能够值得信任的。最后的一大特性是大数据的价值。其实,这一点才是真正驱动企业进行任何大数据活动项目的推动因素。其应该在大数据的五大特性中被排在第一位。进行大数据分析的决策必须建立在其价值之上,从而使得企业得出相应结果:这种分析是否真的是值得的?

其对于企业业务活动及其成功的真正影响在何处?在某些情况下,Quocirca公司已经看到了大数据分析所带来的一些进展,因为这“似乎的确是个好主意”——但在为何要使用这种IT资源的背后必须要有扎实的商业理由。因此,任何向您企业吹捧一款大数据系统的供应商,都必须有相应的信息来针对您企业大数据的每种特性。因此,将各个方面的数据都纳入关系数据库中,不强迫结构化数据作为二进制大对象不应是处理大数据的方式。

同样,那些在象牙塔中宣称关系型数据库的日子已经结束了,所有一切数据都可以纳入一款持续的Hadoop存储或NoSQL数据库的说法也是错误的。然而,针对专业的不同数据系统采取一种断开连接的方法也将无法奏效。例如,对数据缩减非持久的Hadoop系统采用MapReduce,分离关系和非关系的持久性存储将导致无法处理大数据速率的要求。

单一的分析方法

对于真正的大数据分析,大数据的五大特性需要加以处理,而数据以一种单一的方法汇聚,实际可以进行业务分析。这便是设备的方式发挥其作用的时候了。通过借助Hadoop环境,并将其在同一台设备中与关系型和非关系型数据存储进行混合,智能化可内置于整个系统,以确保恰当的数据在恰当的时间驻留在合适的存储中。所需的分析层可以优化,以确保性能是符合分析目的。这是一个所有相关供应商都在为之战斗的一个战场。

然而,仍有人认为购买一个大的数据设备需要注意的领域。对于大多数组织而言,大数据将涉及大量的数据。为了提供所需的分析速度,大数据设备中的大多数将有大量的内存,使内存分析发生。因此,确保设备有足够的内存是采购大数据设备所需考虑的一大关键。该设备将需要扩展,太小的内存将导致数据系统的交付将比预期的慢,然后数据就会在低速存储系统中进出。查看设备是否是纯粹旋转的,基于磁力盘额。随着固态存储器的出现,从磁盘检索数据的速度已大幅增加,但仍远低于存储系统。使用固态存储器的系统比使用磁盘的速度快得多。此外,要注意混合系统,其是顶部层的固态和较低层的磁盘存储的一个混合。除非有一个智能的软件管理随时驻留在此的数据,当分析系统试图从内存中获取数据看到数据不在那里,然后下降到固态,发现数据不存在,并下降到磁盘,并将数据从那里纳入到内存时,有可能是主要的性能问题。

  展望未来

现在需要寻求将Hadoop,NoSQL与关系型数据库汇集到一起的系统的方法。然而,也可以展望未来。很长一段时间,Quocirca建议不要使用Hadoop作为一个持久性存储,而不是取决于其MapReduce的能力,作为数据过滤器,来降低在任何环境所需分析的数据量。

MapR公司是Apache Drill项目的领军,而Hortonworks则推出了其Hive Stinger计划,两大项目均显示了在在Hadoop存储中启用SQL查询的承诺。诸如IBM和Actian公司这样的供应商,有商业化的Hadoop-SQL产品,能够处理一些目前Hadoop作为一个持久性存储的速度问题。在NoSQL终端的数据存储,Basho公司则采取一种不同的方法。通过启用其Riak NoSQL数据库节点的网格,每个节点处理大数据的不同方面,他们希望能够创造出“所有规则的其中一环”:一个可以针对不同数据类型的变化速度处理数据压缩的数据库。

最后,寻找不会将您捆绑在特定工作方法的系统。使用现有的商业智能(BI)系统的技能已经建立,而无需学习新的技能,大数据系统的选择应该能够使现有的BI工具能够分层。现在,大数据分析仍处于相对不成熟的水平。企业自行打造的方法不太可能能够提供投资回报率,而一款专业的大数据设备则可能只是在短时间内解决了某个问题。因此,企业应谨慎选择一款大数据设备,确保该项业务的价值足以弥补您企业的该项支出。


本文作者:litao984lt编译

来源:51CTO

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
SQL 存储 监控
大数据Flume企业开发实战
大数据Flume企业开发实战
127 0
|
28天前
|
存储 供应链 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险预警与决策支持中的应用(204)
本篇文章探讨了基于 Java 的大数据可视化技术在企业供应链风险预警与决策支持中的深度应用。文章系统介绍了从数据采集、存储、处理到可视化呈现的完整技术方案,结合供应链风险预警与决策支持的实际案例,展示了 Java 大数据技术如何助力企业实现高效、智能的供应链管理。
|
4月前
|
数据采集 人工智能 大数据
大数据+商业智能=精准决策,企业的秘密武器
大数据+商业智能=精准决策,企业的秘密武器
155 27
|
4月前
|
机器学习/深度学习 数据采集 算法
大数据加持的预测性维护:让设备故障“未卜先知”
大数据加持的预测性维护:让设备故障“未卜先知”
138 2
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
用大数据重塑客户关系管理:聪明企业的秘密武器
用大数据重塑客户关系管理:聪明企业的秘密武器
105 9
|
5月前
|
机器学习/深度学习 人工智能 算法
解锁政策红利:大数据时代的企业与个人发展新契机
在大数据与机器学习时代,政策解读、预测分析和个性化匹配成为挖掘发展新动能的重要工具。无论是企业还是个人,都能借助先进技术轻松理解复杂政策,把握趋势先机。文章探讨了自由职业者、创业者及企业员工如何通过政策支持实现协同发展,并介绍了“政策宝”这一智慧助手,助力用户发现和利用政策红利,抓住机遇实现目标。探索政策宝库,开启发展新征程!
|
10月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
508 2
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
253 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
11月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
176 0
|
存储 监控 数据挖掘
云上大数据分析平台:赋能企业决策,挖掘数据金矿
5.3 场景化 针对不同行业和领域的需求特点,云上大数据分析平台将推出更多场景化的解决方案。这些解决方案将结合行业特点和业务场景进行
585 7

热门文章

最新文章