数据中心基础设施是大数据战略成败关键

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

为大数据选择新的硬件、存储和其它数据中心基础设施,这是IT专业人员们所面临的新挑战。

大数据是具备空前规模和形式的非结构化信息。它包括视频、图像,以及半结构化的数据(例如在Web上常见的电子邮件和文本)。随着基于传感器的移动Web监视设备和输出数据越来越多,可用的数据量将继续呈指数级增长。

推行大数据战略的压力往往来自高层,因为管理者相信,能有效运用数据的企业将比落后者具备更大优势。大数据战略需要数据中心基础架构作出的改变主要有五点:

一、支持大数据的硬件

大数据导致的存储需求量每年都将增长60%至80%,鉴于这种快速增长和当前的成本限制,IT采购者应选择在可扩展性和存储速度上最具成本效益的硬件。类似大型机的向上扩展体系结构重新兴起,因为它们能够经济高效地扩展,降低总体拥有成本。同样,在提升性能方面,固态硬盘(SSD)和固态卡带都比传统磁盘做得更好。

类似IBM Netezza和Oracle Exadata的硬件装置已被证实能有效兼顾可扩展性和性能。考虑采用硬件装置来支持关键大数据业务,但也应确认设备的架构能在未来提供快速性能升级。

二、围绕大数据选择存储

在成功的大数据策略下,企业可以将来自内部的高质量数据与Hadoop挖掘自多个云供应商的低质量数据进行整合。这也就改善了业务相关数据的质量,让分散在各地的数据能组织成为具备一致和及时性的大数据资源。

大数据正在改变中央数据仓储和松耦合数据集市的决策基础,后者的存储库规模要小得多,既可以替代中央数据仓库,也可以成为中央数据仓库的数据源。随着各地办事机构或者国际子公司的增加,中央管理层在业务线扩大的同时更需要高质量的数据来维持管控力度,避免权力的分散。

新的软件技术承担了繁重的存储相关处理工作。由Composite Software(刚刚被Cisco收购)和Denodo提供的数据虚拟化软件能自动发现数据源并提取数据充实全局元数据存储库,为整个组织提供跨越内部和外部的所有数据的公共数据库外观和体验。主数据管理软件通过创建公用主记录提高了数据质量,消除了费时的数据仓库检索。

企业Web外链需求加深了对公众和混合云的依赖。许多大型企业发现他们需要来自于多个云供应商的大数据,却不能指望供云应商会负责整合这些数据。企业只能从数据虚拟化供应商寻求工具来跨多个云整合大数据。

三、利用SSD的存储分层策略

存储成本很高,而且越快的存储也就越昂贵。最重要的是,大数据要求存储同时提供大容量和“大”性能。存储分层在存储资源池中提供多种成本/性能选项,从昂贵的高性能固态存储到传统的串行SCSI(SAS)磁盘存储,这些选项的组合降低了总拥有成本。在主内存和磁盘之间增加一个固态层将有助于将大数据任务的性能维持在高位,而且不会引起存储成本失控。

SSD的用量应遵从“90-10”的存储分层规则:成本和速度的最佳组合比例是:使用大约10%的SSD和90%的机械硬盘。这一策略让IT公司用仅增加10%成本的代价就能获得90%以上的性能提升。主内存和SSD的容量比例也遵从同样的规则。

由于SSD的性能价格比的提升速度超过传统磁盘(容量提升,价格降低),预计在不久的将来传统磁盘和SSD的配置比例会变为遵循80-20的规则。

IBM BLU Acceleration这类最新的纵列和内存数据库设施能利用SSD获得远超传统磁盘的性能,它们的设计能够有效发挥SSD这类“扁平化磁盘”的优势。

四、大数据分析和报告能力

虽然嵌入式分析工具已经可以利用报告和自动优化功能改善业务流程,但大数据再次改变了分析规则。例如,和传统上对单个客户进行主要行为分析洞察相比,大数据战略能为每个客户创建一个迭代和洞察分析线程,让公司能跟踪客户并更好地维持与所有客户的长期关系。

典型的大数据分析从业人员被称为数据科学家,和常规的IT主管不同,他们更可能同时担任CMO(营销总监)。然而,IT专业人员必须明白他们公司的大数据策略对数据科学家的工作产生的影响。

这意味着需要在自动化的报告和嵌入分析之外人工添加第三方审议内容:专设和松散耦合分析。支持专设查询的分析和统计工具是必要的软件前提。许多传统IT供应商以及云供应商——如IBM、Cognos和Birst——正在扩充这些功能。

五、企业中的Hadoop

Hadoop为数据密集型应用提供“紧贴着”MapReduce文件系统处理程序框架的分布式文件系统。此文件系统支持针对富文本数据的并行事务扩展,例如社交媒体数据。

许多IT公司通过在企业内创建自己的Hadoop版本来解决从Web获取Hadoop数据源的问题。然而,缺乏专业知识是一种挑战:精通这种发展中的Web数据管理框架的专业和艺术的IT管理人员犹如凤毛麟角。

组织开发他们自己的数据管理工具时应该留意,如IBM、Oracle和EMC的这些主要供应商,往往既提供专有产品用于访问Hadoop数据,也可进行定制开发,让IT公司不需要专门的数据归纳措施就能访问需要的数据。如果您决定搭建自己的数据平台,供应商也提供整合服务,使Hadoop更贴合现有IT资源来高效运作。

每个公司围绕大数据的相关决策都会有所不同。请记住,随着围绕大数据的技术演变,大数据战略也应当及时调整,与时俱进。

原文发布时间为:2014年05月15日
本文作者:娟子
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 运维 数据处理
AIGC浪潮对数据中心基础设施发展的影响
【1月更文挑战第19天】AIGC浪潮对数据中心基础设施发展的影响
175 1
AIGC浪潮对数据中心基础设施发展的影响
|
6月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
1017 0
|
6月前
|
存储 边缘计算 安全
阿里云全球基础设施展示,公共云地域、边缘节点、超级数据中心分布图
本文为大家介绍了阿里云在2024年的全球基础设施布局,包括公共云地域、边缘节点、超级数据中心等各个阶段和方面。阿里云基础设施已覆盖全球四大洲,拥有30个公共云地域和89个可用区,以及超过3200个边缘节点,为其用户提供了广泛且深入的服务覆盖。
阿里云全球基础设施展示,公共云地域、边缘节点、超级数据中心分布图
|
弹性计算
阿里云最新产品手册——云基础产品与基础设施——计算——云服务器ECS——应用场景——大数据分析
阿里云最新产品手册——云基础产品与基础设施——计算——云服务器ECS——应用场景——大数据分析自制脑图
315 2
|
存储 安全 Linux
NVIDIA DOCA 1.4 持续增强数据中心基础设施服务
NVIDIA DOCA 软件框架旨在帮助开发者在当前和未来的 NVIDIA BlueField DPU 上实现卸载、加速和隔离网络、存储、安全和管理服务,通过提供功能强大的开发套件将软件定义、硬件加速的数据中心基础设施的性能、效率、安全性、可靠性提升至新的高度。
NVIDIA DOCA 1.4 持续增强数据中心基础设施服务
TBT
|
存储 人工智能 运维
关于阿里云数据中心基础设施认证心得体会
数据中心也可解释为“多功能的建筑物,能容纳多个服务器以及通信设备”而要满足数据中心正常运行投用也少不了辅助设备的加持如:柴油发电机组、配电柜、冷水机组、精密空调、消防设备、各类监控设备等等,这些设备统称为“数据中心基础设施”
TBT
666 1
关于阿里云数据中心基础设施认证心得体会
|
云计算 数据中心 芯片
|
数据中心 云计算
带你读《企业数字化基石-阿里巴巴云计算基础设施实践》第三章数据中心能效3.1数据中心电能利用率(二 )
《企业数字化基石-阿里巴巴云计算基础设施实践》第三章数据中心能效3.1(二 )
307 0
带你读《企业数字化基石-阿里巴巴云计算基础设施实践》第三章数据中心能效3.1数据中心电能利用率(二 )
|
传感器 安全 数据中心
带你读《企业数字化基石-阿里巴巴云计算基础设施实践》第三章数据中心能效3.1数据中心电能利用率(一)
《企业数字化基石-阿里巴巴云计算基础设施实践》第三章数据中心能效3.1(一)
653 0
带你读《企业数字化基石-阿里巴巴云计算基础设施实践》第三章数据中心能效3.1数据中心电能利用率(一)
|
运维 安全 5G
会|多维创新 阿里云基础设施论“道”2021开放数据中心峰会
9月15日,2021 ODCC(开放数据中心委员会,以下同)年度峰会在北京国家会议中心揭幕,此次峰会以“推动高质低碳,筑基美好生活”为主题,现场重磅发布43项研究成果。阿里云基础设施组团亮相,斩获多项殊荣,技术分享,5大分论坛,10个演讲,2项技术白皮书,3项技术规范,应用案例分享,与行业论道,碰技术火花。
会|多维创新 阿里云基础设施论“道”2021开放数据中心峰会
下一篇
无影云桌面