华为服务器助力全球最大私有Hadoop集群发力大数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

经过几个月的使用和评估,我们决定将华为的FusionServer纳入我们全球采购目录,让华为成为我们的一个主要硬件供应商。所以自2016年初以来,我们在美国,欧洲和亚太地区持续采购华为服务器……华为提供构建强大数据中心所需的全系列产品。我们可以从一个供应商处购买到模块化集装箱、服务器和网络交换机,这一点对我们来说非常有吸引力。

--Matthieu BlumbergCriteo基础设施业务工程总监

客户背景

全球科技公司Criteo成立于2005年,通过在全球范围内进行个性化宣传,为广告客户带来更多的销售。通过自行研发的预测算法,Criteo能够在正确的时间向正确的用户提供关于正确产品的广告。通过测量点击后销售的回报率,Criteo使投资回报率变得透明和易于测量。这是一项由近17万台服务器支持起来的数据密集型业务。

Criteo网络的运营核心,是世界上最大的私有Hadoop平台。这个开源软件框架负责存储"大数据",在商用硬件集群上运行应用程序,支持所有类型数据的海量存储,具有强大的处理能力,理论上可以处理几乎无限数量的并发任务和作业。在Criteo,该平台每天处理的工作多达85,000项。

业务挑战

随着在线零售业的不断普及,Criteo解决方案的需求量大幅增长。处理数据的也不断增加。2015年1月,Criteo开始考虑构建一个新的Hadoop集群。 Criteo基础设施业务工程总监Matthieu Blumberg解释说:

"我们通过大数据发现,当我们拥有的数据越多时,想要的也就越多,需要的也就越多。对我们来说,这意味着我们现有的Hadoop集群,相对于现有的需求来说,已经太小了,所以我们决定建立一个新的。这使得我们有机会挑战整个基础架构堆栈领域,并了解其他硬件供应商。"

解决方案

Criteo将请求提案(RFP)发送给六家公司,其中包括了华为和Criteo目前的供应商。根据这些公司的回复情况,Criteo选择了三个候选解决方案进入名单。华为就是在这个时候开始引起Criteo注意的。Matthieu Blumberg继续说道。

"华为对RFP的回应令我们印象深刻。华为显然事先做了足够的功课,他们已经深入地解了我们用Hadoop所做的工作。他们给出的解决方案紧密贴合我们的业务,而且还针对服务器的电源提供了替代方案,这清楚地表明他们完全了解Hadoop集群是如何运行的。"

华为提供的解决方案基于新一代2U双插槽机架式服务器FusionServer开发完成。该解决方案提供灵活的资源扩展能力以及强大的计算性能,是互联网,大数据,云计算和关键企业应用的理想选择。

在评估过程中,Criteo从三家供应商中分别购买了十台服务器,并在每组中建立了一个小型Hadoop集群,进行性能对比。这个标杆活动评估了设备性能,Linux功能,电源使用和驱动程序支持。最后华为得分超过其他供应商,因此Criteo选择了华为。Matthieu Blumberg补充说:

"FusionServer超过了我们设定的所有标准。但是真正令我们印象深刻的是华为愿意帮助我们,愿意回答我们的问题。例如,我们想要深入检查系统的硬盘,其他供应商不准备让我们这么干,但是华为给我们提供了支持。短短几天之内,华为就向我们提供了检测所需要的工具。"

客户收益

与其他厂商产品相比较,FusionServer提供了最高的硬盘驱动器密度,每台服务器支持16块硬盘,比最接近的厂商多一块。功耗却比其他厂商低20%,优势明显。关键的是Criteo现在可以用合适的价格提供客户所需要的所有服务。

"经过几个月的使用和评估,我们决定将华为的FusionServer纳入我们全球采购目录,让华为成为我们的一个主要硬件供应商。所以自2016年初以来,我们在美国,欧洲和亚太地区持续采购华为服务器。"Matthieu Blumberg说。

展望未来,Criteo认为,现代化数据中心运行需要许多设备的支持,而华为已经被Criteo视作一个潜在主要供应商。Criteo已经购买了更多的网络设备,Matthieu Blumberg总结说:

"华为提供构建强大数据中心所需的全系列产品。我们可以从一个供应商处购买到模块化集装箱,服务器和网络交换机,这一点对我们来说非常有吸引力。"


原文发布时间为:2017年8月8日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
397 79
|
6月前
|
分布式计算 Hadoop Java
CentOS中构建高可用Hadoop 3集群
这个过程像是在一个未知的森林中探索。但当你抵达终点,看到那个熟悉的Hadoop管理界面时,所有的艰辛都会化为乌有。仔细观察,尽全力,这就是构建高可用Hadoop 3集群的挑战之旅。
256 21
|
11月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
549 4
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
540 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
450 1
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
434 1
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
532 0
|
1月前
|
弹性计算 运维 安全
阿里云轻量应用服务器与云服务器ECS啥区别?新手帮助教程
阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景,操作简单、成本低;ECS适用于企业级高负载业务,功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著,用户应根据实际需求选择。
218 10
|
1月前
|
运维 安全 Ubuntu
阿里云渠道商:服务器操作系统怎么选?
阿里云提供丰富操作系统镜像,涵盖Windows与主流Linux发行版。选型需综合技术兼容性、运维成本、安全稳定等因素。推荐Alibaba Cloud Linux、Ubuntu等用于Web与容器场景,Windows Server支撑.NET应用。建议优先选用LTS版本并进行测试验证,通过标准化镜像管理提升部署效率与一致性。
|
1月前
|
弹性计算 ice
阿里云4核8g服务器多少钱一年?1个月和1小时价格,省钱购买方法分享
阿里云4核8G服务器价格因实例类型而异,经济型e实例约159元/月,计算型c9i约371元/月,按小时计费最低0.45元。实际购买享折扣,1年最高可省至1578元,附主流ECS实例及CPU型号参考。
342 8

热门文章

最新文章