阿里、万国、XDC+ 数据中心建设经验分享-阿里云开发者社区

开发者社区> 知与谁同> 正文

阿里、万国、XDC+ 数据中心建设经验分享

简介:
+关注继续查看

2016年12月20-22日,第十一届中国IDC产业年度大典隆重召开,阿里巴巴、万国数据、XDC+(江苏恒云太)分别就数据中心建设实践经验进行分享,下面就一起来看看他们是如何造就高逼格数据中心的:

阿里、万国、XDC+ 数据中心建设经验分享

阿里巴巴

阿里、万国、XDC+ 数据中心建设经验分享

阿里巴巴集团技术保障IDC高级专家 刘水旺

如今,互联网数据中心的主要特点包括规模大、变化快、高带宽、高功率、高成本、高可靠性,那么根据这些特点又该如何来建设数据中心呢?

一、数据中心规模大:

近年来,随着互联网的快速发展,尤其是移动互联网的兴起,推动了互联网数据中心规模和数量都在增加,加之互联网集中度高,"二八"效应非常明显,更促进了数据中心规模大这一特点。那么大规模数据中心该如何选择、设计及运营呢?

数据中心选址:

单个点占用资源越来越多,选址越来越难选,符合条件的非常少;怎么办?现在国内,北京已经在关注能耗,数据中心PUE要求1.5以下才能批准。在国内其他城市,更多的是靠自律。我们认为数据中心选址应尽可能少的占用资源,这是非常重要,如果我们不减少资源的占用,对于以后可持续发展是非常不利的。

数据中心设计:

数据中心架构设计合理非常关键,方案设计精细化也很重要,任何不恰当的设计都会导致巨大代价。例如阿里张北数据中心,采用新风和冷冻水系统,在张北这个地方其实是比较合适的,因为当地水资源比较紧张。

数据中心运营:

数据中心规模大之后,这么大的增量和存量靠人肉肯定不行,自动化、大数据运营、人工智能等等都很必要。

二、数据中心变化快:

现在这个时代,互联网时代一个产品或业务的"存亡"和"爆发"都会在非常短的时间内发生,用传统的响应方式已经不能适应互联网的需要。

  • IDC快速新建,快速扩容,按需建设非常重要;
  • 做到单元化、标准化和个性化、按需定制化会并存;
  • 按照周期分解建设内容,实现建设速度、建设成本和匹配需求的最佳结合;
  • 对于规模应用,整机架是非常好的选择;

三、数据中心高可靠:

互联网已经涉及到民生,对于可靠性的要求不断提高,互联网数据中心的地位应当足够重视。比如支付宝"5.27"、AWS的雷击、微信的断网等等影响都非常巨大。从技术来看,主要有三方面要求:供电、制冷、网络。

  • 供电系统:分布式供电减少影响面;加强柴发配置,减少外部依赖;
  • 制冷系统:采用不间断制冷技术及高可靠性的自控系统;
  • 网络系统:网络包括内部和外部,内部双上联/多上联;外部连接多路由;

四、数据中心高功率:

看过很多数据中心,大规模的建设都是16A、20A,这种更多考虑可能是建设的时候,利润率更高一点,或者是针对中小用户。真正从用户端来看,从互联网大规模来看,性价比一定是非常低的,我们现在选择高功率密度的机器一定是更划算的。

五、数据中心高带宽:

在云计算和大数据的推动下,网络发展速度非常快,东西流量翻倍,南北流量持续增加,短时间实现了百兆,千兆,10G,25G的跨越;用户需求和流量推动网络架构不断演进,未来会怎么样?

国外互联网巨头纷纷开启自建传输和光缆,很可能成为未来趋势,他们已经建海底光缆了,像谷歌和亚马逊,包括澳洲、欧洲和亚洲之间的互联。

六、数据中心高成本:

狭义的数据中心,建设成本一般2~4万元/KW-IT,广义的数据中心全寿命周期成本是其10倍以上,那么该如何降低成本:

  • 最有效的方式是利用率提升(比如云计算、离线在线混部、 服务器负荷率、 机柜负荷率);
  • 硬件性能提升,降低数据中心PUE,技术优化降低冗余等等也是重要方法之一;
  • 只盯着PUE一个指标往往走向误区,比如单纯的提升温度或降低数据中心冗余,这种绝对是得不偿失的。

数据中心其实就是互联网,快速变化的互联网撞上了科技密集的IT业与传统的机电行业,我们做的很多东西不一定是对的。我们在不断地摸索,经常做很多决策,不一定让大家都能够理解得了,但是我们仍然会在不断的纠结中,找到平衡点。沿用阿里的话"梦想还是要有的".

万国数据

阿里、万国、XDC+ 数据中心建设经验分享

万国数据高级副总裁 陈怡琳

会上,万国数据高级副总裁陈怡琳重点解读了高性能数据中心。因为客户的需求,因为需求的增长,因为需求的差异性,因为政府的一些指导的原则,也因为竞争的环境,也就出现了谈到的高性能数据中心,谈到高性能数据中心该如何建设?

一、高性能数据中心有五个特点:

  • 高等级:高等级有一个特色,今天客户在每一个数据中心里寻找扩展,不仅在当地,还在一个城市里寻找2到3个点的扩展,除此以外在不同城市之间寻找扩展。这就形成了数据中心集群的要求。对于高等级的要求也是有一些规格认证的要求。比如说有ISO的要求、TRA的要求、UPtime的要求,都形成一系列的高等级的定义。
  • 高密度:目前为止8000瓦变成很常见的规模,未来10到12千瓦也是很常见的需求。这对数据中心的运营和能耗都带来了一定的改变,由此在进行定制化和模块化。
  • 高能效:阿里千岛湖的数据中心年平均的密度是1.3,也是为行业树立了标杆,我们也有很多的技术手段、运营手段来实现。对于数据中心在暖通方面就提出了挑战。更宏观的是数据中心的选址,包括对国家电力的政策都有很大的依赖性。
  • 模块化与定制化:今天运行的数据中心规格在变化,除了从单机柜到楼宇的交付不一样,有很多产品规格的要求,比如一路高压直流、微模块,对制冷和电力提出了一系列设计的要求。

二、数据中心全生命周期的覆盖和改革:

  • 数据中心选址:选址非常重要也非常复杂,50%的数据中心在一线城市,为什么?是因为这里有很多客户的应用,比如滴滴打车2秒钟就要给出反馈,你的反应必须要非常快。这就影响到客户使用的体验和网络的部署。今天中国电力的稳定性和人才的问题导致你不得不选择在一线城市。
  • 数据中心设计:更多的谈一谈可靠性和性价比的平衡。数据中心有一个造价的理念,我们的每一个造价师要尽量的把成本用足,但还要平衡可靠性的因素,平衡将来发展的因素,平衡将来技术革新的因素。
  • 数据中心建设:一个改造的数据中心5、6个月可以完成,从土建开始12个月左右。跑工地你会发现中国基建的环境差异性非常大,所以建设第一点谈的就是质量控制 ,这是跟整个行业的素质有关的。二是变更管理。造的过程中需求会不断的变化,设备已经买好了但是需求发生了变化,怎么平衡好。三是成本的管控。
  • 数据中心测试验收:涉及到设备的场验,现场的场验,涉及到设备安装以后单机的调试,也涉及到所有系统安装好以后联机的调试。这些环节可以帮助我们把控好质量的环节,确保数据中心投放的时候是一个安全有保障的数据中心。
  • 数据中心运维:运维平台涉及到内部的管理,涉及到给客户提供的服务。无论是从流程还是技术方面以及人员方面都在非常紧密的耦合,在不断的优化调整,形成了我们非常强的核心竞争力。

数据中心并不是冷冰冰的,最后是以服务的形式提供给客户和合作伙伴。

XDC+(江苏恒云太)

阿里、万国、XDC+ 数据中心建设经验分享

XDC+江苏恒云太信息科技有限公司副总经理 曹晓华

从建设的阶段去做一个高可靠的数据中心。数据中心的可靠性,从我们的理解来说分几块:物理可靠性;电力可靠性;暖通可靠性;控制可靠性。

一、物理可靠性:

  • 通过将数据中心的物流、人流进行分离,通过分离人与物进入数据中心路径,保证了整体的运营安全;
  • 在物理结构上,实施全路径物理隔离,从电缆到管道保证无交错点,并用混凝土墙进行隔离;
  • 在数据中心建设上做到了全方位防入侵,从交通流的组织上面做到全面的防入侵,在将整个楼的外部墙体结构加固为防爆墙;
  • 通过对外来人员进行全路径监控,并通过自主研发的分析系统进行解析,分析数据中心是否存在危险,在通过其与报警系统联动,将分析结果通知数据中心运营人员。

二、电力可靠性:

  • 市电接入,数据中心的电力主体为10KV母线,并为其设置了两个母联开关,将其分为红色跟蓝色,放置于不同的房间内,保证单独电力维护不会影响到整体数据中心的电力设施,保障了整体的安全可靠性。
  • 柴油发电机,在数据中心柴发方面,采用N+1或者N+2的形式,通过两段母线进行引入,保障数据中心电力的高可靠性;
  • UPS,在数据中心电力运维方面,整个数据中心采用统一的UPS,以保障任何一台UPS出现故障,都会有备件的UPS来支撑数据中心业务连续性,并为每组数据中心机房模块配备独立的2NUPS,以保障电力设施的可靠性;在整个系统架构来说,通过使用传统的2NUPS代替高压直流技术,并用两组独立的2N UPS代载冷通道。

三、暖通可靠性:

  • 受墙体结构和楼房内部建筑的影响,局部热点是数据中心建设的重要问题,为了保障数据中心暖气流通性,将数据中心空间设置为无柱结构,并将顶板降低一米,保障物流和人流通道气流顺畅平稳;
  • 在末端采用2N结构空调;
  • 在管路上设计为单侧环网模式;
  • 在数据中心制冷设计方面,采用四冷冻站结构,实现各模块数据中心之间冷冻站的共用,提高了制冷系统的运行效率;
  • 数据中心冷冻站管理方面采用DCS控制系统,冷机的控制跟冷泵的控制采用了独立控制系统,将四个冷冻站进行环状连接,单体的冷冻站可为任意末端供水,提高了数据中心制冷系统的运行效率;
  • 采用数据中心独特的补水系统,通过过滤使水质达到饮用级标准;
  • 在排水系统方面,为管道做全路径漏水检测,并将其记录在XDC控制系统,与报警系统互联,及时发现问题,为机房模块设置了多环路冗余排水系统。

四、控制可靠性:

  • 控制系统分为采集系统和高频率的采集,传统的采集系统将所有的数据上传至PLC,统一存储、查找与管理,高频率的采集是将重要数据着重采集,并将数据独立存储,数据不再存储在原来工业的数据库里,而是存在MYsql的数据系统里;
  • 在配电侧采用全冗余的控制器,并拥有国家认证的IC61850标准,二次泵上采用独立的冗余器,并为数据中心做了独立的分析系统,从整体的配电系统上的仪表、脱口到暖通设备的传感器,统一对数据中心进行了全系统的波形捕捉,所有仪表支持每波63次采集的频率,收集的数据统一存储近HadOOP里,加强了配电系统数据的安全性;
  • 决策系统基于在整个配电系统之上的,决策系统会基于多个数据中心的数据分析进行决策,将所有数据中心控制系统统一管路,实现了全远程的控制;
  • 其次将数据中心所有的系统做到了标准化,每个数据中心软件是恒定的,每当总控制系统进行软件升级的时候,对它控制逻辑进行升级的时候,会同步升级到每一个数据中心的控制系统,来保障整体系统的软件版本始终是统一的。

五、网络可靠性:

  1. 在每个数据中心都去架设波分设备,而且做到了80×100G波分的技术,以完成数据中心建设免费的互联;
  2. 另外通过一些高性能的路由设备,实现全网带宽超过1.5TB的能力。通过国内运营商,以及国际运营商,建立超过20个TB带宽,来保障整体的电路可靠性。

以上整理,部分演讲内容有删减!


本文作者:佚名

来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
SQL Server定时自动抓取耗时SQL并归档数据脚本分享
原文:SQL Server定时自动抓取耗时SQL并归档数据脚本分享 SQL Server定时自动抓取耗时SQL并归档数据脚本分享 第一步建库 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] GO 第二步创建sp_who3存储过程 -- http://sqlserverplanet.
982 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10018 0
境外银行数据治理——思路分享
前言:在数据治理领域的文章大多都是从业务角度进行切入,本文从纯技术角度切入,介绍了数据血缘关系的图分析思路、领域建模层面构建中间层的思路。以及纯粹从词法分析和语法分析的统计学层面维度。
77 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2958 0
GitHub分享新华字典数据集
GitHub分享新华字典数据集
14 0
经历多个数据科学岗位后,对于数据科学面试他分享了以下求职心得
作者拥有多份数据科学求职的经验,现在分享给各位小伙伴。
5575 0
千万级GPS数据接入案例分享
项目需要接入全省的GPS数据,分析接入时的方案演进。
79 0
+关注
10077
文章
2994
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载