云杉网络亓亚烜:用SDN打造安全可控的云数据中心网络-阿里云开发者社区

开发者社区> 安全> 正文

云杉网络亓亚烜:用SDN打造安全可控的云数据中心网络

简介:

2016年6月2日,“2016全球SDNFV技术大会”进入了第二天。作为连续举办三届的SDN/NFV技术与产业盛会,本届大会着眼于SDN/NFV的实践应用与部署,从SDN/NFV在运营商网络、企业网、云数据中心、测试解决方案等多个场景的应用出发,深入解析产业部署现状及面临的挑战与发展趋势。

用SDN打造安全可控的云数据中心网络

云杉网络创始人兼CEO 亓亚烜

于2011年成立的云杉网络是一个非常年轻的公司,但是其紧跟SDN发展趋势,并与网络安全相结合,此次,云杉网络创始人兼CEO亓亚烜所带来的主题演讲就关乎于此,题为“用SDN打造安全可控的云数据中心网络”。实际上,云杉网络的创世团队就主要来自于清华大学和国际上著名的网络厂商,所以,可以说云杉网络是具有SDN的基因的,现在云杉网络的核心产品是云杉NSP网络服务平台,能为企业数据中心提供网络虚拟化、网络安全和网络监控等软件定义网络的服务。那么近期云杉网络又在SDN方面有那些新的实践呢,让我们一起来听一下亓亚烜的介绍。

以下为演讲实录:(以下内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载。) 

亓亚烜:大家好,我是最早在清华大学做openflow相关的研究,说说年头,从openflow第一个(英)开始到今年差不多10年了,从一开始接触openflow,到今天这个会场上这么多高质量的讨论,其实我是蛮感触的。因为最早的时候,比如说2006,2007年的时候我们做openflow,就是纯学术圈的做法,怎么能够在那么多元组的情况下能够把包快速的匹配,快速的扔出芯片,后来到了2009,2010年的时候,这时候美国已经开始有了SDN的初创公司,(英)他们把openflow做了商业化,也开发了(英),同年也出现了很多SDN的公司,我们作为一个从高校出来的创业团队,在2001年底成立了中国第一家SDN的软件公司。在这个过程中,可以看到,2011年,2012年的时候,其实那时候召开一次SDN大会,人数是这么多的,那时候为什么有这么多人呢?里边可能有一半是学生,是博士生。

后来在2012,2013,2014年这几年里边可能看到有各式各样的SDN大会在中国和美国召开,我在中国看到的情况人数一开始越来越多,但是后来越来越少,曾经有一次SDN的大会,我看会场可能坐了不到一半人,基本上是厂商,在这个过程中大家也都有一些疑问,一个产业能否成熟,他从最早的openflow引来这么多的质疑,到后来谷歌开始用了,但是没有用户,这是很大的问题。到了今天可以其实在座的诸位里边很多就是用户,一会我可以看到大家都会来分享自己使用SDN的经验。到了今天SDN才真正的开始落地,开始成熟地这是一个非常好的机遇。我也有幸见证并且参与了整个过去10年里边SDN的前前后后。

那么今天,我来讲讲云杉网络在SDN里面的一些小小的贡献。我们主要,因为我是来自清华大学网络安全实验室,我们另外的创始人,也都是做防火墙和网络安全出身的。我们最早把SDN的技术用在安全领域中,我们在2011年也发表过一系列的论文。openflow最早的论文也是要解决校园网的安全问题。通过网络的灵活调度,来解决(英)的问题等等。其实到了今天,10年过去了,这个网络本身的管道的调度和路径的调度,其实已经比较成熟了,已经有各种各样的协议,可以看到,这个后面的这个灰色的部分,包括Vswitch,这些东西都是当年讨论的热点,但是在今天其实这些东西都已经成熟了。(英)这边也有各个厂商提出了一系列的(英),我们都可以用了,其实现在最热火的是什么呢?其实听到数据的这块我很想听他分享一下,可是时间不够,我接着讲这块的创新的点,因为我们也在这里边找到了真正的价值所在,在2011年的时候,当时(英)这家公司,他们说到了一个词,就是说,(英),所以就网络虚拟化这一个(英),我们讨论了好多好多年,里边讨论了各种各样的协议。但是呢,到了今天,网络虚拟化,我看至少进的会上很少有人在谈了。我们今天会议上讨论的都是安全,都是应用,都是广域网的东西,在这里边我们云杉主要专注的是网络安全和监控这方面的东西,我们用到了openflow,用到了SDN,也用到了很多数据分析的东西,今天分享给大家。

到了2016年别的不用说了,因为用户越来越多了,所以这个时候是大家来开发SDN应用的时候,而不是讨论底下的基础怎么建设的问题了。SDN的应用场景,大的应用场景其实我看就是两个,这两个场景里边已经比较成熟,或者说有很多的厂商已经进来了。一个就是数据中心内部的,还有一个数据中心之间的DCI,或者是SDN1这边的东西,云杉主要是在DCN这边解决数据中心网络的安全可控的问题。那问题在哪儿?DCN里边,以前业务都是一个一个的,烟囱式的独立的业务,这个时候给每个业务安装上防火墙就好了。现在就可以保证业务之间的边界是明确的。可是发展到现在这个时候,你会发现DCN里面可能只有一个业务,里面还有很多很多多租户的东西。他需要多大的防火墙能防护住他?他对防火墙的要求还是像以前,还是要按需的提供整个DCN的边界的防护,这是一个问题。

cloud里面有多租户的问题,这些租户之间怎么去保护,是里面布满防火墙呢?这些防火墙是不是影响到cloud本身的运作,这些问题怎么去解决,这都是以前在传统的业务中没有出现的问题。第二个问题,就是同样是业务多元化了,数据中心多元化了之后,会发现这个网络的拓扑结构是至少这样,甚至会更复杂,怎么做监控?是说以前,刚才张总也提到(英)可以到处做(英),他会需要多少的分流器去做?当然现在也有很多的(英)方式,但是面临这样的一个架构,我们怎么去把它做的更好?怎么能够看清楚整个云里边的所有的流量的特性?所以现在不叫采样,现在叫全流量分析,怎么做到这一点?如果你不做到这一点,你就分不清里面租户的应用,你就无法解决运维的问题。云杉我们的产品相对简单纯粹,我们的产品是什么呢?是一个网络的服务的平台,这个平台就构建在标准的X86的服务器,以及现在很多厂商都可以提供的SDN的交换机上,只要你支持基本的openflow,我们都可以构建这个平台,这个平台本身他的结构是一个云化的结构,可以无限的拓展,这个平台里面的核心技术是什么呢?这是云占自己这么多年积累的deepFlow的东西,deepFlow是什么呢?就是不光有每一个流的统计信息,同时还有这个流的应用的信息,同时还有这个流的很多的动态信息,这些信息的采集和分析处理,我们是用底层的云计算来完成的,同时这里边有一系列的算法和硬件加速的东西在里边。有了这个东西之后,上层的安全和监控基本上就是,对着一堆流一堆数据做开发了,所以这是一个大数据的根基的东西,我们让用户能够控制全网的流量。

同时,能够把全网的流量的现在和历史全部记录下来。那么在这个之上再去开发SDN的(英)会变得非常的简单。具体的形态就是这样,这两个平台其实合在一起,我们最早的产品也是合在一起,但是实际上,在数据中心的部署过程中我们会发现合在一起,有很多的问题。尤其是当云变大了之后,合在一起会出现管理上的很多问题,因为云现在已经开始分化了,计算会有专门的资源池,然后数据库会有专门的资源池,网络也有专门的资源池,他就是提供专门的NFV的网络。在云杉提出的网络的服务平台NFV的架构中其实看到他的本身的架构就是一个云的架构,但是这个云向外提供的是安全和监控的服务,而不是虚拟机和存储的服务,这是网络专用的云,他可以无限可拓展,他可以按需提供服务,他的设备就是基于标准的SDN的交换机,以及标准的X86服务器。有了这个就可以构建一系列的应用,云杉已经构建了很多应用,帮助用户解决诊断的问题,解决统计分析的问题,同时我们还集成了第三方的应用,把他们的NFV放到里边我们可以用一个VNF,一个两个G的防火墙提供给用户。中间的(英)怎么做?那么当用户对防火墙的性能有需求的时候,他就可以按需的购买,而不需要买一大堆硬件的盒子买在那里,这只是一个例子,监控什么都是一样的,我们把所有的网络服务云化了。

这几个例子几乎跟数据相关,我们说数据很重要,它到底怎么解决问题?我想举的第一个例子,就是(英),就是给云里面的每一个业务,都能提供一个按需所要的防火墙,MPS等等这样的服务,但是仅仅提供这样的服务就OK了吗?数据本身的流量如何随着业务的变化而变化?这是关键问题,而不仅仅只是给他提供一个(英),我举一个真实的案例,在一个大型的(英)他是跑互联网视频的业务的,他有三百多业务系统,每一个业务系统的分支他并不知道,哪个业务系统那时候会怎么样,他一开始用三百个业务系统过一个大型的防火墙,但是当个别的业务系统的峰值很高的时候这个防火墙会承载不住,防火墙会间歇系统性的降低吞吐,会影响其他三百个业务,这时候这样的问题怎么解决,最后的解决方法把防火墙撤了,如果撤掉防火墙,这是不合规的,如果出了问题,这是数据中心的IT运维者会受到很大的挑战。

我们怎么解决的?我们把防火墙的能力放在一个数据中心里面,搭建了一个由数十台服务器以及几台交换机构成的一个东西,平时这些服务器也可以做别的用途,你可以跑云,可以做别的事儿,但是有别的大的事儿的时候,你可以按需向这个平台里面增加服务器,就可以有新的(英),向上呈现出来的是一个从2G到200G,甚至我们可以做到300多G,目前可以做到300多个的单一防火墙的吞吐能力,所以有了这个之后,这个(英)才变得可用,否则他只是一个纸面上的东西,他不能承受真实业务系统的压力。

第二个,我们可以做到对不管是南北流量和东西流量,我们都可以做到非常高性能的分析,这是怎么做到的呢?这里边其实是包分类的问题,是一个计算几何的问题,他通过在X86里面插入一段代码,以及用到(英)的机制,我们可以做到,比现有的net(英)的开源版本快一百倍的性能。可以做几百G的流量的信息采集,有了流量信息采集之后,就可以解决很多很多很有意思的问题。比如说我们曾经帮着用户解决这么一个问题,在一个云里边,他用大概五千多个虚拟机,这个虚拟机里边,经常因为某些虚拟机中木马,导致机器不正常,当他中木马的时候,他会发起DOS攻击,当他开始发作的时候,他的行为有可能影响到(英)。这时候,网管人员就非常疼痛,我已知我的5千个虚拟机里面有若干个木马,我怎么能把它抓出来,这个问题大家都可以想想怎么去回答这个问题,一个最直接的选择,我给每一个主机上装上防木马的软件不就好了吗?但是首先第一个问题,那些用户让不让你装,那是第一个问题,因为你是多租户的系统,那些应用不是你自己的。第二个那个软件得适配多少个操作系统,怎么维护?第三个,如果你的软件出问题,这算谁的事儿?你会影响到用户,你会占他的CPU资源,这个问题怎么解,还有一种解法,我给每一个虚拟机或者每一个业务,都装上一个IDS这样的东西,这又要消耗多少资源,5千个虚拟机。我们怎么做的?因为有这样的流量采集信息,而且他是(英)的采集,他可以把过去一年的整个流量的统计信息拉出来,拉出来之后,只要一个虚拟机中木马,他在过去一年里边肯定发作过,他就有他的行为印记在那里,即使他现在不发作,我只需要一个几行大数据分析的命令我就可以找出那个虚拟机是有问题的。这时候你的代价就小很多了,因为木马在发作的时候,有可能在一分钟之内,在某些端口发了几十个包,如果你采样,你可能只采一个包,那你不能认为它是木马,大数据的作用在这里,能让你做海底捞针的事儿。

有了数据之后我们的存储量是多少,我们现在标准化的产品是可以存2千一条的deepFlow的数据,我们跟客户交流,在他们的系统中和他们云的架构中,他们是几百个节点的服务,corver,他一年的平台是没有问题的。所以我可以讲讲有了这个数据,还能解决一个什么问题?解决一个非常好玩的问题。用户时不时会来投诉你,我硬盘上的数据不见了,这到底是你的问题,还是我的问题,这个问题怎么解决,你就需要把他投诉的时间点的所有的流量拿出来给他看,我们曾经解决过很多这样的问题,一个用户说,我的磁盘上的数据不见了,我们问他说你什么时候不见的,他说一个礼拜前,一个礼拜,监控他看不到这么久的数据的,我们告诉他在23点零几分的时候有一个美国的IP,3389访问了你持续了几分钟,如果有,那不是数据中心的问题,这个用户查了他自己的日志,确实是这样的,这样的话,用户会觉得你的服务特别的专业,但是这个专业的背后的代价是数据的采集和分析。

所以像NSP这样的产品,他是非常标准化的产品,他座落在你的云或者数据中心旁边的一组用软件跑在X86和SDN交换机上的平台,这个平台可以无限的可拓展,他的数据量分析能力非常强,而且他里面还有很多的NFA的功能可以帮助你。

我们的平台的合作,也是经过这么多年,也感谢在座很多的合作伙伴以及我们的客户,非常感谢大家,能支持云杉的发展,在这里面我们的硬件平台,我们跟最好的这些硬件厂商都已经建立了很好的合作关系,应用的合作伙伴更是非常丰富,有云的合作伙伴,也有安全的合作伙伴。在渠道合作伙伴这边我们也会跟渠道一起来推广,在各行各业里面深耕做网络的安全和网络的分析。

简单总结一下就是,在2011年,过去的5年里边,我们谈网络虚拟化,谈各种各样的虚拟的东西,谈各种各样的协议。现在我觉得应该停止这样的讨论了。或者说这样的讨论,没有太多实际价值,现在的价值是说怎么用SDN来解决问题,SDN的应用谁来写,谁能写好SDN的应用,会就有未来的机会。对网络的管理和运维如果变成对数据的管理和运维,他的参与的难度会变得很低,各行各业的专业人士都可以通过网络的数据解决问题。当参与的人变多的时候这个产业就真正的繁荣起来,真正有大的价值,而不仅仅只是几个高手天天华山论剑,这个并不能代表整个产品和行业的繁荣发展,谢谢大家!


原文发布时间为:2016年06月02日

本文作者:杨昀煦

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

版权声明:本文首发在云栖社区,遵循云栖社区版权声明:本文内容由互联网用户自发贡献,版权归用户作者所有,云栖社区不为本文内容承担相关法律责任。云栖社区已升级为阿里云开发者社区。如果您发现本文中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,阿里云开发者社区将协助删除涉嫌侵权内容。

分享:
+ 订阅

云安全开发者的大本营

其他文章