数据中心互联的前世、今生与未来

2016-12-28

庞俊英
今天我的演讲主要分三部分。由我来讲软件定义广域网,我的两个合作伙伴会给大家带来两个Use case,会讲软件定义国际化网络和软件定义数据中心互联。

这个会应该是有多少届我就来了多少届,昨天晚上我想了想,它到底从什么时候开始的?我就找来了这张照片,这是2013年,Dan (ONF主席)第一次到中国来拍的照片,回想了一下,这应该是一个历史的时刻。大约在2012年的时候,国内还没有一个像这样很正式的行业的会议去来讨论SDN,那时候,我们这一堆比较愤青的网工,在陈怀临大师的带领下互相喷,SDN是个啥,吵了至少一年。在2013年的时候DAN的到来,将美国的一些想法带进来,赵院长(赵慧玲)他们就组织了这样的一个行业的会议,大家开始了比较正式的讨论。

2013年的时候,我们在讲什么,讲openflow1.0是什么,我们这些网工也被争来争去OF有各种各样的问题,争论软件定义是什么,不过我们都明白,网络开放的时代来了。那时候我被Dan抓过来讲一点东西,我跟大家分享一的是阿里定制交换机。大家也很质疑为什么定制交换机,你们几个人绝不可能做成CISCO、华为的事情。到2014年的时候又开始讲,其实还是这张照片和这些人。 那次我记得比较深的是,我没有讲东西,在Roundtable时我被提了个问题,你认为NFV和SDN,谁赢?SDN和NFV是什么关系,那年大家开始有了NFV, 开始吵NFV是什么,NFV跟SDN是什么?2014年我讲的和写的所有关于SDN的内容,都在讲运维自动化。我在阿里的时候遇到的问题:大规模带来的运维问题,包括自动化、如何消灭CTO(Chief Troubling officer),在传统网络下运维思路和交付工具解决不了这些数据中心网络问题。2015年就比较有意思了,大家该想清楚的人都想清楚了,那个时候大家在讲什么呢?在讲产业价值怎么赚钱。所以这一年我感觉去年是比较落地的一年,有点接地气,忽悠的厂家该走的走了,该进来的都进来了。这一年我感觉比较有意思的是,华为想明白了,它借着SDN这个大旗,让封闭的网络,变得更封闭了。去年的时候我带来了一点好东西,同时也深刻感觉到这一年SDN的巨大变化,去年的时候我仍然在阿里工作,做了一个真正不会再有人质疑的SDN项目,就是Openflow+Vxlan在超大规模数据中心网络的应用。那时候刚上线,到现在已经跑了差不多一年多了,在这一年里面,看到了很多SDN-DCN网络的落地,并也有大规模网络环境下的部署。

今天会议Session我完整的听了,从早上平安的架构师到下午网银架构师都多次提到DCI网络的场景,昨天赵院长就在讲,她将SDN做了一个区格划分,她提到了一句话,SDN DCN已经有了规模的部署,SDN WAN还没有见到。如同大家第一天去讲SDN的时候就讲这个词是一样的?顶层WAN为什么没有大规模的应用?我想我明年能回答这个问题,那么今年我回答什么问题呢?SD-DCI。在讲所有东西的时候,我都喜欢专业TERM讲清楚。这是今天年我在美国开ONS会议的时候,有演讲讲“From cluster to Fabric”,大家都比较喜欢用Fabric这个词,到底什么叫Fabric?当然也是我个人理解,不代表政治正确。我认为左边这个不叫Fabric,只能叫cluster,右边这个叫Fabric,这是数据中心网络非常非常典型的一个特征。第一,如果你的网络没有ECMP,你就不是Fabric,如果没有规模那也不能做DC-Fabric,网络拓朴看过去可以叠起来再打开的网络,左右叠,上下叠这样的一个拓扑图的话,不叫Fabric,还有如果是SDN-DCN Fabric, 那么如果不能Underlay和Overlay统一管理和配置不能叫Fabric。讲SDN-DCN Fabric的原因是要说明我下一张ppt,在DCN这张网络里面,如果说,先有一个SDN-DCN cluster,将cluster扩展一下,就变成了DCN Fabric,答案是No。这是这张照片如指,从Cluster到Fabric是从人力车到法拉利的过程。我们再来看DCI的Fabric意味着什么?大家看一下这张图,这是AWS的Region的图,不要认为DCI的网络是一张简单的网络,它绝对不简单,只是看上去很简单,因为他会被两层东西盖起来,第一张是光网络。千万不要有厂家过来说DCI很简单,点对点连接起来就行了,不是这样子的。DCI的Fabric是很复杂的,点不多,但是流量的管理调度是很复杂的。在这里面我们要分清楚,在广域网里面,管道和流量是两件事情。我们讲调度是指什么,如何把流量放到网络里面来,流量矩阵和链路拓朴的OD是一个技术活,跟数据中心DCN完全不一样,DCN只要做左右,上下的对称,流量自己算好,收敛比1:4或1:3,流量随便跑没关系,你不需要管流量和链路的对应关系,只要能够在网络丢包的时候,迅速地知道包在哪里丢掉的即可,需要知道如何迅速隔离故障,需要如何大规模无人交付。但是在广域网里面绝对不是这个概念,你必须知道如何把流量放到管道的里面去,放进去后还要保证在某一个单点故障、双点故障和三点故障的时候业务不受影响,或者是不可避免地要丢包造成业务有损,该丢谁。所以,如果没有做广域网规划十年及大网运维经验的人,是绝对做不了这件事情的。

还有一点,虽然我们看,亚马逊的AZ那张图画成那样子,我可以明确的告诉大家,DCI的这张网,只要它扩容长起来后,一定会变成最右边这张网,大家都知道它是哪张网,只要广域网一长起来一定会长成一张蜂窝网。

这还是要讲一个概念,我们先分析一下流量的流向问题,流量一定会分为东西流量和南北流量。南北流量,就是指DC到运营商的Internet这个方向的流量。当然了在中国尤其的显著,DC到DC的流量,也大部分经过Internet,再来看下东西流量,我们知道云计算带来了一个非常非常大的变化和挑战是什么?服务器其实变多了,我们原来以为云计算来了,不用买服务器了,是不是服务器变少了?买来买去发现,最终服务器还是越来越多。服务器必须放在IDC里面,那就说,我是不是有一个巨无霸可以装20万台服务器或装30万台服务器的IDC? 这是绝对做不到的事情,无论可靠性还是安全性都是极大的约束,所以哪怕风火水电考虑清楚,也不可能把所有的服务器装起来在一个建筑物时。那就一定存在DC到DC有流量,因为Server到Server之间必须有交互。

我今天只讲东西流量,我们看数据中心互联的前世,在我们热热闹闹的讨论数据中心DCN网络的时候,DC到DC之间的需求就出来了,怎么办呢?通过Internet A连到Internet B,这是一个很实在的问题,这是前世,DC到DC之间的互联。它有什么特点呢?堵,这不用想一定是堵的,便宜吗,只能堵。然后有一个新的方式出来了,即数据中心互联的今生,应该是差不多两三年前,网上其实有篇文章说腾讯要建一张全国的骨干传输网,说的很多,其实他也没建。但是其实在BAT三家,都在建DC到DC之间东西流量网络。除BAT之外的很多的OTT都存在一个东西流量互通的问题,所以大家就会有两个选择,一个是自己建;一个是去采购。采购会向运营商采购,运营商也分很多种,无论分多少种无外乎两类一类是出租裸光纤,另一类是卖传输电路。所以就是原来的流量是从上面走,现在的流量从下边走。那它的特点是什么呢?等和贵。就是你去运营商这边申请一个电路,我的经验是,没3到6个月绝对办不成这事儿的。大促的时候,申请完专线以后,大促结束以后你能退吗?一年三年的合同摆在那儿,肯定退不了。你要先等,等6个月开通,一定是贵的,因为端口已经在那儿了,你独占的嘛,所以这是现在很普遍遇到的一个问题,专线申请了一时半会退不掉还要有保底流量。

运营商也很苦恼这件事情,因为它从一个裸纤出租变成一个管道提供商了。运营商已经变聪明了,包括一些有光纤资源的提供商也很聪明,他们知道光纤资源是资源,只要卖掉了就没有了,那就相当于杀鸡取卵,总结一下出租光纤的特点:一是资源有限,第二资源的利用率低,第三回报率低。这个时候就会有人说,反正华为的东西便宜,在全国建一张OTN的网。光纤的利用率是提高了,运营商不过从裸纤出租变成管道提供商,本来土地出售变成70年产权的这样一个提供商,还是有问题。这张网越来越大,运维的效率越来越低,你要求的人越来越高,你要求什么样的能力的人呢?

我们看一下AWS在2014年放出来的文档,架构师讲了一张片子,我把这张图截下来了,非常有意思的事儿你可以看到,整个网络,占总成本的8%。这说明,AWS的成本组成里面,网络已经做的非常好了。8%这个数是非常好的一个数了,但是片子里还在说,服务器在降价,存储在降价,网络降不了价了。意味着什么呢?意味着,降不了价了的原因是已经是底裤价了。但是AWS还是觉得8%很不爽,怎么办?这里提了非常有意思的两点,第一点,定制,定制交换机。第二件事儿, Private long haul links,自建一张private长传的网络,当然一定有光纤了,光纤上自建了一张网,为什么要非建long haul?说明这个地方是他最痛的地方,我们就想如果他痛,那他是不是我们今天能够切入的一个地方?那他一定是一个普适性的很痛的东西。

所以从这张图里面我们解读了两个信息,一个信息是ASW要定制,因此要自己做协议栈。第二要建一张private long haul 网络。从这个解读里面呢,我自以为是的做了几个总结,也是我对这张图的心得:如果想便宜,你为什么不用交换机呢?DCI之间,为什么不用交换机呢?所以我相信,我也听到消息,AWS在这样做。那如果定制交换机,第二个问题就来了,所以他有些很多定制的东西在里面,那么AWS一定有团队去运维这张便宜网,这个网络就跟传统的DCI长的不一样了,它一定是一张SDN的网,因为Switch要做便宜里面一定不会做的很复杂,那些复杂的功能,一定放在controller上面去完成。然后它的运维一定要放在controller上面去做,第二个点就是,SDN是AWS唯一的途径。那还有就是,这个是我自己解读的, SD-DCI最有价值的地方在哪里?运营商,并且这个事情如果在中国发生改变,有动力去做它的人是谁,一定是运营商,不是BAT,BAT其实没动力做这个事情,对比8%大很多的事情很多可以做来完成漂亮的KPI,可以做很多事情让整个TCO快速的降下来,最简单的做法倒腾BGP就可以省很多很多钱。第三资源,BAT并无太大动力提升DCI之间把网络利用率提高,光纤是资源性储备。第四,光网络的开放 IP over Black Link是唯一选择。

前边讲了一下SD-DCI为什么要做这么?价值是什么?大家可能会说Kitty在干吗呢?我先说一下我在干吗,我今天是大河云联公司的CEO,我在创业。大河云联是SD-WAN解决方案及服务提供商,实践,赋能,价值,是我们对未来网络的使命。我们整体解决方案包括这样几个部分,第一在underlay,我们要做物理网络的抽象,目前在做,没有完全做完,我们可以共同努力努力改变物理网络的实质性的封闭,今年在美国有件很大的事情,微软贡献了SONiC,将物理资源抽象这件事情,也许明年就能发生。

我们做第三件事情,IPOC,IP网和光网络的统一资源管控,这是三层我们要做的事情,然后我们一步步在做,我们给客户提供的价值有哪些呢?运维的Devops的能力,和我们连接on-demand的便利性,还有优化on-DT的价值。
下面有请我们的合作伙伴Joe来分享他们的SD-WAN的案例和他们的价值,谢谢大家!

Joe Zhu

尊敬的嘉宾大家好,非常荣幸跟大家分享一下我们的一些实践,我们是初学者,抱着跟大家学习的心态来跟大家交流。我是Joe,我们公司是一个新创的企业,是2015年成立的公司,注重软件第一的国际运营。我们所做的就是软件定义的全球应用下一代运营商,完美的连接云和企业。过去并没有不完美的连接,PC时代信息是静态的,我们也是在固定的场所,是单向的,我们可以看到,一个树状图,但是在移动互联网的时代,我们可以注意到,所有的信息是碎片化的,快速,二次传播,突发的,人已经成为信息的一部分,成为这个网络的支点。我们在这方面的实践,我们跟大河一起建立了全球的SDN的网络。这个可以看到,我们第一期的网络,已经开始运营。在中美之间,形成了一个环,然后提供服务。这种应用的场景,实际上刚才说到,移动互联网的时候,他的特性就是快速的开通,中美之间我们以前可能跟运营商买个专线,45天的时间,12个月的合约,非常狗血的去开通这个业务,通过我们现在的网络,很快的可以开通云跟云之间的连接,我们目前的实施,在美国,我们跟AWS,跟在国内的阿里云,我们都进行了API的打通,所以很快的5分钟之内就可以开通一个虚拟的电路。

第二个是弹性,以前的话你买一个10M,你只能用10M,买一个百M就可以用百M,现在不是这样,在新的时代,固定的方式完全没有办法满足业务的需求,我们可以在我们的网络上弹性的调动资源。第三个是软件驱动,现在的互联网企业他们都需要用云这一类的服务,通过软件调动资源,我们把掌握全世界网络的能力交给我们的工程师。在商业上,就是按需付费,你不再需要有一个保底,你不再需要有一个固定的,为你的业务,背不必要的成本,而是说根据你的需求来支付这个费用。

当然很重要的一点就是开放,一个开放的网络。我们知道大家,都知道现在最热门的就是直播,刚才我还想在这个会场直播一下,当然如果在传统网络上,或者公网上你去做的话,特别是跨国的分享,你的服务器可能在国内,但是国外要看一个教育的内容也好,要看一个美女也好,你会发现,他是有时延的,你在点一个“亲”的时候可能这个礼物就送不出去了。但是有了SDN,可以非常清晰的推到全球的用户面前。

另外一个场景,我不知道在座的有没有玩游戏,我一直号称我也是80后,在我们页游时代的时候,你玩游戏要选服务器,跟人家拼命的去砍。但是手游我们知道是一个非常热门的游戏,他不需要选任何的服务器就可以跟全球任何一个玩家很偶然的跟他们去拼杀,手游的成功也是因为他给全球的用户提供了一个完美的感受,在这种场景下,SDN能够起到一个很好的作用,因为我们可以把他的连接,不管你的服务器是在中国的或者国外的,我们很快的把全球的用户连接到最近的服务器上,通过SDN送到相应的服务中心去,从而得到一个完美的体验。我的uer case讲的非常的简短,如果有问题,欢迎大家会后邮件给我,或者给我拍砖,谢谢大家!

任志远

大家好,我是互联港湾的CEO任志远,我大概介绍一下使用的感受。刚才其实他们都讲到越来越多的DC和DC之间的互联产生流量,所以我们在这方面也有一些部署以及应用,最关键的对于我们来讲,我们是服务商,可靠性和成本是否降低是客户最关心的,刚才其实都讲到了传统的模式,走VPN,走互联网或者专线,他的成本,灵活性,可靠性等等的一个比较。这个是我们在国内的一个案例的一个分析,这个是我们在北上广大概有10几个数据中心,这样客户的一个流量周期,他在业务高峰期的时候实际上是一个比较高的流量,他可以通过SDN的方式,在业务需要的时候动态调整他所需要的带宽。SDN使用的好处就是说操作简单,然后对用户来讲成本低,灵活,包括质量,比如说流量的无缝的切换,不丢包,不会因为链路的切换影响到业务。比如说我们现在的电商业务,游戏业务其实都是属于周期性业务,他的传统的购买方式是说我买包月的流量或者带宽成本比较高。在SDN网络里,可以弹性的使用,轻易能够调整带宽。

第三部分就是说对网络的依赖性强,业务连续性无法保障。通过DCI+SDN的方式,可以做到一方面是弹性计费,成本低,另一方面DCI是一张单独的网络,这样网络的保障性更好一些,第三部分带宽的灵活性可以调整,这个是我们在,我们现在的北京到广州之间的一个大概的一个业务情况。客户可以在DC或者说企业的私有云,到我们的公有云,到我们的DC之间,通过DCI的这种方式来做互联,也可以在本地通过VPN,通过互联网介入本地的网关,进行跨城域或者跨数据中心的互联,操作方式比较简单,都是在页面上来进行操作。

这个是一个简短的视频,是我们录的一个简短的视频,是做SDN DCI的带宽的调整。我来播放一下,这个是在每一条链路上都可以显示每条链路的带宽的使用情况。那么在中间的三个屏幕上是三台SDN的交换机,在末端的一些点,实际上是用户的接入的端口。在这个视频里讲解了一个从我们的两个DC之间,两台服务器去做大流量的测试,同时我们去在SDN的平台上做一个带宽的调整,当我们带宽调整确认之后,我们的带宽及时的发生了变化。可以看到我们从500M调到1个G的时候,流量瞬间发生了变化,这样对用户来讲非常方便,同时我们购买的时长可以按照小时来计算,这样的话用户可以在高峰期的时候,很多业务的晚高峰,我们在晚高峰买了6点到11点这个时长,可能在11点之后我把带宽调低。

其实我们的愿景是希望我们通过SDN的方式,来改变我们自身的网络结构,使得网络更加智能,创造更多的创新,让用户使用起来更简单。谢谢大家!

(转自SDNLab,http://www.sdnlab.com/17024.html)

扫描二维码分享到微信