吕屹:当WAN等到SDN——网络会怎样?

2016-12-28


大家好,我是大河云联的吕屹,大河云联是去年创办的公司,专注于广域网的SDN,一帮伙伴看到云时代对网络迫切的需求,想一起努力使网络变得更好。

20多年的工程师生涯里,曾经负责过阿里的国内骨干和海外骨干网规划,负责过很多年的中国电信163和CN2的规划,今天的主题是网络变革,所以想结合广域骨干网的经验讲一讲专注于广域网的思考,和大家一起探讨广域网的深层痛点是什么,SDN加进来的时候,SDN还能解一些什么。

做了很多年网络,网络的本质是连接,经常都会觉得连接很美。看着从小的神经元连接一直到大自然最大的宇宙丝状结构,看着人工制造的最大网络Web,会去想连接的规则是什么,连接有什么相同和不同?如果基因是大自然的智能软件的话,人造网络能不能有自己的智能软件。

在电信广研的日子里做过PSTN、ISDN、软交换、IP等等,会发现在广域网的设计里,本质是相同的。广域网被重构的机会非常少,广域网在不断的生长,怎么生长呢?每次都会从网络的现状出发,去构建一个短期、中期和长期的业务矩阵,用这些去迭代演算,迭代的过程当中,要考虑拓扑,考虑成本、考虑业务质量,在这个拓扑里包含各个技术不同的实现、设备的限制、政策的限制,各种各样的因素在里面。

这样计算后输出的还不是最优解,还会不断用生命周期推演迭代,找在未来发展中遇到什么样不可见的变化因素,是不是可接受,如果遇到这些变化因素会往哪走。这是一个人工推演的过程,所以,广域网其实是人设计的,长出来的一个网络。

从这个角度来说,广域网的发展更像是进化,有必然有偶然。大家都会说中国跟美国的网络不同,美国过来的都会对中国的Internet上没有广泛部署MPLS表示不可理解。在很多年前,我们在电信讨论时分析过这个事情,中国的网络和美国网络最早的不同在区域概念和距离就近原则的差异,比如说贵州到四川,有一个地域聚集的概念在里面的,之间的流量比例就会比其他同规模的大。在美国没有这个影响,所以在美国初期,网络构建的时候,是用距离做的metric设计,在中国有这样一个流量流向关系,最初用了层次化metric设计。很难说哪种好,哪种不好,但演进有不同,在层次化metric结构下,往后的演进是增加核心、增加互联;在传输metric设计下,因为传输的结构是一个格状结构,当中有很多容灾备份考虑,断了以后怎么迂回,需要面对很多需要从流量工程上解决的问题。所以在美国,这是一个必需的,在中国会变成重要不紧急的现象。往后走的时候,也曾经讨论过层次化metric是不是改,但会发现规模太大,在工程上不可操作,没法预计改的过程中需要准备多少过渡资源。所以中美网络在两个分支上不断地长,目的都是一样的,都是要去做灵活,去做低成本。不光是中美网络差异,包括电信和联通,在考虑IP层电路需不需要传输做保护的时候两个决策是不同的,要造成了后续网络的差异。

现在看来的大差异来源于过往的小选择,无所谓好,也无所谓不好,如同我们会看到在生态体系里一类物种的存在是必然的,但单个物种有独特性,比如非洲的羚羊和澳洲的袋鼠。

说完骨干网是怎么演进的,再说一下现在WAN+SDN已经在提供的。在网络运营方面有流量调度,这个是最早被大家熟知的是Google;可视、配置的自动化、Devops,对网络运营者来说更高效快捷,对网络使用者来说更直观。在用户业务的提供上,大家可以看到现在有虚拟专线,虚拟专线来解决现在专线的一个慢、差、贵的问题,提供高质量、低成本的随选专线连通。大家看到,在业务提供上会有各种各样的云连接也起来了,连AWS、连阿里,把公有私有云互联起来,这些都是目前大家已经在提供的。

这里来看现在很热的SD-WAN,我把他分为三种:一种是黑盒的Overlay,通过探测跳转方式获得更好的质量,over在Internet上,从一个网工角度出发,认为这是一个过渡方案,因为这是认为底层网络永远很Low,Over Internet的方案在利用英特网接入上是有快速提供的优势。第二种是白(灰)盒的Overlay,在自由的网络资源上面做Overlay,这通常是一个运营商发展的中间状态,因为罗马不是一天建成的,网络是演变的,所以有一些既有的网络设施是在的,怎么在上面更好的开展业务。这细分两种,一种是Overlay专线的,另外一种是路由的。为什么还叫它灰盒呢?在无故障的情况下看它是白盒,但是广域网有各种各样的影响,当出现故障影响的时候,它是灰盒,广域网中有等价路径,有各种故障叠加的存在,不能实时判断在这个状态下资源到底会是什么样,你可以要求底层的Overlay一定为我提供什么样的业务,但是这种业务质量是靠底层的网络再去做路由调度实现的,所以是一个灰盒的Overlay方案,这可能是个持续一段时间的过渡状态。最后一种就是我能不能直接在路由加传输层面做。这是看到的SD-WAN三种不同的实现,从网工角度看,会看到Overlay是一个中间态,是个过渡过程。

看了前面提供的业务,WAN+SDN还可以提供什么?经常想WAN的深层问题是什么,在这里说两点思考。第一,WAN的深层痛是快与慢的上下适配,在做运营商规划的时候,传输的兄弟会说,五年不要求你了,你能不能两年的需求稳定一点?在阿里的时候,业务的兄弟们会说,一个月不要求你了,你能不能三个月提供放业务?这里面有一个业务对网络的需求要快和网络自身提供能力周期适配的问题。大家可以看到上面是一个无尺度网络,在看web应用连接的时候,强节点非常强,弱节点很弱,符合二八规则。而底层的光缆网上必然是这样一个结构,天生受地理条件限制和距离成本限制,非自组织行为,是人为设计的,它的增长天生是慢的。

怎么把快速变化的应用放在资源提供一定有限的网络上去,这是WAN深层的痛,每年做规划和设计的时候,会觉非常非常难去解的一个问题。为什么产生调度?调度其实是说资源跟需求不匹配。

WAN的另外一个深层痛是简与繁的架构演进,在广域网里,每个节点都是牵一发而动全身的,每个节点一动,上下左右全得动,怎么去避免牵一发而动全身,这是一个问题。广域网是有一个初始态到目标态的过程,怎么保证在迁移过程中不影响到别人。怎么判断后续的影响变化,一个节点加进去以后,是会有牵连的。怎么去控制成本,有句话说脱离成本谈架构是耍流氓。从网络单节点来看,在局域网组网扩展是两台变四台,四台变八台,可以看到DCN结构非常规整非常漂亮,在广域网能这么做吗?做不了,广域网的每条链路是有代价的,在广域网里通常怎么做呢?通常的做法是要不分平面,要不分开节点。在以往的传统网络里基本到分平面就可以解决问题,后续被新技术替代了,在IP网络里,你看到IP生命力非常强,有这么多年,不断指数增长,后来怎么做呢?两个节点增四个,拓扑还容易想,大家想一想,当四个再增加的时候,会怎么增?以前比如说大家讨论方案的时候,会提出合并新增的,会提出重建平面,但从来没有人提出过我直接加两台吧,大家都知道,如果直接加不去考虑拓扑的话,这个事没法玩。大家可以想像一下右上角的拓扑怎么连。这时候是去用一个简化的架构去做还是用繁琐的结构做,所有的工具都是人脑设计的,人脑想不清楚工具不会去想。这时是需要有一个智能软件能长出来,告诉你要预警什么、提前准备什么,这时候网络的设计和连接才会更快。

这张是十年前的,十年前在讨论路由矩阵引入的时候,一个非常重要的原因是多台扩展的拓扑复杂度运维复杂度扛不住,大家看到在集群路由器上线的后面十年里,这个是指数轴的,集群的最大容量指数式不断地上涨,但是这个上涨的同时,设备的门槛越来越高。SDN是否可以带来一些改变?scale up 对比 scale out是否有条件去重新考虑,软件能不能支持?

结合前面那两个痛点,对WAN架构,我们会觉得SDN不止带来流量角度工具,还可以提供网络结构扩展和演进的智能,能不能提前告诉你该怎么做,能不能根据业务发展提前判断怎么做。ԌEԌ߻构的连接是因为非规整的大型复杂结构人脑不知道应对了。

对WAN的业务来说,会认为SDN不只可以实现BOD的业务,还应该支持以应用目的为导向的高频快速拆建自组织。这是我非常喜欢的两本书,都叫连接,一个是看万物怎么连接和它的影响。一本叫连接组,连接组有一句话叫连接造就了我们。基因相同的两个双胞胎,后天脑神经连接组的拆建是不同的,连接造就了每个独特的人。当看这两本书的时候,会感觉底层fabric和大脑fabric很相似。有一天连接组将把大自然的设计重新复现出来,而网络是人工怎么设计一个东西让它更智能,有一天两个会不会走到一起?当网络具备拆建能力的时候是不是更智能?从电和水来说,要的是稳定提供,随用随有,网络连接在于高效地拆建重组优化,成就独特的智能应用。

大河的目标是无法不在的连接。技术是动力,进化阶段有四个阶段。第一阶段非常珍贵,受到严密保护,第二阶段是技术进步,会先有时尚,有部分人先用了,大家就会觉得用这个很潮。第三阶段是无处不在、无法不在、无人关注,有的时候并没有感觉,直到没有它的时候,才会很紧张很着急它为什么没有了。最后一个阶段,是个装饰品,艺术品,纸已经进入到这个阶段了,它已经不是说大家的一个必需品了,水电还没到这个状态。对网络来说,我们会认为为什么现在大家这么关心网络?是因为网络做得不好,你在用网络的时候,遇到各种各样的问题,遇到各种各样的痛点,你就会很在意,如果有一天你无阻用它的时候,会在意它吗?网络能不能做到这样?所以,我们的目标是我们想做无法不在的连接,但是缺了它你会有感,它在的时候你会无感。

大河还说愿景是Net work for U,现在需要网络的时候,需要人去跑各种各样的流程,人去配置,人去运维,这需要改变,网络应该为业务服务的。网络为谁服务?我们觉得第一阶段网络是为IT和网络管理者服务,在这个阶段提供工具、portal,快速开通。第二个阶段,网络是为应用软件的开发者服务,这时候它应该被嵌入到应用里面去,为什么不能应用需要的时候才申请网络,不需要我就释放了?为什么不能创建这种快速连接?我们现在一天开通个业务就认为是快了,但是以后应用的时候,是不是会每个应用一天调用几十次网络?在第三阶段,网络的接口已经内化在机器里了,人都不太关心网络是不是有连接了。

看WAN+SDN,我们能不能用SDN把WAN融合成一个资源池,弥补应用与底层网络的本质的天生的差异,使下面的承载网络构建得更快一些,使上面的应用网络能有自己的组织,能快速地形成自己的小宇宙。

以上是今天分享的内容,也是从事广域网20年的一个思考,这里面有很多工作要做,希望大家一起去迎接挑战,共同实现无法不在的连接。


(转自SDNLab, http://www.sdnlab.com/18190.html)


扫描二维码分享到微信