##对跨学科研究的反思——从互联网拓扑研究的角度

一篇跨学科课程培训班2012的博客

(2012-08-02 17:05:26)

哈工大 网络与信息安全实验室 张宇

0. 引言

若在大街上问“什么是网络”,很多人可能会回答“互联网”(Internet)(尽管实际上所指的可能是万维网(www)),而若在近些年来的学术活动上问,答案可能会丰富得多:电网、公路网、文献引用网、朋友关系网、蛋白质网等。对这些‘网’的研究已经形成了一个热门的跨学科研究领域——网络科学(network science)。网络科学的跨学科性质体现在两个方面:一是研究对象包括上述来自不同学科的社会、工程、生物网络;二是研究方法包括数学中的图论、统计学、博弈论、物理学中的统计力学、计算机科学中的数据挖掘与可视化、社会学中的社交网络等。学术界期待这张由如此众多领域所编织成的‘网’会收获到一条条‘大鱼’,然而,近十年来互联网拓(Internet topology)研究历程表明,学术界在“如何结网”和“什么是鱼”两个问题上还有很长的路要走。

第一个问题涉及“如何结网”,具体表现为将领域A中的方法和成果‘想当然’的直接拿到领域B中来当做网,这样或者得到一张‘破网’,根本捉不到鱼,或者捞到了几根‘水草’。不幸的是,许多水草被有意或无意的当做鱼,这就引出了第二个问题,即“什么是鱼”。把草当做鱼的另一种表现是,将A中的水草直接拿到B中当成鱼,因为B中的人很少见过A中的水草。本人认为,造成这两点问题的根本原因是科研人员对学科间门槛估计过低,缺乏在相关领域中的系统训练,对学科间在研究目标、思维方式、评价标准上的差异认识不足。另一个潜在原因是,研究目的不是解决科学问题,而是为了跨学科而跨学科。以发展的眼光看,跨学科势在必行,但在跨出这一步之前,认清学科间差异可能比急于需找交叉点更为重要。

本文以互联网拓扑研究为切入点,对当前跨学科研究中存在的上述问题进行探讨,并尝试对这些现象给出一些解释。特别声明,鉴于本人研究方向为计算机网络,对其他领域的理解十分有限,包括本文在内的以往工作中免不了也会存在‘破网’和‘水草’,因而只求能够抛砖引玉,令大家能够在跨学科时,跨的谨慎些,目的也就达到了。

先啰嗦一点互联网拓扑研究背景。互联网拓扑是指互联网中传递数据的物理/经济实体之间连接关系,一般包括两个层次:路由器级(router-level),路由器为节点,物理链路为边;自治域级(Autonomous System, AS-level),在统一管理下的一组路由器构成一个自治域(对应一家网络服务提供商、一所大学、或一家商业公司),域际互联协议为边。自上世纪末,若干大规模网络拓扑测量项目的实施获得了大量网络拓扑数据,为互联网拓扑研究提供了可能。1999年,科研人员发现,路由器级和自治域级拓扑测量结果中的节点度(degree)分布都服从幂律(power law),是一个无尺度(scale-free)网络。通俗的说,在无尺度网络中,不仅存在大量低度节点,而且度较大的中枢(hub)节点的数量也多于预期(相对于指数衰减分布)。此后,互联网拓扑作为典型的无尺度网络实例出现在了大量的物理学复杂网络(complex network)文献中,同时采用复杂网络理论对互联网拓扑进行建模也出现在大量的计算机网络文献中。从发表文献数量上看,互联网拓扑研究可看做跨学科研究的成功案例,但奇怪的是,十余年来鲜有(本人认为还没有)被两个研究领域共同认可的工作。下面就晒一晒互联网拓扑研究中的那些‘网、水草和鱼’。

1. 互联网服从幂律吗?——节点度上的抽样偏差

当前两种主流网络拓扑测量技术——基于traceroute的与基于BGP的——可以发现从一个监测点(测量的发起点)到一个目标节点之间的一条(近似最短)路径。假设有一个监测点和多个目标,测量结果可以抽象为以监测点为根的一课(近似)树型子图。打个比方,设想监测点是我们的家,目标是学校、商场和公园,测量过程就是记录我们从家出发分别到上述目的地走过的那些路。很容易发现一个现象,一条路与家的距离越近,被经过的机会越大。问题就在这里!网络中每条边被发现的概率是不相同的,或者说测量存在抽样偏差。2003年,科研人员发现,对随机图(度分布具有固定尺度参数)进行上述抽样,结果也会得到一个无尺度网络【1】。换句话说,测量结果中节点度分布呈现幂律,可能是由抽样偏差造成的,并不能确定实际网络是无尺度的。此后有工作对偏差估计与消减展开了进一步研究,都肯定了一点:想当然地直接由测量数据得到的结论,多半是靠不住的。

故事还没结束。在计算机网络研究社区内,对节点度分布的描述逐渐变为一种更严谨的说法——“高可变的(highly-variable)”;但在复杂网络研究社区内,互联网拓扑作为无尺度网络代表的地位却丝毫没有动摇。难道是计算机科学家们更客观,而物理学家们故意拒绝接受现实吗?显然不是。真正的原因在于两者研究目标不同:在计算机网络社区中,对测量数据的质量更为看重,而其图论特征是否呈现某种特定规律与是否采用该数据之间没有必然联系;相反的,在复杂网络社区中,为了能够运用数学分析工具来发现不同网络中蕴含的普适规律,就需要摒弃数据中的瑕疵从而将数据高度抽象为一个可用的模型,正如统计学家George Box的名言“all models are wrong, but some are useful”。把这个问题总结为一句话:前者追求更准确的数据,后者追求更有用的模型。这种不同学科对待同一个问题的不同态度体现了学科间的多样性,在跨学科研究中尤其要值得注意。不过,如果过度地认可这种差异,可能会伤害研究本身,下面就是一个例子。

2. 测到的不一定是存在的——拓扑数据中的假连接

当前网络拓扑测量技术的局限性不仅包括上面提到的抽样偏差,还包括另一个问题:测量到的边可能实际中并不存在。在利用traceroute技术测量时,对于路由器级拓扑,由于负载均衡或路由变化等原因,可能会误以为在两个原本不相连的节点间存在一条边,即假连接;对于自治域级拓扑,因为IP地址到自治域号的映射存在错误等原因,也可能引入假连接。面对这些假连接,或许有人会觉得前面提到的“前者追求更准确的数据,后者追求更有用的模型”的观点也适用于此,但不幸的是,对错误的容忍存在一个度,而实际情况正超出了这个度。我们在2011年的研究表明,当前一份被广泛使用的、基于traceroute测量的自治域级拓扑数据中假连接所占比例高达42%【2】。特别地,一个顶级自治域的节点度被从2000多高估到4000多。任何试图采用这种质量数据的研究都应加倍小心,确认数据质量对其所获得结论的影响在可接受的范围内,否则,其研究过程很可能是“garbage in, garbage out”。

在上面两个例子中都是测量数据惹的祸,似乎复杂网络研究本身始终是无辜的。然而,下面这个例子说明,复杂网络研究本身在遇到互联网拓扑的时候也表现出水土不服。

3. 无尺度网络理论失效——网络背后的工程思维

前面说过互联网拓扑幂律的发现使其成为无尺度网络的代表,于是将‘普适的’无尺度网络规律直接应用于路由器级拓扑就得到了两个‘结论’:(1)网络形成过程服从“优先附着(preferential attachment)”,即节点度越大其连接新节点的机会越高,表现为“富者愈富”;(2)网络结构是“健壮且脆弱(robust yet fragile)”,健壮是指随机删除节点对整体连通性影响不大,脆弱是指有针对性的删除度较大的中枢节点会导致连通性显著降低。把“结论”二字加引号是因为它们都是未经实证的,严格的说,它们应该被称作假说,但这并没有阻碍它们在复杂网络社区中被当做一种共识性的结论。

要想真正认识路由器级拓扑的成因和性质,需要回归到计算机网络本身,从网络工程学中寻找答案。一般意义上,所谓工程,就是在现实条件制约下,权衡多方利弊,创造出满足实际需求的产品。以工程思维设计路由器级拓扑,现实条件就是路由器的技术指标,需求就是要尽可能最大化网络的吞吐率。我们所关心的路由器技术指标有两个:一个是接口数量d(对应节点度);另一个是每个接口上的吞吐率t。多数中高端路由器可以通过插入不同模块来配置d和t,但受制造技术的制约,单台路由器的总吞吐率T=d*t存在上限,而且T越大,价格越高。实践中,需要根据路由器在网络中担任的角色来选择T(路由器的档次),并且在d和t之间做出权衡。路由器的角色大致分为三类:核心路由器,需要大T和大t,因而节点度d较小;接入路由器,需要大节点度d(小t);汇聚路由器,介于以上两者之间。为了满足用户需求和最大化吞吐率,网络拓扑被设计为一种层次性结构:底层是大量高节点度的接入路由器,中间是汇聚路由器,顶层是少量节点度较低的核心路由器;在同一层次内,接入路由器彼此之间不相连,核心路由器之间彼此相连(环状或网状);在不同层次之间,接入路由器与核心路由器之间不直接相连,而是通过汇聚路由器相连。

显然,无法从节点度服从幂律分布这一观察中获得上述认识,而且基于上述认识研究人员证明,前面提到的两个‘结论’都是错误的。(1)“优先附着”:路由器级拓扑的构造过程不存在显示或隐式的优先附着,并且由优先附着机制生成的图不具有由接入、汇聚、核心所构成的层次性结构,以及相应的层次之内和层次之间的连接特征【3】。(2)“健壮且脆弱”:高度节点是网络边缘的接入路由器,并非骨干网络中的中枢节点,有针对性的删除这些高度节点对网络总体连通性的影响要比预期的小,网络没有那么脆弱【4】。对这两个结论的否定再次宣告了脱离问题所在领域、照搬其他领域的研究路线是行不通的。

结语

对于上述例子所暴露出来的跨学科研究中的潜在问题,本人想分享一些个人看法。首先,一个问题可能连其所在领域内的大部分专家都没有意识到,对跨学科的其他领域研究者们来说就错得更冤了,但科学贵在具有自我纠错能力,此时承认捞到水草的勇气比捕鱼的能力更重要。其次,对自己不熟悉的领域中的成果,应始终抱着谨慎、怀疑的态度,争取与其他领域的专家合作会更靠谱,不应盲目自信地跨学科;对于本领域内的跨学科成果也要认真辨别,莫把水草当做鱼,有时应承认自己的知识储备没有达到辨别鱼的能力。最后,跨学科研究应以自己所在的学科为根本,争取借鉴其他学科的思想,而不是照搬数据和套用方法,这样既跨得有意义,也避免了以后喊冤。总之,“术业有专攻”,跨学科研究也应“大胆假设,小心求证”。

【1】Lakhina, A., Byers, J.W., Crovella, M., and Xie, P. Sampling biases in IP topology measurements. IEEE INFOCOM 2003.

【2】Zhang, Y., Oliveira, R., Wang, Y., et al. A Framework to Quantify the Pitfalls of Using Traceroute in AS-level Topology Measurement. IEEE Journal on Selected Areas in Communications 29, 2011.

【3】Li, L., Alderson, D., Willinger, W., and Doyle, J. A first-principles approach to understanding the internet’s router-level topology. ACM SIGCOMM 2004.

【4】Doyle, J.C., Alderson, D.L., Li, L., et al. The “robust yet fragile” nature of the Internet. Proceedings of the National Academy of Sciences of the United States of America 102, 2005.