screen-shot-2013-10-25-at-19-10-52

南加州大学(USC)的研究人员无意中发现了Google搜索服务架构的巨大变化。影响如何?响应搜索查询延迟降低,这在更加遥远的地区尤为明显(指的是离Google自己的数据中心距离远)。

这一对于山景城(Mountain View,Google公司所在地)网络的研究结果源于该团队的另一项研究,他们正在开发一种追踪、映射服务器的新方法,识别出来位于同一数据中心的两个服务器,并估计数据中心的位置。这个方法还能识别服务器与客户的关系,而且——撞了大运——Google做架构调整时,该团队正好在用这个方法做研究。当然,除非Google定期进行这样的大规模调整(显然不太可能)。

研究结果表明,过去10个月中,Google“引人注目地”将其提供搜索查询服务的全世界站点数量增加了不低于600个百分点。(文章开头的动态图表现了这一上升趋势——黑色圆圈代表Google的数据中心,红色三角代表Google用来传递搜索流量的其它站点。)

研究人员指出:

从2012年10月到2013年7月末,提供Google搜索服务的基础设施的地点数量从低于200个上升到略高于1400个,互联网服务供应商(ISP)的数量从刚刚过100个上升到超过850个。

南加州大学的团队表示,Google改变现有基础设施的用途从而对架构进行了调整——Google之前就依靠客户网络提供YouTube视频这样的内容,现在再利用它们来传递——更重要的是,加速——用户对于搜索及广告的请求与响应。

“Google之前就利用这些客户网络提供YouTube视频,”该研究项目领导者,南加州大学博士生马特•卡尔德(Matt Calder)在声明中这样表示,“不过他们突然开辟了这些网络的另一种使用方式,提供内容的基础设施同时也提供搜索服务。”

在此之前,搜索查询会直接前往Google的一个数据中心,这种网络结构会产生一定的延迟——取决于最初的查询离数据中心有多远。新的架构下,搜索先抵达区域网络,再传递到Google的数据中心。尽管这听起来像是绕了远路,但这样做确实更快,受益于区域节点与Google数据中心间的不间断连接,不仅速度更快,同时也降低了数据包的丢失率。

研究人员这样解释:

数据连接通常需要“热身”才能达到最高速度——客户网络与Google数据中心间的不间断连接消除了热身带来的延迟。另外,互联网上发送的内容被分割成小的数据包——某些延迟的原因就是这些数据包偶尔会丢失。让客户网络担任中间人,就能发现丢失的数据包并更快地代替。

Google新的搜索架构与内容分发网络(CDN,content delivery networks)——如Akamai及 Limelight Networks——的架构类似,内容分发网络的作用就是为视频服务降低内容串流时的延迟。

Google新的搜索秩序能降低多少延迟?报告作者伊桑•卡茨•巴塞特(Ethan Katz-Bassett)告诉TechCrunch,目前很难估测(该团队正在进行架构改变对性能影响的量化工作),并表示延迟的降低程度肯定也会根据地区而“大相径庭”。不过他举了一个例子,那里的搜索延迟降低了大约五分之一。

“仔细观察新西兰的一台机器,原来它会连到悉尼的数据中心,现在它被定向到新西兰的一个前端。因此延迟下降了大约20%。”他说道。

“更深层的意义在于,很多原先访问情况不佳的地区现在速度应该会大为改善,”他补充道,“比如说,在使用这些新服务器的网络中,在Google的网络中50%离原先的服务器距离超过1600千米。现在,其中一半离本地ISP提供的服务器不到50千米。”

新架构不仅是用户(更快得到结果)和Google(分发更多的广告)的福音,同样对于ISP们也同样如此——原因在于他们现在提供的更多的是本地流量服务,运营成本应该会降低不少。而且要是Google更加依赖ISP的基础设施,山景城也会付给他们更多的美元。

卡茨•巴塞特认为,Google的这一转变并非是针对搜索查询全球性增长的未来部署,而是在于为现在的用户提供更好的服务。“对Google自身而言,这并不一定能提供容量,但可能主要有利于提高性能。”他这样回答。

为何Google现在做出这样的改变?答案仍然是很难回答(Google对这项研究没有发表任何说明)。卡茨•巴塞特推测,之前Google在搜索流量的路由方面存在一些工程与技术上的困难(至少相比与缺少商业上的合作伙伴而言——该研究指出,Google“大部分”利用的是现有的客户网络(如时代华纳有线)来完成新的搜索拓扑。)

卡茨•巴塞特表示,这一变化与其它性能改进的优先级排序决定了推出时间。

“这确实也带来了一些挑战:这套系统如何确定某个特定客户定向到哪个服务器来获得最佳性能?放在过去,Google控制了整个路径,让请求尽快抵达前端。而现在大多数前端位置都在Google的网络之外,这些前端不得不走公共互联网传递请求(向Google的数据中心),因此我觉得情况将会更加复杂(要考虑拥塞,可用带宽等等),这将是一个很难管理的大型系统。”他补充道。

南加州大学团队昨天在西班牙的SIGCOMM网络测量大会(Internet Measurement Conference)上公布了这一发现。

文章来源:http://techcrunch.cn/2013/10/28/search-shift/