突破边界局限,阿里云神龙负责人张献涛分享15年虚拟化之路

2019年1月8日,弹性计算服务技术总负责人张献涛受邀出席“面对面 见未来”的沙龙分享活动,现场听众主要是银行、保险、证券等金融行业的CTO、CIO等。

突破边界局限,阿里云神龙负责人张献涛分享15年虚拟化之路

演讲开始前,听众们了解神龙云服务器的并不多。在听完张献涛的介绍后,他们对神龙兴趣大增,在分享结束后纷纷与张献涛交流讨论,意犹未尽。

15年虚拟化技术之路

虚拟化是如今云计算行业的基础,然而虚拟化最早并不是针对云设计的。

张献涛回忆,他自2004年博士毕业后加入Intel虚拟化团队,彼时国内虚拟化从业者少之又少,Intel也是在不久前决定在芯片中加入虚拟化的特性。

突破边界局限,阿里云神龙负责人张献涛分享15年虚拟化之路

自此,张献涛就踏上了虚拟化这条“人迹罕至”的技术之路。期间,随着亚马逊、阿里巴巴、盛大等公司开始涉足云计算,虚拟化也越发受到大公司关注。

在Intel深耕该领域多年的张献涛,发现在技术层面的探索已面临天花板。2014年,他带着离客户更近的想法,来到了阿里云

“神龙”是如何诞生的

他回忆,最早的时候阿里云主要服务中小站长,他们对云的服务能力要求不高。“有时候我们发现网站挂了之后,客户过了半天都没发现”。

虽然当时针对中小型客户服务能力“够用”,在2014年,阿里云在开始构建服务中大型客户的能力。2015年前后,张献涛带领技术团队对阿里云弹性计算服务的系统架构做了重新设计和全面升级,云服务器实例性能提升了数倍。

高速发展的阿里云,同时也面临着质疑:“你们的双11上云了吗?”

2014年,阿里巴巴启动了全面上云计划。“我们相信,如果双11这种天量级场景都能跑,其他都不是问题。”张献涛表示。

2016年,双11绝大部分的流量完美运行在阿里公共云上,并且所有业务的性能损失都低于3%。然而,时任阿里巴巴CTO的张建锋,提出了更高的要求:把虚拟化资源和性能损耗降到零!

这在当时是完全不可想象的任务。阿里云技术团队把自己逼到了极限,不断思考如何从这3%里再抠一点出来。

“幸运的是2016年发生两件事:互联网公司开始收购硬件公司;云原生来了,容器浪潮席卷全球。”

这两种趋势的启发下,张献涛决定用软硬一体的方式,借助芯片的offloading技术,把虚拟机损耗降到零。

“神龙”突破物理机极限,性能大幅提升

“原来我们都认为,虚拟化技术的极限,就是物理机性能。”让人惊喜的是,张献涛在定下实现路径后,经过分析认为,软硬一体协同设计的架构,有可能可以突破了他本来的想象边界,比物理机的性能还要好。

基于论证,张献涛团队对自己提出了更为大胆的目标:突破物理机性能极限。

团队最后如愿以偿。2019年,阿里巴巴双11核心系统全面上云。数据显示,容器在神龙云服务器上跑,性能比在物理机上提升20-30%。

突破边界局限,阿里云神龙负责人张献涛分享15年虚拟化之路

发明创新,终究要回归客户价值

神龙表现喜人,张献涛感悟,做技术还是要回归客户价值。“单纯的喊话是不行的,我们需要解决他们的实际问题。”

阿里云的客户要上云,是因为云解决了他的问题,不是为了上云而上云。

突破边界局限,阿里云神龙负责人张献涛分享15年虚拟化之路

而今,随着阿里云的发展,客户的要求与5年前不可同日而语,也对阿里云的服务能力作出了更严格的要求。

“之前客户的问题,我们比客户发现得还早。现在大客户的维护系统,看得比我们还细,有任何一个抖动,可能工单就过来了,解决不好就成为故障了。服务能力一定要提高,大客户对服务能力要求很高。”