以云战“疫”,这次阿里云又让人们惊了……

近日,阿里对外宣布其容器服务调度GPU服务器启动加速计算,最快只需60秒即可完成新冠病毒的核酸对比工作;同时将向医疗科研机构、疾控中心等一线病毒研究机构免费开放基因计算服务,技术可大幅提升宏基因组测序、疫苗研发相关的处理效率。

基于此,晶少专程采访了阿里云基因计算服务AGS负责人、高级技术专家李鹏,集中呈现针对GPU和容器技术大幅提升核酸比对速度的有关细节以及关于阿里云基因计算服务(AGS)的诸多信息。

据晶少了解,本次阿里云基因计算服务Ad 0 G C j S } n zGS病毒比对J v A x T e d G能力-mNGS宏基因组比对从设计、研发、验证到最终上线只用了短短20几天,但李鹏所在团队却每天肩负着艰苦卓绝的工作。很关键的一个出发点在于,除了提供针对新冠肺炎病毒中mNGS宏基因组测序数据的快速比对能力之外,更重要的是让研究机构更专注业务创新,而不是数据本身的重复处理工作a e } Z *,这其中就涉及到了生物类型计算解决方案所具有的鲜明特h N *殊性。

以云战“疫”,这次阿里云又让人们惊了……

晶少:生物计算解决方案有一定的特殊性,相比其他类型的技术解决方案有何不同?

阿里云基因计算服务AGT Q _ D ;S负责人、高级技术专家李鹏:不同于常规的计算,基因计算对海量数据计算和存储能力有很高的要求,主要通过容] Y e [ u - ]器计算的自动伸缩特性和阿里云ECS自e 0 j C F | . o伸缩能力的打通,这才能让AGS具备大规模调度云上计算资源的能力。具体来说通过特定算法对基因数据进行~ 6 A H J l s .合理切分后,可实现大规模的并行计算以~ = B V ; q 2 S及处理TB级别的样本数据。

过去的基因计算服务以集群化,混合云,弹性为主的AGS工作流服务。但在走过的两年时间里,阿里云提供了基于Z ! x G O o /容器混合云的基因计算方案,整体技术是a = D % t T f 9 &混合云架构下的云原生容器,达成云上云* s :下资源/ W =一体,跨地域集群统一管理。2020年,在以往技术沉淀基础上,阿里云升级了AGS的能力,用公共云API化服务做到即开即用n 9 5 7 r 6 A M R、用完即走,以这次的病毒检测为例,在提供了自定义病毒库灵活性的基础上又使得调用的无服务化,一次调用即能产出比对的U h 2 & b _ U最终数H : r 0据结果并返给用户。

实时荧光定量PCR(RT-PE = M ) Z v h W oCR)和病原宏基因测序(mNGS)是最早用于确诊新冠病毒感染的方法。由于两项技术各有优劣,联Q $ R x , Z z W B合使用方能实现互k n *补。

RT-PCR是目前新冠病毒的核酸检测主流方法,成本较低,操作简便。现已有众多新冠病毒RT-Pa w J k G y 4CR试剂盒可选,但由于病毒浓度和试剂盒质量问题,其结果出现假阴性较高,导致医生和患者往往需要重复多次检测和长时间q ~ & ~等待检测结果。

mNGS的技术优势可通过一次检测便能Y % r P ] t K G排查所有已知的病原体,有效避免重复采样的麻烦操作,以C 6 c g 1p L ] $多次检测筛查所需大量样本难以实现的问题。当病毒经过数代传播,还会产生变异,mNGS也是较为有效的追踪方案,配合病毒库可精准确定病毒的 V I W [代际关系,甚至找到病毒源发地。基于mNGS基因序列比对的分析A 5 C方式,一旦病原体的基因组已知,通过更新数据v I + [库,就可实现高效准确检测出相似病毒的功T ( c R C能,同时对新型病毒以外的其他病原及混合感( * 3 I & i x }染进行综合鉴定。但mNGS的缺点是成本较高,需要k ) G e H $测序仪和专业的生信分析$ s y ` .,并且操作复杂、检测时间相对较长,因此无法实现大范围推广和快速诊断。

如今通过使用阿里云容器服务,科研人员只需在阿里云上通过命令行AGS rna-mapping^ v Z + k ! 2 ) API 启动比对过程,随即6 ! R阿里云容器服务调度GPU云服务器启动加速计算,60秒内即可得到高质量匹配reads的数据和初步质量报告,为多种病原体检测和进一步的新冠病毒蛋白质研究及变异研究提供快速准确的l T :数据支撑。

基于此Y ? [ i I + % T我们发现; - z 0,本次阿里云方面提供的云服务与以往显i D % * J R著不同,“全套”思想贯穿其中,也就是说所使用的机构不再需x ! @ } 1 E $ G} C U p 9 2 O c购买额外计算资m F A T X q源,更不用关心如何搭建集群以及考h 5 Z H p X _ :虑算法和网络等诸多问题,只需将数据放入对象存储中并上传,等待授权完成后即可调用云服务来处理数据,产出结果并生成有关报告,“既开即用、用完即走”的特质表现突出。

另外AGS在处理测序仪下机数据的比对、排序、变异检测等环节拥有目前云上最快的加速比,可以达到普通CPU处理速度的百倍,同时又保持了BWA/GATK等主流金标准软件的精度和召回G O ! S H k q率,大幅度降低了计算的成本,性价比十分可观,P % n v E J , j也足见其技术探索的功底深厚,但究竟是何种机缘促成了容器技术与基因计算间的火花U _ 2 ~迸发?

晶少:何时何种契机开T ; + , & 8 .始针对容器技术加速基因计算做有关探索的?这种API调用更多意味着什么?

阿里云基因计算服务AGS负责人、高级技术专家李鹏:我们观察到,容器技术一方面在数据分拆、质量控制、Call 变异提供了标准化流程化、加速、弹性、鉴权、观测、度量等能力;另一方面,高价值挖掘需要借助容器化的机器学习平台和并行框架完成大规模线性代数计算建立; ( o 1 x ? # ^模型,实现精准医疗。过去的两年中,AGS一直在行业里通过集群化、混合云,C U 9弹性为主的A= V V | j I .GS工作流服务方式帮助大型的基因测序企业完成当日处理100TB以上的数据的,1年数十PB数据的处理任务,成果显著。

而这种API化的尝试确实能够有效帮助用户摆脱集群的复杂性,资源创建和维护的代价,以极少的存储成本就可以完成任意数量的按需计算需求,成本支出只需要按照处理的数据量和计算量来支付,实现真正的无服务化和Pay as you go。

有消息表明,阿里云其实早在疫情严峻阶段就宣布向新冠疫苗研发科研机构免费提供一切AI算力,目前已收到了包括浙江大学医学院、GHDDI全球健# y . P ] ; T |康药物研发中心、清华大学医学院、北京大学医学院等国内外数十家权威科研机构的申O = d 5 i请,第一批申请的算力资源已部署上线、不断为疫苗研发提速加码,但个中情况具体如何呢?

晶少:目前对外申请算力部署的整体情况如何?效果怎样?后续的服务支持有哪些具体方面?未来在助力疫苗药品研制方向有何规划?

阿里云基因计算服务AGS负责人、高级技术专家李鹏:目前AGd A c 7 T yS已经开通了国内的多个地区的服务,特别是北京、深圳、杭州等都有大型基因公司开7 w = 5 O g #始生产使用;另外国外的多个地区也开通z 3 J v J B [ ? i了服务,例如法兰克福等疫情重灾区也可以访问到AGS服务。

晶少:新冠状病毒疫情发生后,为了帮助抗攻击疫情,阿里云免费向全球公共科研机构提供高性能计算、SCC 超级计算集群d . ? ~ 0 &和 CPU/GPU 机器、云超算及 AI 等技术,包1 @ O e U括助力在E-HPC云超! ( u算上进行药物研发等,这与AGS关系如何?AGS在, * c T阿里云技术的K Q e ` *对外输出中占据了何种位置或者扮演了怎样的角色?

阿里云基因计算服务AGS负责Z - ] t人、高级技术专家李鹏:AGS主要定位于公有云的开箱即用的Serverless服务,提0 K Q z供给E Z J ? m E a各个生态伙伴,例如基因公司、研究机构、学校等PaaS| 1 6 l 4 J服务,是可以被集成在各种云端SaaS应用中来实现效率的百倍提升和成本的大幅缩减。当然E-HPC也是阿里云中很有优势的产品线,主要面向科研机构做高分子分析等高性能计算,当然科研机构、疾控中心可以同时使用AGS和E-HPC来形成科研项目互补,并不l d 1冲突。

采访接近尾声,可以想见的一点,未来AGS基因计算会继续朝着Server2 z C ]less与按量付费、按需弹性的持续被集成的路线发展,有幸提供各种人类基因组、动植物以及病毒等基因的加速处理云服务。总体来看随着测序成本、计算成本以及分析成本的持续下降,人们有理由相信基K t I l ? l因测L -序和精准医疗在不远的将来将进入到普通人的常规健康服务列表中,人类对自身基因认知的深入必然推动寿命提升以及战胜各种疾病的可能,云计算服务AGS会推动国内乃至世界范围内普惠精准医疗早日到来。

战疫之下,究竟还有哪些黑科技亟待被发掘?我们更多只需拭目以待!