提高GPU利用率,阿里云cGPU容器技术助力人工智能提效降本

<img src="https://img.alicdn.com/tfs/TB1IbanTUH1gK0jSZSyXXXtlpXa-720-150.jpg" alt="提高GPU利用率,阿里云cGPU容器技术助力人工智能提效降本" & 5 T D Z 3 Y&gt;


发布会传送门

产品H w G ( x @ G L详情

人工智能已经深入影响各行各业,作为人工智能实现Q U g g j的主流实现路径,深度学习对算力的需求庞大且X $ c _ h Z S d波动,上已成主流趋势。

GPU是人工智能算力的重要来源。互联网及传统企业客户,只要有人工智能相关的业务,都需要租用GPU服务器来做` D深度学习模型的训练与推理。

随着显卡技术的不断发展和半导体制程工艺的进步,单张GPU卡算力z [ & l ? O l水涨船高,成本愈发高昂。然而,有许多的深度学习任务,并不需要占用一整张GPU卡。资源调度不够灵活,造成了GPU资源利用率不高。

这时候,用容器调度底层GPU资源就成了一种很好的解决方案。多租户(VM)使用同一张GPU卡,可S C : * f d G以依靠vGPU技术实现;而单租户多线程的场景,则可以通过GPU容器共享技术实现。通过在GPU卡之上高密度的容器部署,可以将GPU资源做更细颗粒度的切分,提高资源利用率。

阿里云异构计算近日推出的cGPU容器共享技术,让用户通过容器来调度底层GPU资源,以更细颗粒度调度使用GPU,提高GPU资源利用率,达到降本增效的目的。

目前业界普遍使用GPU容器技术。在容器调度GPU的时候,不同线程中的容器应用可能出现显存资源争抢和互相影响的问题,未能做到容器的完全隔离。比如,对显存资源需求强烈的应用,可能会占用了过多资源,使得另一线程的容器应用显存p D Q . z资源不足。也就是说只解决了算力争抢的问题,却未能解决故障隔离的问题。比如某企业在跑两个容器中分别运行着GPU的推理应用,一个已经稳定了,一个还在开发阶段。如果其中一个容器中的应用出现故障,由于没有实现很好的隔离技术,往往导致另一容器中的应用也会出现故障

目前,行业内还有一种改良方案,通过把CUDA运行库替换或者进行调整,这种方案的弊端c 4 m ) g C y : s是用户没法将自身搭建U & * j v , P [的环境无缝放到云厂商的环境中,而是需要适配和更 [ ~ w改CUDA运行库。

阿里云推出的cGPU容; } Z J H I e 1 器技术,可以实现容器的安全隔离,业务之间不会互相干扰,各容器之间的故障不会相互传递,更安全、更稳定;同时对客户环境无侵入,如客户无需修改CUDA运行库等,就能让客户灵活地利用容器调度底层GPU资源。

阿里云cGPU容器技术的推出,将进一步推动更多的企业m 2 - % { W使用容器调度底N J &层GPU容器资源,能够毫无后顾- 3 S n H | d之忧地提升GPU资源利用率,实现降本增效。