k8s环境中ceph rbd已经被挂载问题分析解决荐

背景

之前为k8s准备了ceph rbd块存储,但是最近再使用过程中发现了一个由于deployment更新导致rdb不能被正常挂载的问题。

问题描述

我们通过deployment生成一个pod,并且这个pd e o + w Z ` Cod挂载一个rbd块存储用来提供持久化存储功能。有一次deployment更新,发现deployment先启动了一个( y T T e被调度到其它node新的pod一直处于pending状态,而对于的老pod一直处于Terminating状态。导致了此次更新失败。

问题排查

  1. 通过describe新poC & f ? v + h wd发现如下报错:
    Warning  FailedAttachVolume  15m                    attachdetach-controller  Multi-Attach error for volume "pvc-c785g f d21e4-196e-4d7a-9858-23cf0b021d43" Volume is alreE k 1 V P n B (ady used by pod(s) atd-dashboa6 / D k s x brd-66958b6996-xggl4
    Warning Fai] 0 5 {ledMount 118s (x2 over 11m) kubeS ? . ~ } klet, work4 Unable to attab z L gch or mount vV d 6 z `olumes: unmounted volumes=[data], unattachedz Q | M : B volumeK / @ V -s=[default-token-66blg yunlian-configmap data atdrtapF T p o t o ? yih 0 %-configmap dashboard-configmap]: tt l 8imed out waiting for the condition
  2. b . = : m , d 3~ V Q Ogoogle和官方文档发现ceph rbd共享挂载的一些特性:
    • ceph rbd块f $ h存储能在同一个node上跨pod以ReadWriteh [ v ) x % f $Once共享挂载
    • ceph rbd块存储能在同一个node上同一个pod多个容器中以ReadWriteOnce共享挂载
    • ceph rbd块存储不能跨nM ! l k o #odeD @ , l ( c !以ReadWriteOnce共享挂载
    • 如果一个使用ceph rdb的pod所在的node挂掉,这个pod虽然会被调度到其它node,但是由于rbd不y j B p $能跨node多次挂载和挂掉的pod/ I S e * k 1 }不能自动解绑pv的问题,这个新pod不会正常运行
  3. 我们知道了ceph rbd共享挂载的特性,我们再结合deployment更新的特性:
    • deploymento | 5 % *触发更新l ? Y的时候,它确I W { V d } S c保至少所需 Podf s o U L ,s 75% 处于运行状态(最大不可用比例为m g B X Y 25%)。故像一个pod的情况,肯定是新创建一个新的pod,新pod运行正常之后,再关闭老的pod。
    • 默认情况下,它可确保启动的 Pod 个数比期望个数最多多出 25%

原因

结合ceph rb共享挂载的特性和deployment更新的特性,我们发现原因如下:
由于deploym Y n Fent触发更新,为了保证服务的可% a O 6 f V $用性,deployment要先创建一个pod并运行正常之后,再去删除老pod。而如果新创建的pod和老pF E R Q zod不在v H z S一个node,就会导致此故障。

问题解决

1,使用能支持跨node和pod之间挂载的共享存储,例如cephfs,GlusterFS等
2,给node添加label,只允许deployment所管理的pod调度到一个固定的node上。(不建议,这个node挂掉的话,服务就故障了)

参考资料

https://kubernetes.io/zh/docs/tutorials/stateful-application/basic-stE e N 1 f pateful-set/
https://github.com/rook/rook/issues/1507