纳管集群接入NPD

接入NPD

容器服务应用目录里找到“ack-node-problem-detector”

纳管集群接入NPD

部署NPD要配置的参数较多:

  • alibaba_cloud_plugins:不需要选择ram_role_check,nvidia_gpu_check视情况选择
  • serviceaccount:填入集群中权限较大的一个,一般自建的有admin-user,可以kubectl -n kube-system get sa来查看
  • env:填入AccessKeyId、AccessKeySecret、RegionId这三个参数
  • sls:

    • enabled:如果需要将event归档到日志服务,就将enabled设为true
    • topic:填写您的集群可读名称
    • project:填写您的集群对应的日志服务project名称
    • logstore:填写project下已有的某个logstore(如果要使用日志服务的事件中心功能,˙这里要填为k8s-event
    • internal:如果有专线,可以填为true,否则填为false
  • dingtalk:

    • enabled:如果需要将event告警到钉钉群,就将enabled设为true
    • monitorkinds:选择要接收的告警类型,一般选择Node
    • token:填入钉钉只能群助手的token(不是全部的URL)

纳管集群接入NPD

纳管集群接入NPD

配置成功后,钉钉告警效果如下图:

纳管集群接入NPD