国内最具影响力科技创投媒体36Kr的容器化之路

本文由1月19日晚36Kr运维开发工程师田翰明在Rancher技术交流群的技术分享整理而成。微信搜索rancher2,添加Rancher小助手为好友,加入技术群,实时参加下一次分享~

田翰明( z ) v,36Kr 运维开发工程师,在 36Kr 主要负责运维自动化,CI/CD 的建设,以及应用容器化的推动。

背景

36Kr是一家创立于2010年,专注于科技创投领域的媒体公司,业务场景并不复杂,前端主要使用NodeJS进行Render,移动端有Android也有iOS,后端服务几乎全都由PHP来支持。使用PHP的主要原因是在最初进行技术选型的时候发现,PHP进行WB I ) E u N _ feb开发效率比较高,后来就一直这样延续下来了。

但是在后期,随着业务的突飞猛涨,在程序设计中又没能进行解耦,就导致了许多服务耦合成v n 6 y h 2 ,了一个很臃肿的单体应用,逻辑耦合严重,进而导致了很多的性! } _能问题,随着问题越来越难改,开发任务又越来越紧,就不得不往后拖,越往后拖留下的问题就更难改,形成了一个恶性循环,留下了很多的技术债,很不利于后续的开发任务,并且一旦出现了问题,也很- % 1 @ z ? f y难追溯具体原R M $ z N W Z ^ ^因,所以在那时候经常听到@ = 2 B一句话 “这是历史遗留问题” 。

B/S、C/S、单体} d ! &a J U ? T用,这是y _ T s B {一种很传统 也很简单J [ M架构,但是缺点也暴露无遗,所以经常因为一个业务逻辑的性能问题,进而影响到所有的业务。在运维侧,运维只能够通过堆机器,升配置等策略来应对,投入了很多的机器成本和人力成本,* g { 9 d J但是收效甚微,很是被动。

这种情况已经是迫在眉睫了,终于技术团队决定使用 Java 语言进行重构,将单体应用进行微服务化拆解,彻底改变这种因为单体应用故障而导致生产环境出现大范围的故障。

需求分析 + 选型

在重构计划开始一段时间后,为了节省虚机资源,我们一台虚机上运行了多个 Java 程序,但& a k p ) _ {是因为没有资源隔离和灵活的调度系统,其实也会导致一些资源的浪费。并且在高并发场景; I m下,偶尔会有资源抢占导致一个应用影响另一个应用的情况。为此,我们运维专门开发^ T N p了一套自动化部署系统,系统内包括部署、监控检测、部署失败回滚、重启等基础功能。

随着当时 K8s 的风靡,还有 Rancher 2.x 的发} 7 & q + J e ~布,我们逐渐发现8 i i ],我们所面临的这些问题,它们基本都能解决,比如资源隔离、deployment 的U 9 + ; j R w $控制器模型、灵活的调度系统,这些都有,这就是最好的自动化部署系统啊,于是我们运维侧,也开始决定向容器化进军。

在选型上,因为我们的服务基本都在阿里云上面,所以第一个想到的是阿里云。时因为我们和华为有一些业务的往来K J W i 6,所以华为的 CCE 也作为了备选, F % ! g但是考虑到我们的服务资源全部在阿里云上,这个迁移成本实在太大了,所以就没1 & Q *再考虑华为云。

+ ? 6 ~ } h G & m们一开始使用过Ranchb R n t Y ! /er 1.6,但是只是用来管理主机上部署的原生 Docker。也因此对Rancher的产品产生了很大的好感。

需求方面,因Y c } $ 9 q { -为要降低我们研发人员的学习成本,容器管理平台的易用性十分重要。此外,K8s 的基础功能是必须的,因为 K8s 还在高速发展阶段,所以能需C S W y T j要够随时跟上更新,有安全漏洞后也需要第一时间进行更新打补丁,同时还要有基本的权限控制。而且我{ e E j = *们公司内部没有专门的K8S团队,运维人员也只z m 7 4 T e @ b 有2位,所以如果能够有专业人员进行技术上的交流,发生了问题可以有专业的服务团队来协助也十分重要o ! ) & h q W

综上,基本上就是 Rancher 完胜,h U G f B S ! vUI 做得非常友好,开发人员能够很快上手,更新迭代速Q U E [ i度也非常快,发现漏洞后也会有详细的补丁方案,认证策略也完美支持我们的 OpenLDAP 协议,能够对y w c i | ^ * x K开发、测试、运维人员1 = | i n J o 7 P进行不同权限控制,并且也是第一家做到支持多云环境的,方便以后我们. 0 c做跨云的方案。

我们这次容器化的过程,主要经历了以下几个因素的考虑,今天我就来和大家分享我们在 Rancher 上的一些实践,希望能给大家带来帮助:

  • 应用的容器化改造

  • Rancher 的高可用性

  • 容器的运维

  • 多租户隔离

    应用的容器化改造

因为我们的开发人员,有相当一部分是没有接触过容器/ 6 } !的,为了能对开发人员更友好一些,我们的镜像分成了两层,主要的 Doe N r s v Fckerfile 编写是由我们运维人员来编写的,而开发人员代码仓库里的 Dockerfile 是最简单的,基本上只有代码拷贝的过程和一些必传的变量,具体可以参考以下示例:

## 这是运维人员维护的 Dockerfile 示例
## 本示例仅做参考
FROM alpine:3.8
MAINTAINER yunwei <yunwei@36kr.com>
WORKDIRC W {  [ 6 H /www
RUN mv /etc/apk/r~ z / Lepositories /etc/apk/repositories.bak \
&& echo "http://mirrors.aliyun.com/alpine/v3.8/main/" >> /etc5 - _ L ]/apk/repositories \
&& apk update && apk upgrade
RUN apk --no-cache add ca-certificates wget && \
wget -q -O /etc/aQ g Zpk/keys/sgV p Kerrand.rsa.pub https://alpine-pkgs.sgerrand.] Y v t t g / ;com/sgerrand.rsa.pub && \
wget https://github.com/sgerrand/alpine-pkg-glibc/releases/download/2.29-r0/glibc-2.29-r0.apk && \
apk add glibc-2.29-r0.apk8 ) j K && rm -f glibc-2.29i y n A-r0.apk
RUN apk ag 9 / ` ) & Mdd -: g s = I ? ! 0 YU --no-cache \
bash \
sudo \
tzdata \
d~ 3 0 2 1 h 4rill  \
iputils \
curl \
busybox-extras \
&& rm -rf /var/cache/aw N C n O # dpk/* \
&&D H . C E ); ln -sf /usr/share/zoneinfo/AsP ] z ` j S J 0ia/Shanghai /etc/localtime
COPY java-jar/jdk1.8.0_131 /usr/lH = v c +ocal/jdk1.8.0_131
ENV TZ="Asia/Shanghai"
ENV JAVA_HOME=/usr/local/jdk1.8.0_131
ENV CLASSPATH=$JAVA_HOME/bin
ENV PATH=.:$JAVA_HOME// F 8 x X 3 u Jbin:$PATH
ENV JAVA_OPTS="-serveK r ~ ]r -Xms1024m -Xmx1024* $ % 4 _ # Em"
CMD java -jar $JAVA_OPTS -Dserver.port=808^ s n0 server.jar
=======================================
## 这是开发人员维护的 Dockerfile 的示例
FROM harbor.36kr.com/java:v1, Q ? P k T 2 p.1.1
MAINTAINER developer <developer@36kr.com>
ADD@ q 3 ( c / [ b web.jar ./server.jar

可以看到,开发人员所维护的 Dockerfile 可以说相当简单了,这大大的降低了开发人员维护的难度。

另外,因为构建产物的大小,很大程度上决定了部署时间的长短,所以我们使用了号称最小的镜像——alpine,alpine 有很多的优点:

  • 体积小

  • 有包管理器、有丰富的8 w f L依赖

  • 大厂的支持,包含 Docker 公司在内的多家大厂官方使0 O E ^ D V

但是他有一个缺点,alpineh V m , I 上并没有 glibc 库,他所使用的是一个 musl liH - C rbcH D Q & R F 的小体积替代1 H z {版,但是 Java 是必 ^ w = u o w x须依赖的 glibc 的,不过早就有大神了解了这点,在 GitH+ U o zub 上已经提供了预编译的 glibc 库,名字为alpinel i g 9 i $ y 1 :-pkg-glih A `bc,装上这个库就可以完美支持 Java,同时还能够保持体积很小。

Ranc{ ( ^her 的高可用性

安装 Rancher 的方式有两种:单节点安装和高可用集群安装。一@ g r M # D x @般单节点安装仅适用于测试或者 demo 环境,所以要正式投入使用的话b w ( v ! ` , O B,还是推荐高可用集群的安装方式。

我们一开始测- ~ J , [ ! [ % 4试环境就使用了单节点安装的方式,后来因为 Ranx j n } 8cher Server 那台机器出现过一次重X z 6 P , a h 8启,就导致了测试环境故障,虽然备份X M 5 }了,但是还是丢失了少量数据,最后我们测试环境也采用了 HA 高可用部署,整个架构如下图所示。

Rancher Serr T [ X : tver 我是采用的 RKE 安装,并且为了防止阿里h = 8 T H云出现区域性的故障,我们将 Rancher Server 的三台机器,部署在了两个可用区,Rancher Server-001、003 在北京的 H 区、Rancher Server-002 在北京的 G 区。

负载均衡X 4 s ( 0 - E + F,我们采用[ v A H # q的是阿里云% E =的 SLB,也是采购的主备型实例,防止单点故障,因为 Rancher 必须使用 SSL 证书,我们也有自己的域名U ? 0 V 6 K证书,为了方便在 SLB 上进行 SSL 证书的维护,我们使用的是 7 层协议g F O ] ^,在 SLB 上做的 SSL 终止,Rancher Servg N } v 4 7er 的架构图可以参考下图:

国内最具影响力科技创投媒体36Kr的容器化之路

下游集群,也就是用来承载业务的 K8s 集群,我们也是一半一半,在阿里} @ ; 0 N r F 6 k云的两个可用区进行部署的,需要注意的8 0 O $ p ? 2 6 ,是,为了保证两个区的网络时延 <= 15 ms,这就完成了一个高可用的灾备架构。

备份方面,我们也使用了阿里云 ECS 快照 + ETCD S3 协议备份到了阿里云的 OSS 对象存储两种方案,确保出现故障后,能够及时恢复服务。

部署的详细教程可以参考 Rancher 官方文档。

容器的运维

容器的运维,这里主要指容器的日志1 z } | W }收集和容器监控,容器监控方面呢,Rancher 自带了 Prometheus 和 Grafana,而且和 Rancher 的 UI 有一些整合,就非常的方便,所以监控方面我就不展开讲了,我主要说一说日志收Y S = f q +集。

在 K8s 里,日志的收集相比传统的物理机、虚机等方式要复杂一些,因为 K8s 所提供的是动态的环境,像绑定 hostpath 这种方式是不适用的,我们可以通过以下这个表格直观的对比一下:

国内最具影响力科技创投媒体36Kr的容器化之路

可以看到,K8s 需要采集的日志种类A i }比较多,而容器化的部署方式,在单机器内的应用数是很高的,而且都是动态的,所以传统的采集方式是不适A ^ e x 2 _用于 K8s 的。

目前 K8s 的采集方式大体可以分为两种,被动采集主动推送

主动推送一般有 DockerEngine 和 业务直写两种方式:DockerEngine 是 Docker 的 LogDriver 原生自带的,一般只能收集 STDOUT、一般不建议使用;而业务直写,则需要在应用里集成日志收集的 SDK,通[ C D = 3 N R ]过 SDK 直接发送到收集端,日志不需要落盘,也不需要部署Agent,但是业务会和 SDK 强绑定,灵活性偏低,建议对于日志量较大,或者对日志有定制化要求的场景使用。

被动推送是采用部署日志收集 Agent 进行采集的,有两种方式p ] P _ ; w R,一种是 Daemonset 每个机器节点上部署a 8 0 F c G一个 Agent,还有一种 Sidecar,每个 Pod 以 Sidecar 的形式v n & C e O = q部署一个 Agent。

Sidecar 部署方式比较消耗资源,相当于每个 Pod 都有一个 agent,但@ 9 ; !是这种方式 灵活性以及隔离性较强,适合大型的 K8s 集群或者作为 PaaS 平台为业务方提供服务的群使用,Daemonset 部署方式,资源消耗较小,适合功能单一、业务不多的集群。

结合我们自身的场景,属于小规模集群C i W . ^,并且业务也不算多,我们选择了 Daemonset 的部署方式,在测试环境,我们经过调研选择了阿里开源的一个日志收集组件log-pilot GitHub 地址是:githu~ 8 ?b.com/Aliy w ` , v GunContainerSz M @ : T 5 v 4ervice/log-pilot ,通过结合 Elasticsearch、Kibana 等算是一个不错的 K8s 日志解决方案。

因为x z L $ U : & u R我们的服务器都在阿里云上,我们运维人l 3 5 F d员比较少只有2位,没有精力再去维护一7 l +个大型的分布式存储集群,所以我们的业务C C - $ 0 G日志选择存储在了阿里云的日志服务,所以在生产环境,i L Q {我们的 K8s 也使用了阿里云日志服务,目前单日日志 6亿+ 没有任何问题] % h l N F e *

使用阿里云收集日志呢,你需要开通阿里j ; 3 4 3 y 4 h云的日志服务,然( $ 2 m W ( % j }后安装 Logtail 日志组件alibaba-log-controller Helm,这个在官方文档里有安装脚本,我把文档链接贴在下面,在安装组件的过程中会自动创建aliyunloA k qgconfigsR ; 0 A Q CRD,部署alibaba-log-controllerE ; _ m x 2 * &Deployment,最后以 DaemonSet 模式安装 Logtail。然后你就可以在控制台,接入你想要收集的日志了。安装完以后; $ I是这样的:

国内最具影响力科技创投媒体36Kr的容器化之路

Logtail支持采集容器内产生的文本日志,并附加容器的相关元数据信息一起上传到日志服务。KuberneG + q @tes文件采集具备以下功能特点:

  • 只需配置容器内的日志路径,无需关心该路径到宿主机的映射

  • 支持通过Label指定采集的容器

  • 支持通过Label排U 2 a [ % 0 K除特定容器

  • 支持通过环境变量指定采集的容器

  • 支持通过环境变量指定排除的容器

  • 支持多行日志(例如java stack日志)

  • 支持Docker容器数据自动打标签

  • 支持Kubernetes容器数据自动打标签

如果你想了k 2 ^解更多,可以查看阿里云日志服务的官方文档:

https://help.aliyun.com/document_detail/157317.html?spm=a2c4g.11186623j 0 S j V.6.621.193c25f44oLO1V

容器的多租户隔离

我这里所讲的,主要指的是企业内部用户的多租户隔离,而不是指的 SaaS、KaaS 服务模型的多租户P 5 I * v + q j J隔离。

在权限方面,因为我司对4 p q E ^ p X于权限的管控较严格,而 Rancher 恰好提O g , # t _ 8 u供了非常方y U f p 6 V便的基于 集群、项 O V l目、命名空间等多个粒度的权限控制,并且支持我司基于 OpenLDAg * @ 1 s & gP 的, A 认证协议,非常便于管理,我可以给不f [ A同项目组的开发、测试1 z y f _ z c W人员开通相对应的 集群/项目/命名空间的C J o 3 V 0 e n权限。

比如下图,我[ P ] 9可以给集群添加用户、也可以给某个 Projec| 9 G - m | St 添加用户,并且可以指定几个不同的角色,甚至可以自定义角色。

国内最具影响力科技创投媒体36Kr的容器化之路

比如场景1:我可以给 项目组长,分配开? B ! , F $ 9 # ?发环境集群->项目1 所有者(Owner)权限) N i U a,然后项目组长可以自由控制给本项目添加他的成员,并分配相应权c W . 8 i Z z G j限。

场景2:我可以给 测试经理,分配测试集群的所有者(Own& B . P p y 1 X Ler)权限,由测试经理来分配,谁来负责哪个项目的测试部署,以及开发人员只能查看日志等。

在资源方面,一定要进行容器的资源配额设置,如果不设置资源限额,一旦某一个应用出7 7 / ( W V L现了性能问题,将会影响整个 node 节点上的所有应用,K8s 会将, B _ 4 Z m Q 2出现问题的应用调度到其他 node 上,如果| d K r 3 (你的资源不够,将会出现整个系统的瘫痪,导致雪崩。v ^ | : v

国内最具影响力科技创投媒体36Kr的容器化之路

Java 应用的资源配额限制也有一个坑,因为默认 Java 是通过 /proc/meminfo 来获取内存信息的,默认 JVM 会使用系统内存的 25% 作为 Max Heap Size,但是容器内的/proc/meminfo是宿主机只8 e / 0 ] c 读模式挂载到容器里的,所以采取默认值是行不通的,会导致应用超过容: Q 2器限制的内存配额后被OOM,而健康检查又将服务重启,造成应用不断的重启。

那是不是通过手动参数0 O %设置 J~ L m a N 7 q w VVM 内存 = 容器内存限额呢?不行!因为 JVM消耗的内存不仅仅是 Heag R ) : (p,因为 JVM 也是一个应用v & v 6 N U Z w,它需要额外的空间去完成它的工作,你需要配置的限额应该是 Metaspace + Threads + heap + JVM 进程运行所需内存 + 其他数据 关于这块,因为涉及到的内容较多,就不进行展开,感y Z % = 9兴趣的同学可以自己去搜索 一下。

总 结

因为我们的业务场景并不复杂,所以我们的容器化之路,其实走的也相对来讲蛮顺畅的,我们的运维人员很少,只有 2 位,所以我们也没有太多的时间精力去维护太多的自建系统,我们使用了很多的阿里云产品,包括 & 6 Q Q X Rancher,他很方便的部署方式,友好的 UI,包括集成好的监控等等,在容器化之路上给了我们很大的信心。

我们使用构建两层镜像的方式,降低了开发人员的学习复杂度。使用了小体积镜b f T 5像 alpine + 预编译 glibc 减小了镜像体积。提高了部署的时间,在架构上,我们采用了阿里云双区机房的灾备的架构,以及完备的备份方案。使用 Daemonset 部署的日志收集组件,收集到阿里云日志服务,支撑我们 6亿/日的日志系统。Rancher 还提供给了我% u P S - 们深度集成的监控系统、多租户隔离等。还有我们自己踩坑 踩出来的资源配额设置。

其实容器化并不复杂,如果没有 K8s,我们需要自己构` F W * Z d _ e建健康监测G 2 : @. # c 4 s Y统、发版系统、维护不同的主机环境,不能细粒度的进行资源划分,不能更有效的利用计算资源,运维的工作主要是什么?在我看来其实就是 节约成本、提高效率。虚拟化、自动m K k化、智能化、高性能、高可用、高并发 等等,这些无一不是围绕着成本和效率这两个词,而 K8s 其实已经帮7 W 5 b X @我们都做好了,而像) p ^ t % 5 _ H Rancher 这种i b ] 1 . $ x m m编排平台又帮我们降低了 K8s 的学习复杂度,所以你要做的就是加入 K8s,好了,到这里这次的分享就结束了。感谢~

社区QA

Q1:K8S在生产环境的高可用存储方案有推荐吗?

A1:存储方案没有标准答案,我们主要使用阿里云,所以用的是阿里云的块存储,比较常见的方案还有 Ceq 9 B e c [ n / Yph、GlusterFS、Portworx、OpenEBS 等,他们各有优劣,需结合自己的$ / o o 业务需求进行选择

Q2:灰度发布,Kubernetes网络流量可以通过服务网格分流实现J Q P : k j ; Y网络层面的分发,但是涉及到应用大版本的更新时候,涉及到数据库结构的变更的时候,如何实现灰度发布?

A2:没有遇到过这个场景,不过提供一个思路,可以准备两套数据库,网络分流也可以分流到不通数据库,具体需要你O $ 2 O 3 d D Q }自己验证一下是否可行

要分清楚这是两层,一层是逻辑层,一层是数据层,不能混为一谈

Q3:Pipeline是用什么做的?Pipeline下,如何处理同一个分支,需要并行测试多个版本的场景?我用Rancher的Pipeline,局限性比较大,就是同R M q T一个分支无法并行多套进} k ~ / ~ _ R行测试。命名空间在使用,但是同一! , b ; y H X个分支下,命名空间是写在.rancher.yml下的,所以. ^ s / ! f X ^无法区分,Rancher的Pipeline不能在外面注入变量进行区分。

A3:Rancher 的 Pipline 目前还是有一些不够灵活,我们使用的是自建 Jenkins 做 Pipeline 的,并行测试,可以用命名空间等隔离策略进行隔离,或者准备多套测试环境

Q4: 你们运维的Dockerfile和开发的Dockerfile是怎么合并的?

A4:开发的 Dockerfile 是 From 运维的k f N Dockerfile

Q5:你们k8s的漏洞扫描用的什么工具?一般什么级别的镜像漏洞需要进行修复?o y * I t

A5:暂时没有使用漏扫工具,我们主要根据 Rancher 企业服务通L & [ U v知的修复建议进行修复

Q6: 就是比如说从外网,通过service ip能够登陆并且管理容器。想实现这一步必须通过将servF [ Qice ip暴露出来,然后这个service ip怎么暴露出来?麻烦解答一下。

A6:如果需求是管理容器,其实可以使用 Rancher 的用户权限控制,让某一用户拥有某一容器的权限,暴露 service ip 到公网,让用户管理容器是无法实现的

Q6 : 好的,谢谢,我还有一点不明白,这个service ip有什么办法能让他暴露出来呢?你意思是说让不同的用户通过raC q pncher平台去管理不同的容器吗?麻烦再给解答一下,谢谢。

A6:可以使用 NodePort 暴露~ b V # g M ( T I,通过 Node iU I sp 和 端口进行访问,或者使用 公` B I有云的负载均衡产品

Q6 : 我不是这个意思,我是想把s% ) | + N . d Rervice ip暴露出来,不只单单想通过集群内5 % = 3 6 ( R }部访问。

A6:service ip 本K r l m { n来就是 K8s 内部的,暴露不了,只能转发

Q7: 为何没有放在3个可用区,如果可用区H挂掉,是否会导致集群不可访问?

A7:3个可用区当然也是可以k ] 3 7 ( z D E m的,Rancher HA 架构,只要有一个 Server 可用就没有关系

Q8:请教下你们多套开发测试环境的pipeline是怎么样的流程呢 (差异化)?有使用helm template吗,方便讲解= w h Q 3下更多细节么?

A8:目前是通过 Jenkins 部署参数,部署的时候可以选择 命名空间、环境标识u j ~ } M } G W、分支等,通过 sed 修改 template

Q9:请问你们的devops流是怎样的呢?一个环境对应一个docker镜像,还是说test pre prd共用一个docker镜像呢?如果是一个dol S W Kcker镜像共用test pre prd的话是怎么做的呢(比如不同环境的配置以及开发的协‘同开发流)?

A9:我们是用的同一个镜像,部署时通过选择0 o q不同的环境标识参数,程序会自动注入不同环境的配置,需要开发进行一些相应的g % L = 5 h } Z u配置修改

Q10:不大懂容器的资源限制该如何配置,自己配置了感觉不起作用

A10:Rancher 可以在项目、命名空间、Pod 三个粒度进行设置,优先级相反