日志服务(SLS)初体验:采集、加工、查询分析及可视化

日志服务(SLS)初体验:采集、加工、查询分析及可视化

日志服务(SLS)是阿里集团自研的一站式日志平台,它包含数据实时采集、数据加工、智能查询分析以及数据分发四大基础功能,用户无需开发就能能够开箱即用地使用它来提^ o | y +升运维、运营效率,建立 DT 时代海量日志处理能力。

为了让大家对日志服务有更直观的感受,本文将带着大家体验一下这些基础功能,以最常见的 Linux Syslog 作为对象,看看如何简单- 1 Q y q快速地实现* S 8对它的采集、加工、查询@ R ? E 7分析以及可视化。

Linux Sym E nslog

Syslog 是 Unix 类操作系统上非常常见的一M . 7 P I w *种日志,广泛应用于系统日志,但同样可作为应用输出日志的一种形式。# c X : . F在许多 Linux 发行版上,部n u h x ( g Z ;分 Syslog 默认会被存放在本地目录 /var/log/{ j ; E ! % o W 8 中,其中包含 messageskernsecu` Q ( vrU t Q J : ( P 4 5e 等多个分别用于d X h ; k 7 ,存放不同类似日志的文件。

本文将以最常见的 /var/S W Xlog/messag: B Ies 作为实验目标,以下是一些示例日志:

# OOM 日志
[ 1074.669060] Out of memory: Kill process 24 c i f 60680 (perl) score 48K U { / S = a j U7 or sacrifice child
[ 1074.669089] Killed process 20680 (C M d Lperl), UID 0, total-vm:1072528kB,I u / L  V Z anon-rss:943192kB, file-rss:0kB, shmem-rss:0kB
# 应用日志
Mao 3 [r 16 12:04:08 clusterx-master systemd: Removed slice libcontainer_8947_systemd_test_default.slice.
Mar 16 12:04:08 clustf I :erx-master systemd: Scope libcontainer-8952-systemd-test-default-depende ] | o ^ V z Sncies.scope has noP V 3 E x ? 5 PIDs.{ q Y ; { 5 H k Refusing.
# 登录日志(特殊应用)
Mar 13 12W 7 U g D 7:29:25 clusterx-master sshd[13501]: Accepted publickey for root from 192.168.56.1 port 64934 ssh2: RSA SHA256:W8j/QK8kV0Ab8/yTENQko8
Mar 13 12:29:25 clusterx-master ssh( 6 ( 9 _ 3d[13501]:, Z E & } - U | pam_unix(sshd:sest D % c x v / Hsion): session opened for user root by (uid=0)
Mar 13 13:19:08 clustv q q { Rerx-master ssd E _hd[13501]: Rece* d j ?ived disconnect from 192.168.56.1 port 64934:11: disconnected byS H F s , L L 5 $ user
Apr 16 20:00:50 clustW i Gerx-master sshd[718]: pam_unix(sshd:auth): authentication failure; logname= uid=0 euid=0 tty=ssh ruser= rhost=192.168.56.1  user=root
Apr 16 20:00:52 clusterx-master sshd[7M d b p 2 g 7 /18]: Failed password for root from 192.168.56.1 port 54469 ssh2: RSA SHA256:W8j/QK8kV0Ab8/yT. S [ k =ENQko& Z - -8

数据实时采集

首先,我们需要实现对这些日志的采集。由于系统日志需要外部事件触发,产生时机不太确定,因此,我们针对上述的示例日志编写b # A a 1 X了一个生成器以保R o h (证实验过程持续有日志产生。

在机器& } @上运行生成器,即会不断地有日志输出到文件 /var/log/mock_messa0 # | G H $ 7ges

$ mkdir mock-syslog; cd mock-syslc E !  d q H iog
$ wget http://baoze-oss-bj.oss-cn-beijing.aliyuncs.com/mock-syslog/raw_data
$ wget http://baoze-oss-bj.oss-cV Y | O 8 G }n-beiji) s +ng.aliyuncs.com/mock-syslog/mock_messages.py
$ chmod +x mock_messages.pyy . ^ f Y j
$ nohup ./, i D & , G ( 3 *mock_M m { z L * 3 ` ]messages.py /var/log/mock_messages &
$ tail /var/lP # Rog/mock_messages

为了存放日志,我们需要先开通日志服~ ^ v ( M 6 @务,并K x 8 6在控制台上创建相应的 p. & ;roject/logstore,过程可参考快速入门中的步骤 1。对于文本日志,我们可通过 SLS 自研的采集 agent Logtail 来实现采集。

操作步骤如下:

  1. 创建 Logtail 采集配置,选择【单行-文本日志】
    日志服务(SLS)初体验:采集、加工、查询分析及可视化

日志服务(SLS)初体验:采集、加工、查询分析及可视化

  1. 在机器上安装 logtail,对于 ECS 机器,可直接在控制台上进行勾M ] $ ` m J选,点击【立即执行】后即可完成安装
    日志服务(SLS)初体验:采集、加工、查询分析及可视化
  2. 安装完成后,勾选机器 IP 会n _ 7 ` ? A Z D被自动加/ n $ 1入到机器组列Y a - w N n 7 P表中,在填写名称后即可% z * D ~ } D -完成创建机器组创建
    日志服务(SLS)初体验:采集、加工、查询分析及可视化
  3. 填写配置
    日志服务(SLS)初体验:采集、加工、查询分析及可视化
  4. 跟随向导完成配置,点击【立即尝试】进入查询界面
    日志服务(SLS)初体验:采集、加工、查询分析及可视化

数据查询

进入查询界面后,只需稍等一会儿,待采集配置下发到 logtail 后,即可通过点击【查询/分析】按钮浏览日志内容。借助 SLS 针对日志的极致优化,我们可以通过关键词快速地从海量日志中[ ] Q + r查询我们感兴趣的日志。比如:

通过关键词 sshd 查询登录日志

日志服务(SLS)初体验:采集、加工、查询分析及可视化

通过关键词 Out of memory 查询 OOM 日志

日志服务(SLS)初体验:采集、加工、查询分析及可视化

除了基础的关键字查询外,SLS 还提供了 and/or/not 等谓3 f ( V s v q词进行组合查询(文档),能够满足更为丰富的查询场景。

数据加工

在完成数据的采集和查询后a m s,我们会发现,因为日志是单行采集上来的,日志的所有内容都被放在了单一的 content 字段中,相对来说会比较混乱。在这种情况下,我们很难对日志的内容进行进一步地分析,比如有哪些应用输出% H E ( = k $了系统日志、最近Y O ] Y一天是否有应用发生 OOM、发生次数等等。

假设我们期望通过分析日志来得到以下信息:

  1. 哪些进程产生了系统日志,分别产生了多少?如果产生了较多日志的话,可能说明应用存在一些异常?
  2. 其中的哪些应用发生过 OOM ?频繁 OOM- c C $ M ; ) 的应用需要得到关注。
  3. 仅查看进程 sshd 产生的登录日志,检查短时间内是否有较多的密码登h I q U , U / W录失败(可能是入侵攻击)?如果有,IP 和端口是什么

如果要完成上述需求,从数据分析的) T J c ) q ~ q角度来说,我们需要识别出:

  • 每条日志所属的进程名: - Q B { & O
  • 哪些日志是 OOM 日志
  • 哪些日志是 sshd 密码登录失败?

通过数据加工,我们可以非常简单地完成上 { Z s {述需求,通过增加额外的字段来标记对需要识别的内容。

1. 标记 OOM 日志

[ 1074.669060] Out of memory: Kil; $ E { l process 20680 (perl) scoreT s = 487 or sacrifice child5 % I
[ 1074.669089] Killed process 20680 (perl), : E H & : UID 0, t2 0 Y 2 K ] * . Rotal-vm:1072528kz % 7 E p ^B, anon-rs X e bs:943192c 3 a P N W BkB, fie i % p V ile-rss:0kB, shmem-rss:0kB

从示例来看,OOM 日志有两Y 0 3 X个关键字 Out of memoryKilled process,并且都包含了发生 OOM 的进程 ID 和进程名。因此,我们可以通过数据加工 DSL 中的正则提取来完成字段抽取,如下:

# 解析 oom_kill 日志
e_if(op_or(
rx K K F I +egex_match(v("content"), "Out of memory"),
regex_mat2 i v Y K j 6 G gch(v("content"), "Killed process4 e C E X ? 7 O")),
e_compose(
e_set("log_type", "oom_kill"),
e_regex("content", "process (?<pid>[0-9]*) s 4 G((?<process&x $ n t X  @gt;[a-zA-= # v o R O = 5Z0-9_G $ % D]*)\)")))

借助数据加工的预, % 8 N F K V览功能,我们可以快速地判断上面的处理是否满足需求。

测试数据及处理逻辑

日志服务(SLS)初体验:采集、加工、查询分析及可视化

结果

日志服务(SLS)初体验:采集、加工、查询分析及可视化

可以看到,两条日志都z } + $ r ^增加了 log_type:oom_kill 的字段,并通过 processpid 两个字段记录了发生 OOM 的进程名和 PID。

2. 解析 Syslog 基本字段

虽然 SysS v 0 _ jlog 的输出格式并未严v } V x & = D格统一,但大部分 Linux 发行版下,都由时间、主机名、进z p _程名、可选的进程 PID 以及日志内容几部分组成,其中,最后的日志内容完全由应用定义T { 7 i

为了能够分析各个应用输出日志的情况,我G ; J v 9 7 u a }们可以按照上面的格式来对所有日志进行字段提取。类似地,我们借C T U ] N ; m助 DSL 正则提取来实现:

# 解析 syslog 基本字段
e_regex("content", "(?<system_time>[a-zA-Z 0-9:]{15}) (?<hostname>[a-zA-Z0-9\-]*) (?<processe ~ c 9 x x>([a-zA-Z0-9\-]*))(\[(?<pid&# [ # U % Ngt;[0-9]*)\])?: (?<message>.*)8 l U i f 8 e 7")

同样地,借助预览功能进行快速验证,确认日志被提取成我们所期望的 system_timehostnamepr% U : 7 ocesspidmessage 字段。

日志服务(SLS)初体验:采集、加工、查询分析及可视化

3. 丰富登录日志

从前面的y n G t ,示例日志我们可以知道,登录日志的 message 字段内容并不固定,不同内容向我们展示了不同信息,比如:

  • Accepted publo 4 2 @ : C ,ickey 告诉我们有人成功使用密钥完成对某个用户的M & 6 9 D c X登录;
  • Failed password 告诉我们有人使用密码登录某个用户失败;
  • Received disconnect 告诉我们有人断开了连接。

而这些日志同时也有共性,它^ C V们记录了期望登录的用户、登录的 IP、端口等信息。基于这些特点,我们可以6 q _ d对 sshd 的日志进行进一步地处理,提取出这些公共字段,并根据展示内容进行特殊标记。

e_if(e_search('process=="sshd"'),
e_compov l n 8se(
e_regex("content", grok('%{IP:ip}')),
e_regex("content", "port (?<port>[0-9]*)"),
e_if(regex_match(v("contentZ = ? J * x"), "Rec% K s t L a -eived disconR h Fnect from"),
e_set("sshd_action" , "client_disconnect")),
e_if(regex_match(v("contenJ b ] H i f H i yt"), "Failed password"),
e_set("sshd9 b { D * D , u_action" , "client_password_fail")),
e_if(regex_match(v("content"), "Accepted publickey"),
e_set("sshd_a0 E p 4 n 7 k l Pction" , "client_login"))
))

结果如下:

日志服务(SLS)初体验:采集、加工、查询分析及可视化

4. 输出到新目标

在完成了上述所有规则的调试后,我们可以把它们合并在一起,并为处理后的日志指定一4 D i 9 _ } 9 k z个新的 logstore(命名为 processed_syslog,需V = X h Z n d要手动创建)作为输出目标。

在【加工结果页】中,点击【保; 3 r S p存数据加工】即可将规则进行保存。

日志服务(SLS)初体验:采集、加工、查询分析及可视化

日志服务(SLS)初体验:采集、加工、查询分析及可视化

当加工任务启动后,我们就可以在新 logstore 中看到处理后的日志。

数据分析以及可视化

在借助数据加工完成数据处理后0 H H X p `,我们就可以开始前面提到的分析工作了。SLSS ` * W ` J m H 提供了支持 SQL92 标准的分析语法,可以方便地支撑我们完成各类场景下的分析需求。

0. 快速创建索引

为了使用分析 4 i功能,我们首先需要对待分析的字段创建相应的索引,这一过程可以使用控制台提供的自动创建索引功能快速完成。

日志服务(SLS)初体验:采集、加工、查询分析及可视化

日志服务(SLS)初体验:采集、加工、查询分析及可视化

日志服务(SLS)初体验:采集、加工、查询分析及可视化

在创建完索引后,我们就可以使用 SQL 对先前提到的需求进行分析。

1. 分析应用日志分布

not log_type:oom_kill | select process, count(*) as c grou7 l 3 Ip by[ E k x 3 p process order by c desc

通过上面的分析语句,我们即可得到每个进程分别输y D T b . 5出了多少条日志,如下:

日志服务(SLS)初体验:采集、加工、查询分析及可视化

除了最基本的预览图表外,SLS 控制台提供了非常丰富的可视化能力,并且我们能够将对应的可视化图表以仪表盘的形式保存下来。比如使用饼图来呈现上面的结果:

日志服务(SLS)初体验:采集、加工、查询分析及可视化

仪表盘效果

日志服务(SLS)初体验:采集、加工、查询分析及可视化

2. 分析 OOM 应用

统计最近 10 分钟发生h D e W i u c 4 I OOM 的次数,并同比 10 分钟前的情况,以单值图的形式展示。

# 同环比
log_type:oom_kill | select diff[1] as today, round((diff [3] -1.0) * 1_ m v q ~ B00, 2) as growth from (select compare(count, 600) a0 Y Hs diff from (select counx Q ]t(1) as count fro* Z R Vm log))

日志服务(SLS)初体验:采集、加工、查询分析及可视化

查看 OOM 应用分布

log_type:oom_kill and process:* | seld S a Tect procem [ $ x d C Ass, count(*) as c group by process order by c desc

日志服务(SLS)初体验:采集、加工、查询分析及可视化

3. 分析登录失败 IP 分布

process:sshd and sshd_action:client_password_fail | select ip, count(*) as c group by ip order by c desc

日志服务(SLS)初体验:采集、加工、查询分析及可视化

根据 IP 获取来源地(国Z # T V e p * I f家)

process:sshd and sshd_action:client_password_fail | select ip_to_country(ip) as country,= # 1 e e v ! ] sum(c) as c fs w irom(! w [ select ip, count(*) as c from log group by ip order by c desc) group by a N D I m `y countryM o 9 [ n + B & 5

日志服务(SLS)初体验:采集、加工、查询分析及可视化

最终仪表盘效果

日志服务(SLS)初体验:采集、加工、查询分析及可视化

更多示例

https://promotion.4 ] [ m a O O ] maliyun.com/ntms/acD + 8 5 f H St/logdoclist.html