Centos6.10下Open-falcon學習記錄（三）——log監控外掛falcon-log-agent

阿新 • • 發佈：2018-11-13

這篇主要是記錄學習一個滴滴公司開發的日誌監控元件用於監控系統的日誌採集agent，可無縫對接open-falcon

1 安裝

go get安裝，肥腸簡單

go get github.com/didi/falcon-log-agent
cd $GOPATH/src/github.com/didi/falcon-log-agent
make build

cp cfg/dev.cfg cfg/cfg.json
cp cfg/strategy.dev.json cfg/strategy.json

make pack
mkdir ~/open-falcon/falcon-log-agent
tar -xzvf falcon-log-agent.tar.gz -C ~/open-falcon/falcon-log-agent

2 測試

這個外掛一共有兩個配置檔案，第一個是cfg.json，是外掛的自身配置，第二個是strategy.json，配置你要監控的日誌資訊

cfg.json我基本都默認了，有一個log_level可以改成DEBUG，輸出一些DEBUG資訊方便除錯

strategy.json預設

官方提供了一個api用來檢測策略是否可以匹配日誌的，命令如下

./control start  #啟動
curl -s -XPOST localhost:8003/check -d  'log=01/Jan/2018:12:12:12 service error 500, num=10 province=33' | python -m json.tool  #測試這行日誌是否能匹配當前策略

按照預設策略，這行日誌應該是可以匹配到的，然而，我看到了如下的返回

我仔細觀察了官方提供的預設策略

= =行吧，這裡要求匹配的是空白符，給的例子是province=33，修改測試命令

curl -s -XPOST localhost:8003/check -d 'log=01/Jan/2018:12:12:12 service error 500, num=10 province= ' | python -m json.tool

成功了

3 監控

準備用於測試的檔案是open-falcon的agent日誌檔案，如下

就採集那個每一行的Total好了

vim cfg/strategy.json

#建立一個新的日誌監控如下
[
    {
        "id":1,
        "name":"agent send num",
        "file_path":"/home/tuan/open-falcon/agent/logs/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"",
        "step":60,
        "tags":{
            "type":"log",
            "file":"/home/tuan/open-falcon/agent/logs/app.log"
        },
        "func":"cnt",
        "degree":6,
        "comment":""
    }
]

這個元件提供了http服務檢視自身資訊，預設埠是8003，定義在cfg/cfg.json裡，可以按照需要修改，需要修改防火牆設定暴露埠

#開啟一下防火牆的8003埠
sudo vi /etc/sysconfig/iptables
#在開放22埠的下一行新增如下規則
#-A INPUT -p tcp -m state --state NEW -m tcp --dport 8003 -j ACCEPT
sudo service iptables restart

開啟http://IP:8003/health，就可以看見他的執行狀態，介面大氣簡潔

api大概就是下面這幾個：

/health ：自身存活狀態
/strategy ：當前生效的策略列表
/cached ：最近1min內上報的點

執行，發現完蛋，啥都沒有

嘗試一下命令，返回為空

curl -s -XPOST localhost:8003/check -d 'log=2018/10/11 14:01:11 var.go:109: <= <Total=6, Invalid:0, Latency=0ms, Message:ok>' | python -m json.tool

實在無奈，在原始碼裡插了幾個fmt，調的是http/check.go裡的函式matchedStrategy()，程式碼裡的fmt都是我寫的

func matchedStrategy(content string, strategy *scheme.Strategy) (bool, map[string]string) {
        fmt.Print("content is ");fmt.Println(content)
        var detail = make(map[string]string, 0)
        valid, patMap := getRegsFromOneStrategy(strategy)
        if !valid {
                return false, map[string]string{}
        }

        for key, pat := range patMap {
                fmt.Print("key is ");fmt.Println(key)
                fmt.Print("pat is ");fmt.Println(pat)
                reg, err := regexp.Compile(pat)
                fmt.Print("reg is ");fmt.Println(reg)
                if err != nil {
                        return false, map[string]string{}
                }
                l := reg.FindStringSubmatch(content)
                fmt.Println(l)
                if len(l) == 0 {
                        if key != "exclude_" {
                                return false, map[string]string{}
                        }
                        detail[key] = ""
                        continue
                }
                detail[key] = l[0]
        }

        return true, detail
}

這個外掛把標準輸出定向到log/app.log這個檔案了，開啟一看，發現問題，他居然把我配置的tags裡面的東西也當成了pattern，要求匹配

也就是說，strategy.json這個配置裡的tags必須也是從日誌檔案中可以匹配到的一個正則表示式，不是直接配置的

再來看一下官方配置，tags裡的provice也是從日誌中匹配到的

不能寫死

於是我去掉了tag，重新修改一下策略

vim cfg/strategy.json

#建立一個新的日誌監控如下
[
    {
        "id":1,
        "name":"agent send num",
        "file_path":"/home/tuan/open-falcon/agent/logs/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"",
        "step":60,
        "tags":{
        },
        "func":"cnt",
        "degree":6,
        "comment":""
    }
]

可以匹配到了

去open-falcon那裡看一眼，Counter出來了！！

影象也有了，但是我配置的採集只是單純計數，即每次有多少行日誌符合我設定的pattern

做一點進階的有意義的事情

agent的日誌如下，每傳送一堆監控資料就會列印兩條日誌，Total後面的數字是相等的，這個數字我估計就是每次傳送的監控資料個數（不是也沒有關係，假設他是就可以了）

現在我需要知道每60秒agent傳送的監控資料個數，可以用日誌監控外掛提供的sum這個函式，還需要排除掉重複的一條日誌（我打算把Invalid那一行排除掉，只保留Endpoint開頭的）

好了，繼續修改策略

vim cfg/strategy.json

#建立一個新的日誌監控如下
[
    {
        "id":1,
        "name":"agent send num",
        "file_path":"/home/tuan/open-falcon/agent/logs/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"Invalid",
        "step":60,
        "tags":{
        },
        "func":"sum",
        "degree":6,
        "comment":""
    }
]

資料出來了，不過日誌滾的太多，不知道採集的資料對不對，為了學術，我進行了更嚴謹的測試

4 嚴謹的測試

用一個指令碼生成一個模擬的日誌，往模擬日誌檔案裡插入給定的資訊，看一下監控採集到的資料是否正確

生成模擬日誌指令碼如下，簡單粗暴

#!/bin/bash
echo '2018/10/11 14:03:00 var.go:109: <= <Total=8, Invalid:0, Latency=0ms, Message:ok>'  >> agent.log
echo '2018/10/11 14:03:11 gpu.go:31: Initialize error:  could not load NVML library'  >> agent.log
echo '2018/10/11 14:03:11 var.go:102: => <Total=120> <Endpoint:open-falcon-server, Metric:agent.alive, Type:GAUGE, Tags:, Step:60, Time:1539237791, Value:1>'  >> agent.log
echo '2018/10/11 14:03:11 var.go:102: => <Total=7> <Endpoint:open-falcon-server, Metric:df.bytes.free.percent, Type:GAUGE, Tags:mount=/,fstype=ext4, Step:60, Time:1539237791, Value:32.156528701007986>'  >> agent.log
echo '2018/10/11 14:03:11 var.go:109: <= <Total=120, Invalid:0, Latency=2ms, Message:ok>'  >> agent.log
echo '2018/10/11 14:03:11 var.go:109: <= <Total=7, Invalid:0, Latency=0ms, Message:ok>'  >> agent.log
echo '2018/10/11 14:03:11 var.go:102: => <Total=6> <Endpoint:open-falcon-server, Metric:ss.estab, Type:GAUGE, Tags:, Step:60, Time:1539237791, Value:48>'  >> agent.log
echo '2018/10/11 14:03:11 var.go:109: <= <Total=6, Invalid:0, Latency=0ms, Message:ok>'  >> agent.log
echo '2018/10/11 14:04:00 var.go:102: => <Total=8> <Endpoint:open-falcon-server, Metric:value, Type:GAUGE, Tags:name=pfc.push.size, Step:60, Time:1539237840, Value:8>'  >> agent.log

sleep 70

echo '2018/10/11 14:01:11 var.go:102: => <Total=7> <Endpoint:open-falcon-server, Metric:df.bytes.free.percent, Type:GAUGE, Tags:mount=/,fstype=ext4, Step:60, Time:1539237671, Value:32.15721132115766>'  >> agent.log
echo '2018/10/11 14:01:11 var.go:109: <= <Total=120, Invalid:0, Latency=0ms, Message:ok>'  >> agent.log
echo '2018/10/11 14:01:11 var.go:109: <= <Total=7, Invalid:0, Latency=0ms, Message:ok>'  >> agent.log
echo '2018/10/11 14:01:11 var.go:102: => <Total=6> <Endpoint:open-falcon-server, Metric:ss.estab, Type:GAUGE, Tags:, Step:60, Time:1539237671, Value:48>'  >> agent.log

第一次採集到的資料總和應該是120+7+6+8=141，第二次採集到的資料總和應該是 7+6=13

把strategy.json裡的路徑改成我們的模擬日誌，然後執行指令碼生成模擬日誌

睿智的人肯定不需要去等待open-falcon的影象，直接看外掛的log/INFO日誌

cat log/INFO.log | grep endpoint

看到如下的push資訊，數值正確

現在來嘗試一下所有的函式，目前log外掛一共支援5個函式

cnt：計數，匹配規則的日誌條數
avg：平均數，匹配規則的資料平均值
sum：和，匹配規則的資料和
max：最大值，匹配規則的最大資料
min：最小值，匹配規則的最小資料

最終使用的strategy.json檔案如下

[
    {
        "id":1,
        "name":"agent total sum",
        "file_path":"/home/tuan/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"Invalid",
        "step":60,
        "tags":{
        },
        "func":"sum",
        "degree":6,
        "comment":""
    },
    {
        "id":2,
        "name":"agent total min",
        "file_path":"/home/tuan/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"Invalid",
        "step":60,
        "tags":{
        },
        "func":"min",
        "degree":6,
        "comment":""
    },
    {
        "id":3,
        "name":"agent total max",
        "file_path":"/home/tuan/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"Invalid",
        "step":60,
        "tags":{
        },
        "func":"max",
        "degree":6,
        "comment":""
    },
    {
        "id":4,
        "name":"agent total cnt",
        "file_path":"/home/tuan/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"Invalid",
        "step":60,
        "tags":{
        },
        "func":"cnt",
        "degree":6,
        "comment":""
    },
    {
        "id":5,
        "name":"agent total avg",
        "file_path":"/home/tuan/agent.log",
        "time_format":"yyyy/mm/dd HH:MM:SS",
        "pattern":"Total=(\\d+)",
        "exclude":"Invalid",
        "step":60,
        "tags":{
        },
        "func":"avg",
        "degree":6,
        "comment":""
    }
]

看一下各項指標，都正確

Centos6.10下Open-falcon學習記錄（二）——Mysql監控

記錄了學習過程，官方文件地址http://book.open-falcon.org/zh_0_2/usage/getting-started.html 另外還看了Open-falcon作者的寫的設計理念的文，見open-falcon編寫的整個腦洞歷程 1 Mysql監控通過mymon(

Centos6.10下Open-falcon學習記錄（三）——log監控外掛falcon-log-agent

這篇主要是記錄學習一個滴滴公司開發的日誌監控元件用於監控系統的日誌採集agent，可無縫對接open-falcon 1 安裝 go get安裝，肥腸簡單 go get github.com/didi/falcon-log-agent cd $GOPATH/src/github.com/d

Centos6.10下Open-falcon學習記錄（零）——主機監控、Nodata元件、叢集監控

記錄了學習過程，官方文件地址http://book.open-falcon.org/zh_0_2/usage/getting-started.html 另外還看了Open-falcon作者的寫的設計理念的文，見open-falcon編寫的整個腦洞歷程 1 主機監控 1.1 主機配置

Centos6.10下Open-falcon學習記錄（一）——自定義資料採集、歷史查詢、程序監控

記錄了學習過程，官方文件地址http://book.open-falcon.org/zh_0_2/usage/getting-started.html 另外還看了Open-falcon作者的寫的設計理念的文，見open-falcon編寫的整個腦洞歷程 1 自定義資料採集自定義的資料要求

BigData 學習記錄（三）

如果 lock 都沒有 stream 節點信息 nod 存在物理 master/slave主從結構： HDFS是一個 master/slave的架構。HDFS只有一個NameNode，即master。master負責管理文件系統命名空間和client對文件的訪問。此外，

Uferryman FCC學習記錄（三）—— jQuery

dto query ndt 子節點 nth 註意 tex cnblogs app 1.jQuery基本了解：　　JQuery是一個開源的JavaScript庫，創始人John Resig 2.jQuery的開始準備：　　$(document).ready(functio

CentOS初步學習記錄（三）Wget文件下載和Sed文件處理

下載速度 file 文件 socket cut inux 調試數據行 use mozilla 一、wget 命令 wget命令用來從指定的URL下載文件，wget非常穩定，它在帶寬很窄的情況下和不穩定網絡中有很強的適應性，如果是由於網絡的原因下載失敗，wget會不斷

python學習記錄（三）

負數 python 連接 ear tag 最小值 mage 整數指向 0827--https://www.cnblogs.com/fnng/archive/2013/02/24/2924283.html 通用序列操作索引序列中的所有元素都是有編號的--從0開始遞增

圖解HTTP學習記錄（三）

HTTP報文內的資訊用於 HTTP 協議互動的資訊被稱為 HTTP 報文。請求端（客戶端）的 HTTP 報文叫做請求報文，響應端（服務器端）的叫做響應報文。HTTP 報文字身是由多行（用 CR+LF 作換行符）資料構成的字串文字。 HTTP 報文大致可分為報文首部和報文主體

不平等博弈問題學習記錄（三）

今天寫的這一篇文章離寫第一篇文章的時間可能有幾天了，並且在這段時間裡也有人向我提出了我錯誤的地方，現已作更改。今天，我們又做到了一道題目，也是不平等博弈的，聽了講題，我對不平等博弈有了更深的理解。首先，不平等博弈，或者說是一個遊戲，一直以來我覺得都可以用超實數來做，但今天我發現，

Spark學習記錄（三）核心API模組介紹

spark ------------- 基於hadoop的mr，擴充套件MR模型高效使用MR模型，記憶體型叢集計算，提高app處理速度。 spark特點 ------------- 速度:在記憶體中儲存中間結果。支援多種語言。Scala、Java、Python 內建了80+的運算元. 高階分析

neo4j 學習記錄（三）-資料匯入

neo4j-import 1.使用條件關閉neo4j 無法在原有資料庫新增，只能重新生成一個數據庫匯入檔案格式為csv 2.引數 --into：資料庫名稱 --bad-tolerance：能容忍的錯誤資料條數（即超過指定條數程式直接掛掉），預設1000 --mul

Quartz 監控學習記錄（三）配置檔案配置項的含義

quartz.properties #org.quartz.jobStore.class = org.quartz.simpl.RAMJobStore #=================================================

js學習記錄（三）《js高階程式設計》讀書筆記2

今天開始讀第三章——基本概念：接下來說明了一些細節，包括語法，區分大小寫，識別符號，註釋，嚴格模式？等等。這一部分在程式設計的過程中自然會注意到。接下來是重要的內容： 3.3變數：這裡跟原來對變數的直覺理解是不一樣的。原來會把變數想象成是一個盒子，盒子

SpringBoot學習記錄（三）——整合Mybatis

以前整合了Spring+SpringMVC+Mybatis，今天用SpringBoot整合了Mybatis，發現這個比之前的SSM的整合方便的太多，省去大量的配置檔案，也許是我還沒用到很深入吧，話不多說，直接進入正題。 1、建立一個SpringBoot專案： 2、下一步：

libsvm學習記錄（三）svm引數尋優

基於GridSearch的svm引數尋優 http://www.matlabsky.com/thread-12411-1-1.html 還有以下兩種沒有解釋只有程式碼直接見原連結交叉驗證(CrossValidation)方法思想簡介以下簡稱交叉驗證(Cross

Kotlin學習記錄（三）—— 子執行緒獲取資料，實現簡單ListView

上一篇簡單介紹了Kotlin的一些基礎構成，當然還有像物件宣告、操作符等等都未涉及到，這些會在以後用到的過程中進行詳細說明。專案中ListView列表出現的頻率是很高的，我們就以實現一個簡單ListView為目標，介紹一下在子執行緒中獲取資料等問題。首先在la

TI-TM4C123x學習記錄（三）：系統時鐘設定

一、呼叫函式ROM_SysCtlClockSet或SysCtlClockSet二、引數（本段資料來源於網際網路）系統時鐘設定函式為：void SysCtlClockSet(unsigned long ulConfig) ulConfig：時鐘配置字，應當取下列各組數值之間的“

JAVA學習記錄（三）——Java 流(Stream)、檔案(File)和IO

簡介 Java.io包幾乎包含了所有操作輸入、輸出需要的類。所有這些流類代表了輸入源和輸出目標。 Java.io包中的流支援很多種格式，比如：基本型別、物件、本地化字符集等等。一個流可以理解為一個數據的序列。輸入流表示從一

計算機圖形學學習記錄（三）Breseham畫線演算法

Breseham演算法首先為了方便直接看演算法程式碼的朋友直接看核心程式碼和結果，在這裡直接貼出演算法程式碼。 void DDADrawLine::BreasehamDrawLine(int x0, int y0, int x1, int y1) {

Centos6.10下Open-falcon學習記錄（三）——log監控外掛falcon-log-agent

1 安裝

2 測試

3 監控

不能寫死

4 嚴謹的測試

相關推薦