用于報警的監控系統不同于測量數據采集系統,Nagios就是一個常常和測量數據采集系統配合使用的監控報警工具。
測量數據采集系統專注于數據采集的好處,是有能力發現那些相關點(Integrationpoints),對這些點的異常值進行報警。Flickr使用Ganglial作為測量數據采集系統,Nagios作為監控及報警系統。在某些情況下,將兩者緊密結合起來,以建立復雜的報警條件。使Nagios.感知Ganglia采集的數據,就可以具有更為高級的監控手段,這樣,不僅單點達到閾值(threshold)時會產生異常,在滿足多值亞閾值模式(multiple-valuesubthresholdpattem)的情況下,也會產生異常。
例如,假設一個運行Apache的Web服務器集群,這些Web服務器訪問運行MYSQL或Poster的后端數據庫,獲取信息生成頁面。一個經常發生的情況是數據庫查詢運行時間太長,且原因不明,這樣,由于連接不能盡快關閉,數據庫總的活動連接數就會增加。結果是,在這些連接上等待的Apache進程也會增加。由于Web服務器和數據庫的進程數都有大值的限制,所以要分別設置Web服務器和數據庫的警告(warning)和緊急(critical)閾值,將閾值分別設置為大值的某個合適的百分比。
對Web服務器和數據庫集群中的每個節點的每個值(Apache的忙碌進程和數據庫的打開連接)有異常都要報警嗎?假如這種異常只發生在一臺數據庫(或一個數據庫集群),或一部分Web服務器上,會怎么樣呢?Flickr的做法是將Ganglia采集的各種數據集成到Nagios,我們就能夠做靈活的報警設置,即忙碌的Web服務器(指忙碌的Apache進程數達到緊急閾值的Web服務器)的數量達到一定百分比時,才報警,也僅在忙碌的數據庫服務器(指忙碌的連接數達到緊急國值的數據庫服務器)的數量達到一定百分比時,才報警。
能夠處理這些甚至更復雜的系統與數據的耦合,意味著降低了報警的噪聲,只在發生眾所周知而又復雜的情況時,呼機才會在半夜三更響起來。
另一個例子是對值的飆升進行報警,報警系統不像采集系統那樣記錄了歷史數據的細節。例如,如果應用程序提供了照片或視頻上載的功能,使用模式也相對正常(如每日的波峰和波谷),而且對高低線上的變化能夠報警,在美國東海岸進入夢鄉時,你可能會料想到照片上載量會下降,日峰和日谷之間的變化可能會達到40%。但你會想到一小時之內上載量會下降409%嗎?不是下降到0,而是短時間之內的劇烈下降!這種情況就值得報警。
這種將
網站建設監控系統和采集系統集成起來的做法很常見,這方面有大量的開放源代碼項目和文檔:
集成Nagios (http://www.monitoringexchangeorg/inventory/check-pluginsSoftware/Misc/checkganglia)
Nagios和 Cacti(http://trac2.assemblacom/npc/)
Nagios和munin(ht://munin-monitoring.org/wiki/Howtocontactnagios
開放源代碼GroundWork(集成Nagios、Ganglia、Cacti,http//www.groundwork-pensource.com/community/open-source/).
文章題目:如何給測量數據加入報警機制?
標題來源:http://newbst.com/news/139628.html
成都網站建設公司_創新互聯,為您提供網站營銷、定制網站、網站制作、關鍵詞優化、網站策劃、做網站
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯