OT: Czym monitorujecie serwery?
Jacek Osiecki
joshua at hybrid.pl
Wed Feb 8 14:11:06 CET 2012
On Wed, 8 Feb 2012, Wojciech Błaszkowski wrote:
> Dnia Wednesday 08 of February 2012, Jacek Osiecki napisał:
>> - nagios: szybka konfiguracja przez pliki, bezproblemowe rozszerzanie
>> listy testów za pomocą nrpe (lokalnego agenta), można np. sobie na
>> każdym serwerze zdefiniować inną listę filesystemów do sprawdzania
>> wolnego miejsca, inne komendy do sprawdzania poprawności działania
>> RAIDów (czy to soft, czy hardware), własne testy (np. raportowanie
>> czy wykonały się nocne backupy). Niestety - wady to trzy stany (OK,
>> WARNING, ERROR, no dobra - cztery stany bo jest UNKNOWN), brak
>> możliwości monitorowania wydajności (obciążenie systemu, czasy
>> odpowiedzi apache'a itp.)
> Byzydura :)
> Za pomocą nagiosa możesz monitorować nawet temperaturę za oknem czy obroty
> wiertarki. Konieczne są 2 rzeczy: monitorowana rzecz z odpalonym Linuksem i
> plugin NRPE. Do obciążenia systemu można stosować choćby wbudowany check_load.
> Generalnie dużą część pluginów można napisać w 2h samemu. Polecam Pythona.
> Nadaje się do tego GENIALNIE.
Nie, nie zrozumieliśmy się :)
To że monitorować można to wiem. Chodzi o to, że nagios może tylko
powiedzieć że coś się stało (lub dzieje), natomiast pełny monitoring jaki
się robi np. przy użyciu cacti pozwala na dokładną analizę.
Przykład: przestaje działać strona WWW. Nagios nas o tym poinformuje,
zobaczymy że było OK i jest CRITICAL, ew. jakiś WARNING po drodze.
Nawet jeśli inne testy (mysql, obciążenie dysków, ramu) miały po drodze
warningi nadal jest to korelacja 0/1. Nie wiemy nic o tym czy np. ilość
zapytań do mysqla nagle wzrosła o 300% czy rosła aż do punktu X gdzie
został przekroczony próg krytyczny, pamięć się skończyła, system wlazł na
swapa, mysql przestał odpowiadać na zapytania itd...
> Dla mnie 4 stany w zupełności wystarczają, aby wszcząć czerwony alarm, zerknąć
> na maszynę lub spokojnie pić kawę ;-)
Jasne. Ale jak już się przytrafi awaria, to miło by było mieć wgląd w
szczegóły danych historycznych by wiedzieć co było (bez)pośrednią
przyczyną i jak temu zapobiegać.
BTW, dla temperatury 4 wartości (w tym jedna UNKNOWN) to IMHO trochę za
mało... Dla obecnych np. nie powinno być CRITICAL tylko coś w rodzaju
OJAPIERD*LE :)
Pozdrawiam,
--
Jacek Osiecki joshua w ceti.pl GG:3828944
I don't want something I need. I want something I want.
More information about the pld-devel-pl
mailing list