OT: Czym monitorujecie serwery?

Wed Feb 8 14:11:06 CET 2012

On Wed, 8 Feb 2012, Wojciech Błaszkowski wrote:

> Dnia Wednesday 08 of February 2012, Jacek Osiecki napisał:
>>   - nagios: szybka konfiguracja przez pliki, bezproblemowe rozszerzanie
>>     listy testów za pomocą nrpe (lokalnego agenta), można np. sobie na
>>     każdym serwerze zdefiniować inną listę filesystemów do sprawdzania
>>     wolnego miejsca, inne komendy do sprawdzania poprawności działania
>>     RAIDów (czy to soft, czy hardware), własne testy (np. raportowanie
>>     czy wykonały się nocne backupy). Niestety - wady to trzy stany (OK,
>>     WARNING, ERROR, no dobra - cztery stany bo jest UNKNOWN), brak
>>     możliwości monitorowania wydajności (obciążenie systemu, czasy
>>     odpowiedzi apache'a itp.)

> Byzydura :)
> Za pomocą nagiosa możesz monitorować nawet temperaturę za oknem czy obroty
> wiertarki. Konieczne są 2 rzeczy: monitorowana rzecz z odpalonym Linuksem i
> plugin NRPE. Do obciążenia systemu można stosować choćby wbudowany check_load.
> Generalnie dużą część pluginów można napisać w 2h samemu. Polecam Pythona.
> Nadaje się do tego GENIALNIE.

Nie, nie zrozumieliśmy się :)
To że monitorować można to wiem. Chodzi o to, że nagios może tylko 
powiedzieć że coś się stało (lub dzieje), natomiast pełny monitoring jaki 
się robi np. przy użyciu cacti pozwala na dokładną analizę.
Przykład: przestaje działać strona WWW. Nagios nas o tym poinformuje, 
zobaczymy że było OK i jest CRITICAL, ew. jakiś WARNING po drodze. 
Nawet jeśli inne testy (mysql, obciążenie dysków, ramu) miały po drodze 
warningi nadal jest to korelacja 0/1. Nie wiemy nic o tym czy np. ilość 
zapytań do mysqla nagle wzrosła o 300% czy rosła aż do punktu X gdzie 
został przekroczony próg krytyczny, pamięć się skończyła, system wlazł na 
swapa, mysql przestał odpowiadać na zapytania itd...

> Dla mnie 4 stany w zupełności wystarczają, aby wszcząć czerwony alarm, zerknąć
> na maszynę lub spokojnie pić kawę ;-)

Jasne. Ale jak już się przytrafi awaria, to miło by było mieć wgląd w 
szczegóły danych historycznych by wiedzieć co było (bez)pośrednią 
przyczyną i jak temu zapobiegać.

BTW, dla temperatury 4 wartości (w tym jedna UNKNOWN) to IMHO trochę za 
mało... Dla obecnych np. nie powinno być CRITICAL tylko coś w rodzaju 
OJAPIERD*LE :)

Pozdrawiam,
-- 
Jacek Osiecki joshua w ceti.pl GG:3828944
I don't want something I need. I want something I want.