Co może doskwierać mojemu serwerkowi? [Ac]

Łukasz Maśko masko w ipipan.waw.pl
Wto, 9 Lut 2010, 11:36:41 CET


Dnia wtorek, 9 lutego 2010, Mateusz Korniak napisał:
> On Monday 08 of February 2010, Łukasz Maśko wrote:
> > Ale dziwne by było,
> > gdyby uszkodzenie dysku było tak nietypowe, ze wychodzi po dość długim
> > jednak czasie pracy.
> 
> Mi się też tak wydawało, aż zacząłem dyski monitorować via SMART ;)
> Pokaż moze smartctl -a /dev/sdX ?

Obydwa dyski są wiekowe i rzeczywiście, mogą się psuć. Ale nie widziałem 
błędów zapisu w logach ani na ekranie. Pierwsze by nie było dziwne, jeśli 
dysk nawalił, teraz przekonfiguruję sysloga i przerzucę logi na komputer 
obok. A drugie - syslog by się od razu pluł i to non stop, jeśli by nie mógł 
zapisywać nic na dysk.
Pierwszy dysk nie obsługuje testów i logowania błędów SMART-a, a na nim 
siedzi system, logi i swap. Drugi dysk jest tylko na userów, tutaj jest coś 
co może niepokoić (fragment):

smartctl version 5.38 [i586-pld-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG SV1363D
Serial Number:    0172J1FKB00417
Firmware Version: MC100-31
User Capacity:    13,672,931,328 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   4
ATA Standard is:  ATA/ATAPI-4 T13 1153D revision 17
Local Time is:    Tue Feb  9 11:27:43 2010 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: 
Disabled.
Self-test execution status:      ( 244) Self-test routine in progress...
                                        40% of test remaining.
Total time to complete Offline
data collection:                 ( 720) seconds.
Offline data collection
capabilities:                    (0x1b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off 
support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  12) minutes.

SMART Attributes Data Structure revision number: 9
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  
WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   051    Old_age   Always       
-       92
  4 Start_Stop_Count        0x0032   097   097   000    Old_age   Always       
-       3324
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       
-       0
  7 Seek_Error_Rate         0x000a   253   253   051    Old_age   Always       
-       0
  8 Seek_Time_Performance   0x0024   253   253   000    Old_age   Offline      
-       0
  9 Power_On_Half_Minutes   0x0032   096   096   000    Old_age   Always       
-       24369h+52m
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       
-       2092
197 Current_Pending_Sector  0x0032   253   253   010    Old_age   Always       
-       0
198 Offline_Uncorrectable   0x0030   253   253   010    Old_age   Offline      
-       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       
-       0
200 Multi_Zone_Error_Rate   0x000a   100   100   051    Old_age   Always       
-       0
201 Soft_Read_Error_Rate    0x000a   100   100   051    Old_age   Always       
-       0

SMART Error Log Version: 1
Warning: ATA error count 194 inconsistent with error log pointer 3

ATA Error Count: 194 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 194 occurred at disk power-on lifetime: 24347 hours (1014 days + 11 
hours)
  When the command that caused the error occurred, the device was active or 
idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 88 00 01 00 00 a0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  a1 ff 00 01 00 00 a0 00      06:27:35.000  IDENTIFY PACKET DEVICE
  20 ff 01 01 00 00 a0 00      06:27:35.000  READ SECTOR(S)
  b0 d2 00 00 4f c2 a0 00      06:27:35.000  SMART ENABLE/DISABLE ATTRIBUTE 
AUTOSAVE
  b0 d8 3f 00 4f c2 a0 00      06:27:35.000  SMART ENABLE OPERATIONS
  91 ff 3f 00 00 00 af 00      06:27:35.000  INITIALIZE DEVICE PARAMETERS 
[OBS-6]
[...]

Jeśli informacje podawane są poprawnie i je dobrze rozumiem, to dysk ma 
łączny czas pracy ponad 24369h, a ostatni błąd zdarzył się po czasie 
2432434747h, czyli 22 godziny wcześniej. System teraz ma uptime ponad 24h, 
czyli powyższy błąd by powstał już w trakcie pracy. To dziwne, bo od 
włączenia systemu nie mam z nim żadnych problemów. Albo to jest reakcja na 
próbę włączenia jakiegoś parametru i wcale nie musi to być błąd (takie mam 
wrażenie).
-- 
Łukasz Maśko                                           GG:   2441498    _o)
Lukasz.Masko(at)ipipan.waw.pl                                           /\\
Registered Linux User #61028                                           _\_V
Ubuntu: staroafrykańskie słowo oznaczające "Nie umiem zainstalować Debiana"


Więcej informacji o liście dyskusyjnej pld-users-pl