Dysk siada czy problem z kablem?

Śro, 12 Paź 2011, 22:18:22 CEST

W sumie pierwszy raz spotykam się z czymś takim, więc nie do końca rozumiem, 
o co w tym chodzi. Może mnie oświecicie.

Wsadziłem do stacji roboczej dysk, który wcześniej pracował u mnie w domowym 
NAS-ie. Dysk to SAMSUNG SpinPoint T133 HD300LJ. Dysk popracował trochę i 
wydawało się, że nie ma problemów. Ale któregoś dnia okazało się, że jest 
zonk, w logach (zapisywanych na innym dysku) pojawiło się takie coś 
(długie):

Oct  5 02:49:05 geralt kernel: [2279973.798700] ata2.00: exception Emask 0x0 
SAct 0x3 SErr 0x0 action 0x6 frozen
Oct  5 02:49:05 geralt kernel: [2279973.798706] ata2.00: failed command: 
WRITE FPDMA QUEUED
Oct  5 02:49:05 geralt kernel: [2279973.798713] ata2.00: cmd 
61/20:00:d8:18:72/00:00:11:00:00/40 tag 0 ncq 16384 out
Oct  5 02:49:05 geralt kernel: [2279973.798714]          res 
40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  5 02:49:05 geralt kernel: [2279973.798717] ata2.00: status: { DRDY }
Oct  5 02:49:05 geralt kernel: [2279973.798720] ata2.00: failed command: 
WRITE FPDMA QUEUED
Oct  5 02:49:05 geralt kernel: [2279973.798726] ata2.00: cmd 
61/20:08:00:19:72/00:00:11:00:00/40 tag 1 ncq 16384 out
Oct  5 02:49:05 geralt kernel: [2279973.798727]          res 
40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  5 02:49:05 geralt kernel: [2279973.798730] ata2.00: status: { DRDY }
Oct  5 02:49:05 geralt kernel: [2279973.798736] ata2: hard resetting link
Oct  5 02:49:10 geralt kernel: [2279979.132014] ata2: link is slow to 
respond, please be patient (ready=0)
Oct  5 02:49:15 geralt kernel: [2279983.825356] ata2: COMRESET failed 
(errno=-16)
Oct  5 02:49:15 geralt kernel: [2279983.825361] ata2: hard resetting link
Oct  5 02:49:20 geralt kernel: [2279989.158677] ata2: link is slow to 
respond, please be patient (ready=0)
Oct  5 02:49:25 geralt kernel: [2279993.852012] ata2: COMRESET failed 
(errno=-16)
Oct  5 02:49:25 geralt kernel: [2279993.852018] ata2: hard resetting link
Oct  5 02:49:30 geralt kernel: [2279999.185344] ata2: link is slow to 
respond, please be patient (ready=0)
Oct  5 02:50:00 geralt kernel: [2280028.892008] ata2: COMRESET failed 
(errno=-16)
Oct  5 02:50:00 geralt kernel: [2280028.892015] ata2: limiting SATA link 
speed to 1.5 Gbps
Oct  5 02:50:00 geralt kernel: [2280028.892018] ata2: hard resetting link
Oct  5 02:50:05 geralt kernel: [2280033.905350] ata2: COMRESET failed 
(errno=-16)
Oct  5 02:50:05 geralt kernel: [2280033.905356] ata2: reset failed, giving 
up
Oct  5 02:50:05 geralt kernel: [2280033.905358] ata2.00: disabled
Oct  5 02:50:05 geralt kernel: [2280033.905363] ata2.00: device reported 
invalid CHS sector 0
Oct  5 02:50:05 geralt kernel: [2280033.905366] ata2.00: device reported 
invalid CHS sector 0
Oct  5 02:50:05 geralt kernel: [2280033.905375] ata2: EH complete
Oct  5 02:50:05 geralt kernel: [2280033.905392] sd 1:0:0:0: [sdb] Unhandled 
error code
Oct  5 02:50:05 geralt kernel: [2280033.905395] sd 1:0:0:0: [sdb]  Result: 
hostbyte=0x04 driverbyte=0x00
Oct  5 02:50:05 geralt kernel: [2280033.905398] sd 1:0:0:0: [sdb] CDB: 
cdb[0]=0x2a: 2a 00 11 72 19 00 00 00 20 00
Oct  5 02:50:05 geralt kernel: [2280033.905408] end_request: I/O error, dev 
sdb, sector 292690176
Oct  5 02:50:05 geralt kernel: [2280033.905422] sd 1:0:0:0: [sdb] Unhandled 
error code
Oct  5 02:50:05 geralt kernel: [2280033.905424] sd 1:0:0:0: [sdb]  Result: 
hostbyte=0x04 driverbyte=0x00
Oct  5 02:50:05 geralt kernel: [2280033.905427] sd 1:0:0:0: [sdb] CDB: 
cdb[0]=0x2a: 2a 00 11 72 18 d8 00 00 20 00
Oct  5 02:50:05 geralt kernel: [2280033.905435] end_request: I/O error, dev 
sdb, sector 292690136
Oct  5 02:50:05 geralt kernel: [2280033.905454] Aborting journal on device 
sdb1.
Oct  5 02:50:05 geralt kernel: [2280033.905456] sd 1:0:0:0: [sdb] Unhandled 
error code
Oct  5 02:50:05 geralt kernel: [2280033.905459] sd 1:0:0:0: [sdb]  Result: 
hostbyte=0x04 driverbyte=0x00
Oct  5 02:50:05 geralt kernel: [2280033.905462] sd 1:0:0:0: [sdb] CDB: 
cdb[0]=0x2a: 2a 00 10 f3 c8 00 00 00 08 00
Oct  5 02:50:05 geralt kernel: [2280033.905471] end_request: I/O error, dev 
sdb, sector 284411904
Oct  5 02:50:05 geralt kernel: [2280033.905475] Buffer I/O error on device 
sdb1, logical block 35551232
Oct  5 02:50:05 geralt kernel: [2280033.905477] lost page write due to I/O 
error on sdb1
Oct  5 02:50:05 geralt kernel: [2280033.905503] sd 1:0:0:0: [sdb] Unhandled 
error code
Oct  5 02:50:05 geralt kernel: [2280033.905505] sd 1:0:0:0: [sdb]  Result: 
hostbyte=0x04 driverbyte=0x00
Oct  5 02:50:05 geralt kernel: [2280033.905508] sd 1:0:0:0: [sdb] CDB: 
cdb[0]=0x2a: 2a 00 11 70 18 10 00 00 08 00
Oct  5 02:50:05 geralt kernel: [2280033.905516] end_request: I/O error, dev 
sdb, sector 292558864
Oct  5 02:50:05 geralt kernel: [2280033.905518] Buffer I/O error on device 
sdb1, logical block 36569602
Oct  5 02:50:05 geralt kernel: [2280033.905520] lost page write due to I/O 
error on sdb1
Oct  5 02:50:05 geralt kernel: [2280033.905526] JBD: I/O error detected when 
updating journal superblock for sdb1.
Oct  5 02:50:05 geralt kernel: [2280033.905537] journal commit I/O error
Oct  5 02:50:05 geralt kernel: [2280033.906651] EXT3-fs (sdb1): error: 
ext3_journal_start_sb: Detected aborted journal
Oct  5 02:50:05 geralt kernel: [2280033.906654] EXT3-fs (sdb1): error: 
remounting filesystem read-only
Oct  5 02:50:05 geralt kernel: [2280033.906729] virtuoso-t[23551]: segfault 
at ffffffff ip 084033b6 sp bfb13350 error 6 in virtuoso-t (deleted)
[8047000+961000]
Oct  5 02:50:05 geralt kernel: [2280034.039758] sd 1:0:0:0: [sdb] Unhandled 
error code
Oct  5 02:50:05 geralt kernel: [2280034.039761] sd 1:0:0:0: [sdb]  Result: 
hostbyte=0x04 driverbyte=0x00
Oct  5 02:50:05 geralt kernel: [2280034.039764] sd 1:0:0:0: [sdb] CDB: 
cdb[0]=0x28: 28 00 09 79 08 60 00 00 08 00
Oct  5 02:50:05 geralt kernel: [2280034.039772] end_request: I/O error, dev 
sdb, sector 158926944
Oct  5 02:50:05 geralt kernel: [2280034.039779] EXT3-fs error (device sdb1): 
ext3_find_entry: reading directory #4964362 offset 0

Dysk przeszedł w RO i tyle. Ale po restarcie maszyny, po sprawdzeniu 
filesystemu (który nie uległ uszkodzeniu), dysk pracuje dalej normalnie. 
Zastanawia mnie teraz, dlaczego tak się stało. Najbardziej oczywistym wydaje 
się teza, że dysk się sypie. Na tą okoliczność kupiłem inny dysk i właśnie 
przegrywam dane. Ale może to nie tak? Smartctl raportuje mi co prawda dwa 
błędy ale dotyczące odczytu zupełnie innego sektora (Error: UNC 8 sectors at 
LBA = 0x01b71ba7 = 28777383). Reallocated_Sector_Ct też nic nie wskazuje, 
jest równe 0. Zapuściłem długi test, będzie gotów za jakiś czas.

Co więcej, zanim ten dysk zamontowałem i przegrałem na niego dane, starałem 
się go sprawdzić. Zapuściłem na nim badblocks - nie wykazał problemów. 
Zastanawia mnie, na ile może to być jakiś problem z komunikacją (kabel?). 
Tylko gdyby to był kabel, to by niebył to jednorazowy wyskok, ale raczej już 
dawno coś by się posypało. Ewentualnie może coś z kernelem (wywrotka była 
pod 3.0.4-2). 

Jakieś sugestie? Dysk 300GB to teraz nie fortuna, w najgorszym wypadku 
będzie służył za przycisk do papieru. Ale zawsze to trochę szkoda...
-- 
Łukasz Maśko                                           GG:   2441498    _o)
Lukasz.Masko(at)ipipan.waw.pl                                           /\\
Registered Linux User #61028                                           _\_V
Ubuntu: staroafrykańskie słowo oznaczające "Nie umiem zainstalować Debiana"