[OT] Heelp :( problem z vserverem - wszysko leży, pomaga tylko hard reset
Jacek Osiecki
joshua w hybrid.pl
Sob, 22 Paź 2011, 12:09:13 CEST
Witam,
Już drugi raz z rzędu na jednym z hostów, noszących parę prostych guestów
(jeden nieco intensyjniejszy - stary serwer WWW, wrzucony na żywca do vservera)
wszystko się wykłada. Nagle przestają reagować vservery (a raczej - niektóre
usługi na nich), nie da się nic w nich zdiagnozować.
Dzieje się tak najprawdopodobniej przy logrotate logów apache'a na tym
większym vserverze (jako jeden z działających procesów jest odpalony logrotate,
a problem występuje o 5:02, gdy odpala się logrotate).
- przy vserver svr-oldwww stop - terminal zwisa. Przy debug końcówka
jest taka:
++ test -e /etc/vservers/svr-oldwww/noisy -o -n ''
++ SILENT_OPT=--silent
+ case "$2" in
+ shift 2
+ . /usr/lib64/util-vserver/vserver.stop
+++ /usr/sbin/vserver-info /etc/vservers/svr-oldwww CANONIFY
++ lock /var/lock/vserver.etcvserverssvroldwww.startup
+++ /usr/bin/env -u TMPDIR /bin/mktemp -t vserver-lock.XXXXXX
++ local tmp=/tmp/vserver-lock.tk8JhA
++ /bin/rm -f /tmp/vserver-lock.tk8JhA
++ /usr/bin/mkfifo -m600 /tmp/vserver-lock.tk8JhA
- przy vserver --debug svr-oldwww enter kończy się tak:
++ for _fo_i in '"$@"'
++ test -n /etc/vservers/.defaults/cgroup/subsys
++ test '!' -f /etc/vservers/.defaults/cgroup/subsys
++ for _fo_i in '"$@"'
++ test -n ''
++ continue
++ test -z '' -o -n ''
++ eval 'file=""'
+++ file=
++ test -n ''
++ CGROUP_SUBSYS=($($_SED '/^#/d;/^ns[[:space:]]/d;s/[[:space:]].*//'
/proc/cgroups))
+++ /bin/sed '/^#/d;/^ns[[:space:]]/d;s/[[:space:]].*//' /proc/cgroups
Przy okazji - przy cat "/proc/cgroups" też terminal zwisa.
Top wygląda mniej więcej tak:
top - 09:03:44 up 1 day, 50 min, 7 users, load average: 130.56, 127.87,
123.75
Tasks: 399 total, 53 running, 346 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.0 us, 50.1 sy, 0.0 ni, 49.9 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
Mb Mem: 24220 total, 16410 used, 7810 free, 1375 buffers
Mb Swap: 23846 total, 0 used, 23846 free, 8502 cached
mimo to host reaguje bez zarzutu.
No i klu: w kernel.log:
Oct 22 05:02:04 alpha kernel: [74765.375087] general protection fault: 0000
[#1] SMP
Oct 22 05:02:04 alpha kernel: [74765.375301] last sysfs file:
/sys/devices/system/cpu/online
Oct 22 05:02:04 alpha kernel: [74765.375415] CPU 5
Oct 22 05:02:04 alpha kernel: [74765.375467] Modules linked in: sch_sfq xfs
exportfs e1000e iTCO_wdt i2c_i801
Oct 22 05:02:04 alpha kernel: [74765.376090]
Oct 22 05:02:04 alpha kernel: [74765.376201] Pid: 16943, comm: httpd.prefork
Not tainted 2.6.36.4-vs2.3.0.36.39golf #5 X8DT6/
X8DT6
Oct 22 05:02:04 alpha kernel: [74765.376381] RIP: 0010:[<ffffffff8103e6d8>]
[<ffffffff8103e6d8>] task_rq_lock+0x58/0xe0
Oct 22 05:02:04 alpha kernel: [74765.376619] RSP: 0018:ffff8805c3ef1da8 EFLAGS:
00010086
Oct 22 05:02:04 alpha kernel: [74765.376736] RAX: 0000000000000282 RBX:
0000000000013080 RCX: 00000000ffffffff
Oct 22 05:02:04 alpha kernel: [74765.376856] RDX: 0000000000000282 RSI:
ffff8805c3ef1df0 RDI: 2e6666666666c308
Oct 22 05:02:04 alpha kernel: [74765.376976] RBP: ffff8805c3ef1dc8 R08:
dead000000100100 R09: dead000000200200
Oct 22 05:02:04 alpha kernel: [74765.377098] R10: dead000000100100 R11:
dead000000200200 R12: 2e6666666666c308
Oct 22 05:02:04 alpha kernel: [74765.377220] R13: ffff8805c3ef1df0 R14:
0000000000013080 R15: 000000000000000f
Oct 22 05:02:04 alpha kernel: [74765.377343] FS: 00007f4992c1b740(0000)
GS:ffff88034aa80000(0000) knlGS:0000000000000000
Oct 22 05:02:04 alpha kernel: [74765.377527] CS: 0010 DS: 0000 ES: 0000 CR0:
0000000080050033
Oct 22 05:02:04 alpha kernel: [74765.377645] CR2: 00000000019f08a0 CR3:
000000058ecd6000 CR4: 00000000000006e0
Oct 22 05:02:04 alpha kernel: [74765.377768] DR0: 0000000000000000 DR1:
0000000000000000 DR2: 0000000000000000
Oct 22 05:02:04 alpha kernel: [74765.377889] DR3: 0000000000000000 DR6:
00000000ffff0ff0 DR7: 0000000000000400
Oct 22 05:02:04 alpha kernel: [74765.378012] Process httpd.prefork (pid: 16943,
threadinfo ffff8805c3ef0000, task ffff88060a9
30f80)
Oct 22 05:02:04 alpha kernel: [74765.378194] Stack:
Oct 22 05:02:04 alpha kernel: [74765.378303] 2e6666666666c308 ae8a05c708ec8348
0000000000000000 0000000000000005
Oct 22 05:02:04 alpha kernel: [74765.378634] <0> ffff8805c3ef1e28
ffffffff81047687 ffff8805c3ef1de8 00000000810b4f50
Oct 22 05:02:04 alpha kernel: [74765.379053] <0> ffff8805c3ef1df8
0000000000000282 ffff8805c3ef1e48 000000000044b380
Oct 22 05:02:04 alpha kernel: [74765.379572] Call Trace:
Oct 22 05:02:04 alpha kernel: [74765.379763] [<ffffffff81047687>]
try_to_wake_up+0x37/0x420
Oct 22 05:02:04 alpha kernel: [74765.379881] [<ffffffff81047a90>]
wake_up_process+0x10/0x20
Oct 22 05:02:04 alpha kernel: [74765.380002] [<ffffffff811f341f>]
wake_up_sem_queue_do+0x2f/0x50
Oct 22 05:02:04 alpha kernel: [74765.380120] [<ffffffff811f3600>]
freeary+0x1c0/0x240
Oct 22 05:02:04 alpha kernel: [74765.380238] [<ffffffff811f44d7>]
semctl_down.clone.9+0xa7/0x110
Oct 22 05:02:04 alpha kernel: [74765.380359] [<ffffffff810ac021>] ?
audit_syscall_entry+0x241/0x270
Oct 22 05:02:04 alpha kernel: [74765.380477] [<ffffffff811f48f0>]
sys_semctl+0x70/0xb0
Oct 22 05:02:04 alpha kernel: [74765.380595] [<ffffffff81003002>]
system_call_fastpath+0x16/0x1b
Oct 22 05:02:04 alpha kernel: [74765.380714] Code: 0f 1f 44 00 00 48 89 c2 48
83 3d 13 76 7f 00 00 0f 84 8e 00 00 00 48 c7 c3
80 30 01 00 fa 66 0f 1f 44 00 00 49 89 55 00 49 89 de <49> 8b 44 24 08 8b 40
18 4c 03 34 c5 a0 41 8a 81 4c 89 f7 e8 80
Oct 22 05:02:04 alpha kernel: [74765.384089] RIP [<ffffffff8103e6d8>]
task_rq_lock+0x58/0xe0
Oct 22 05:02:04 alpha kernel: [74765.384262] RSP <ffff8805c3ef1da8>
Oct 22 05:02:04 alpha kernel: [74765.384376] ---[ end trace cd66cdaeb5eebcec
]---
Oct 22 05:44:46 alpha kernel: [77321.852715] vxW: [<BB>ps<AB>,14747:#1|0|0] did
lookup hidden devpts:ffff88030d56f5e8[#0,8]
<BB>/dev/pts/5<AB>.
Oct 22 05:44:46 alpha kernel: [77321.853127] vxW: [<BB>ps<AB>,14747:#1|0|0] did
lookup hidden devpts:ffff8802fc42cac8[#0,7]
<BB>/dev/pts/4<AB>.
Oct 22 05:44:46 alpha kernel: [77321.853453] vxW: [<BB>ps<AB>,14747:#1|0|0] did
lookup hidden devpts:ffff8802fc42cac8[#0,7]
<BB>/dev/pts/4<AB>.
Oct 22 05:44:46 alpha kernel: [77321.853789] vxW: [<BB>ps<AB>,14747:#1|0|0] did
lookup hidden devpts:ffff8802fc42cf18[#0,9]
<BB>/dev/pts/6<AB>.
a potem ostatnie dwie linie w kółko.
util-vserver i okolice najświeższe, generalnie system up-to-date.
Kernele różne, za każdym razem vaniliowe + patch vserver.
Jedyne co można zrobić to hard reset (za pomocą /proc/sysrq-trigger).
Jakieś pomysły co może być nie tak? Bo jest to dosyć załamujące, strach stawiać
vservery :(
Pozdrawiam,
--
Jacek Osiecki
joshua w pgd.pl
GG:3828944
Więcej informacji o liście pld-users-pl