[OT] Heelp :( problem z vserverem - wszysko leży, pomaga tylko hard reset

Adam Sobieraj adam.sobieraj w neutrino.home.pl
Nie, 23 Paź 2011, 21:56:36 CEST


Witam
 
 Pierwsza rzecz aktualizacja utils-vserver.
Druga rzecz to jak gdzieś poniżej rzuciło mi się w oczy masz kernel w
okolicach 2.6.36 i z tego co pamiętam to mi też się vservery zawieszały
więc propozycja żaby zaktualizować.

Pozdrawiam
Adam 

Dnia 2011-10-22, sob o godzinie 12:09 +0200, Jacek Osiecki pisze:
> Witam,
> 
> Już drugi raz z rzędu na jednym z hostów, noszących parę prostych guestów 
> (jeden nieco intensyjniejszy - stary serwer WWW, wrzucony na żywca do vservera) 
> wszystko się wykłada. Nagle przestają reagować vservery (a raczej - niektóre 
> usługi na nich), nie da się nic w nich zdiagnozować.
> Dzieje się tak najprawdopodobniej przy logrotate logów apache'a na tym
> większym vserverze (jako jeden z działających procesów jest odpalony logrotate, 
> a problem występuje o 5:02, gdy odpala się logrotate).
> 
>    - przy vserver svr-oldwww stop - terminal zwisa. Przy debug końcówka
>      jest taka:
> 
> ++ test -e /etc/vservers/svr-oldwww/noisy -o -n ''
> ++ SILENT_OPT=--silent
> + case "$2" in
> + shift 2
> + . /usr/lib64/util-vserver/vserver.stop
> +++ /usr/sbin/vserver-info /etc/vservers/svr-oldwww CANONIFY
> ++ lock /var/lock/vserver.etcvserverssvroldwww.startup
> +++ /usr/bin/env -u TMPDIR /bin/mktemp -t vserver-lock.XXXXXX
> ++ local tmp=/tmp/vserver-lock.tk8JhA
> ++ /bin/rm -f /tmp/vserver-lock.tk8JhA
> ++ /usr/bin/mkfifo -m600 /tmp/vserver-lock.tk8JhA
> 
>   - przy vserver --debug svr-oldwww enter kończy się tak:
> 
> ++ for _fo_i in '"$@"'
> ++ test -n /etc/vservers/.defaults/cgroup/subsys
> ++ test '!' -f /etc/vservers/.defaults/cgroup/subsys
> ++ for _fo_i in '"$@"'
> ++ test -n ''
> ++ continue
> ++ test -z '' -o -n ''
> ++ eval 'file=""'
> +++ file=
> ++ test -n ''
> ++ CGROUP_SUBSYS=($($_SED '/^#/d;/^ns[[:space:]]/d;s/[[:space:]].*//' 
> /proc/cgroups))
> +++ /bin/sed '/^#/d;/^ns[[:space:]]/d;s/[[:space:]].*//' /proc/cgroups
> 
> Przy okazji - przy cat "/proc/cgroups" też terminal zwisa.
> 
> Top wygląda mniej więcej tak:
> 
> top - 09:03:44 up 1 day, 50 min,  7 users,  load average: 130.56, 127.87, 
> 123.75
> Tasks: 399 total,  53 running, 346 sleeping,   0 stopped,   0 zombie
> %Cpu(s):  0.0 us, 50.1 sy,  0.0 ni, 49.9 id,  0.0 wa,  0.0 hi,  0.0 si, 0.0 st
> Mb Mem:     24220 total,    16410 used,     7810 free,     1375 buffers
> Mb Swap:    23846 total,        0 used,    23846 free,     8502 cached
> 
> mimo to host reaguje bez zarzutu.
> 
> No i klu: w kernel.log:
> 
> Oct 22 05:02:04 alpha kernel: [74765.375087] general protection fault: 0000 
> [#1] SMP
> Oct 22 05:02:04 alpha kernel: [74765.375301] last sysfs file: 
> /sys/devices/system/cpu/online
> Oct 22 05:02:04 alpha kernel: [74765.375415] CPU 5
> Oct 22 05:02:04 alpha kernel: [74765.375467] Modules linked in: sch_sfq xfs 
> exportfs e1000e iTCO_wdt i2c_i801
> Oct 22 05:02:04 alpha kernel: [74765.376090]
> Oct 22 05:02:04 alpha kernel: [74765.376201] Pid: 16943, comm: httpd.prefork 
> Not tainted 2.6.36.4-vs2.3.0.36.39golf #5 X8DT6/
> X8DT6
> Oct 22 05:02:04 alpha kernel: [74765.376381] RIP: 0010:[<ffffffff8103e6d8>] 
> [<ffffffff8103e6d8>] task_rq_lock+0x58/0xe0
> Oct 22 05:02:04 alpha kernel: [74765.376619] RSP: 0018:ffff8805c3ef1da8 EFLAGS: 
> 00010086
> Oct 22 05:02:04 alpha kernel: [74765.376736] RAX: 0000000000000282 RBX: 
> 0000000000013080 RCX: 00000000ffffffff
> Oct 22 05:02:04 alpha kernel: [74765.376856] RDX: 0000000000000282 RSI: 
> ffff8805c3ef1df0 RDI: 2e6666666666c308
> Oct 22 05:02:04 alpha kernel: [74765.376976] RBP: ffff8805c3ef1dc8 R08: 
> dead000000100100 R09: dead000000200200
> Oct 22 05:02:04 alpha kernel: [74765.377098] R10: dead000000100100 R11: 
> dead000000200200 R12: 2e6666666666c308
> Oct 22 05:02:04 alpha kernel: [74765.377220] R13: ffff8805c3ef1df0 R14: 
> 0000000000013080 R15: 000000000000000f
> Oct 22 05:02:04 alpha kernel: [74765.377343] FS:  00007f4992c1b740(0000) 
> GS:ffff88034aa80000(0000) knlGS:0000000000000000
> Oct 22 05:02:04 alpha kernel: [74765.377527] CS:  0010 DS: 0000 ES: 0000 CR0: 
> 0000000080050033
> Oct 22 05:02:04 alpha kernel: [74765.377645] CR2: 00000000019f08a0 CR3: 
> 000000058ecd6000 CR4: 00000000000006e0
> Oct 22 05:02:04 alpha kernel: [74765.377768] DR0: 0000000000000000 DR1: 
> 0000000000000000 DR2: 0000000000000000
> Oct 22 05:02:04 alpha kernel: [74765.377889] DR3: 0000000000000000 DR6: 
> 00000000ffff0ff0 DR7: 0000000000000400
> Oct 22 05:02:04 alpha kernel: [74765.378012] Process httpd.prefork (pid: 16943, 
> threadinfo ffff8805c3ef0000, task ffff88060a9
> 30f80)
> Oct 22 05:02:04 alpha kernel: [74765.378194] Stack:
> Oct 22 05:02:04 alpha kernel: [74765.378303]  2e6666666666c308 ae8a05c708ec8348 
> 0000000000000000 0000000000000005
> Oct 22 05:02:04 alpha kernel: [74765.378634] <0> ffff8805c3ef1e28 
> ffffffff81047687 ffff8805c3ef1de8 00000000810b4f50
> Oct 22 05:02:04 alpha kernel: [74765.379053] <0> ffff8805c3ef1df8 
> 0000000000000282 ffff8805c3ef1e48 000000000044b380
> Oct 22 05:02:04 alpha kernel: [74765.379572] Call Trace:
> Oct 22 05:02:04 alpha kernel: [74765.379763]  [<ffffffff81047687>] 
> try_to_wake_up+0x37/0x420
> Oct 22 05:02:04 alpha kernel: [74765.379881]  [<ffffffff81047a90>] 
> wake_up_process+0x10/0x20
> Oct 22 05:02:04 alpha kernel: [74765.380002]  [<ffffffff811f341f>] 
> wake_up_sem_queue_do+0x2f/0x50
> Oct 22 05:02:04 alpha kernel: [74765.380120]  [<ffffffff811f3600>] 
> freeary+0x1c0/0x240
> Oct 22 05:02:04 alpha kernel: [74765.380238]  [<ffffffff811f44d7>] 
> semctl_down.clone.9+0xa7/0x110
> Oct 22 05:02:04 alpha kernel: [74765.380359]  [<ffffffff810ac021>] ? 
> audit_syscall_entry+0x241/0x270
> Oct 22 05:02:04 alpha kernel: [74765.380477]  [<ffffffff811f48f0>] 
> sys_semctl+0x70/0xb0
> Oct 22 05:02:04 alpha kernel: [74765.380595]  [<ffffffff81003002>] 
> system_call_fastpath+0x16/0x1b
> Oct 22 05:02:04 alpha kernel: [74765.380714] Code: 0f 1f 44 00 00 48 89 c2 48 
> 83 3d 13 76 7f 00 00 0f 84 8e 00 00 00 48 c7 c3
>   80 30 01 00 fa 66 0f 1f 44 00 00 49 89 55 00 49 89 de <49> 8b 44 24 08 8b 40 
> 18 4c 03 34 c5 a0 41 8a 81 4c 89 f7 e8 80
> Oct 22 05:02:04 alpha kernel: [74765.384089] RIP  [<ffffffff8103e6d8>] 
> task_rq_lock+0x58/0xe0
> Oct 22 05:02:04 alpha kernel: [74765.384262]  RSP <ffff8805c3ef1da8>
> Oct 22 05:02:04 alpha kernel: [74765.384376] ---[ end trace cd66cdaeb5eebcec 
> ]---
> Oct 22 05:44:46 alpha kernel: [77321.852715] vxW: [<BB>ps<AB>,14747:#1|0|0] did 
> lookup hidden devpts:ffff88030d56f5e8[#0,8]
> <BB>/dev/pts/5<AB>.
> Oct 22 05:44:46 alpha kernel: [77321.853127] vxW: [<BB>ps<AB>,14747:#1|0|0] did 
> lookup hidden devpts:ffff8802fc42cac8[#0,7]
> <BB>/dev/pts/4<AB>.
> Oct 22 05:44:46 alpha kernel: [77321.853453] vxW: [<BB>ps<AB>,14747:#1|0|0] did 
> lookup hidden devpts:ffff8802fc42cac8[#0,7]
> <BB>/dev/pts/4<AB>.
> Oct 22 05:44:46 alpha kernel: [77321.853789] vxW: [<BB>ps<AB>,14747:#1|0|0] did 
> lookup hidden devpts:ffff8802fc42cf18[#0,9]
> <BB>/dev/pts/6<AB>.
> 
> a potem ostatnie dwie linie w kółko.
> util-vserver i okolice najświeższe, generalnie system up-to-date.
> Kernele różne, za każdym razem vaniliowe + patch vserver.
> 
> Jedyne co można zrobić to hard reset (za pomocą /proc/sysrq-trigger).
> 
> Jakieś pomysły co może być nie tak? Bo jest to dosyć załamujące, strach stawiać 
> vservery :(
> 
> Pozdrawiam,
> _______________________________________________
> pld-users-pl mailing list
> pld-users-pl w lists.pld-linux.org
> http://lists.pld-linux.org/mailman/listinfo/pld-users-pl




Więcej informacji o liście pld-users-pl