kernel panic

need help
 
+
-
edit
 

Balancer

администратор
★★★★☆
Сегодня удалось поймать причину периодических подвисов сервера в домашнем варианте. Забавно, что с USB-клавиатурой не было никаких kernel panic'ов, просто мёртвый вис, через раз — с отключенным питанием (или это была другая ошибка?). Воткнул «про запас» PS/2 клаву — и готово. Сервер отработал 5 дней и грохнулся с привычным миганием лампочек и трейсом на экране.

См. аттач. Ядро linux-3.10.7-gentoo

 

IMG_20130930_152603_726_1000x. jpg (скачать) [450,08кбайт, 0 загрузок] [attach=352468]
 


Увы, нагуглить чего-то убедительного по этому вопросу не смог. Как я понимаю, проблема какая-то то ли с CPU планировщиком, то ли с таймерной подсистемой. Текущие настройки:
code text
  1. $ zcat /proc/config.gz | grep HZ
  2. CONFIG_NO_HZ_COMMON=y
  3. # CONFIG_HZ_PERIODIC is not set
  4. CONFIG_NO_HZ_IDLE=y
  5. # CONFIG_NO_HZ_FULL is not set
  6. CONFIG_NO_HZ=y
  7. # CONFIG_RCU_FAST_NO_HZ is not set
  8. # CONFIG_HZ_100 is not set
  9. # CONFIG_HZ_250 is not set
  10. # CONFIG_HZ_300 is not set
  11. CONFIG_HZ_1000=y
  12. CONFIG_HZ=1000


code text
  1. $ zcat /proc/config.gz | grep CPU_FREQ
  2. CONFIG_CPU_FREQ=y
  3. CONFIG_CPU_FREQ_TABLE=m
  4. CONFIG_CPU_FREQ_GOV_COMMON=y
  5. CONFIG_CPU_FREQ_STAT=m
  6. # CONFIG_CPU_FREQ_STAT_DETAILS is not set
  7. CONFIG_CPU_FREQ_DEFAULT_GOV_PERFORMANCE=y
  8. # CONFIG_CPU_FREQ_DEFAULT_GOV_USERSPACE is not set
  9. # CONFIG_CPU_FREQ_DEFAULT_GOV_ONDEMAND is not set
  10. # CONFIG_CPU_FREQ_DEFAULT_GOV_CONSERVATIVE is not set
  11. CONFIG_CPU_FREQ_GOV_PERFORMANCE=y
  12. CONFIG_CPU_FREQ_GOV_POWERSAVE=m
  13. CONFIG_CPU_FREQ_GOV_USERSPACE=m
  14. CONFIG_CPU_FREQ_GOV_ONDEMAND=m
  15. CONFIG_CPU_FREQ_GOV_CONSERVATIVE=m


Есть у кого мысли, куда копать?

Поменял пока на

CONFIG_CPU_FREQ_TABLE=y
CONFIG_CPU_FREQ_STAT=y

CONFIG_CPU_FREQ_DEFAULT_GOV_ONDEMAND=y
CONFIG_CPU_FREQ_GOV_POWERSAVE=y
CONFIG_CPU_FREQ_GOV_USERSPACE=y
CONFIG_CPU_FREQ_GOV_ONDEMAND=y
CONFIG_CPU_FREQ_GOV_CONSERVATIVE=y

Из серии «дверьми похлопать, багажник открыть».
Прикреплённые файлы:
IMG_20130930_152603_726_1000x. jpg (скачать) [450,08 кбайт, 4 загрузки] [attach=352468]
 
 
 2828

Bod

координатор
★★★
Balancer> См. аттач. Ядро linux-3.10.7-gentoo

А не хочешь попробовать поигратья с noapic, nolapic etc.?
 24.024.0
+
-
edit
 

Floyd

аксакал

Balancer> См. аттач. Ядро linux-3.10.7-gentoo

Что бы не скриншотить куски вывода:

Kernel Crash Dumps - Gentoo Wiki

This article explains how to capture the kernel crash dumps (kdump). Kdumps are produced by kernel panic or lockup. To be simple, just a single kernel is used both for the ordinary system and recovery. The described method is almost distro independent. This article is based on KDump on Gentoo by rich0, and the first version is posted by the author. You need to activate the following kernel options: Install sys-apps/kexec-tools: Create /etc/local.d/kdump.start containing: Now make this file executable: Note that your kernel has to be readable. // Дальше — wiki.gentoo.org
 

PS: На скрине не видно процессора и стектрейса который реально спаниковал. Тот кусок что мы видим это CPU2 с swapper, т.е. на нем реально в данный момент ничего не исполнялось. В то время как паника похоже произошла в процессе обработки (отложенного) прерывания.
 29.0.1547.7629.0.1547.76
Это сообщение редактировалось 30.09.2013 в 19:52
+
-
edit
 

Floyd

аксакал

Не знаю, имеет ли это отношение к твоему случаю, но как вариант

Comment by Christian Hesse (eworm) - Thursday, 22 August 2013, 15:51 GMT
The reported problem is completely unrelated to the Radeon graphics. The panic occurs when a division by zero happens in brcms_c_calc_frame_time(). The best solution to date is to disable CCK rates for Broadcom hardware as Felix Fietkau proposes:

Re: [REGRESSION] 3.10.{6,7} crashes on network activity | Linux | Kernel

Re: 3.10.{6,7} crashes on network activity Linux Kernel // www.gossamer-threads.com
 
This works reliable and makes the system stable again. I have changed the patch to apply to a 3.10.y stable kernel:http://www.eworm.de/download/linux/mac80211_cck_rates.patchPlease apply to Arch default kernel.
 


Comment by Dave Aitken (actionshrimp) - Wednesday, 04 September 2013, 20:40 GMT
Looks like this is fixed in 3.11-1 (currently in the testing repo)
Comment by Christian Hesse (eworm) - Tuesday, 17 September 2013, 07:17 GMT
linux 3.11.1-1 is in [core], so we can close this.
 

FS#36539 : [linux] 3.10.6-2 kernel panic Radeon 6320

Flyspray, a Bug Tracking System written in PHP. // bugs.archlinux.org
 
 29.0.1547.7629.0.1547.76
Это сообщение редактировалось 30.09.2013 в 21:04
+
-
edit
 

Balancer

администратор
★★★★☆
Floyd> Что бы не скриншотить куски вывода

Да, надо попробовать. Хотя не уверен, что оно позволит по сети сбросить дамп. А в интерактивном варианте бесполезно, поскольку несовместимо с framebuffer.
 2828
+
-
edit
 

Balancer

администратор
★★★★☆
Floyd> Не знаю, имеет ли это отношение к твоему случаю, но как вариант
>The reported problem is completely unrelated to the Radeon graphics

Не, у меня Intel встроенный.
 2828
+
-
edit
 

Floyd

аксакал

Balancer> Не, у меня Intel встроенный.

Не, это название темы. Там грешат и вроде как излечивают на Broadcom

The panic occurs when a division by zero happens in brcms_c_calc_frame_time(). The best solution to date is to disable CCK rates for Broadcom hardware as Felix Fietkau proposes:

ЗЫ Выделил жирным выше
 29.0.1547.7629.0.1547.76
+
-
edit
 

Floyd

аксакал

Floyd>> Что бы не скриншотить куски вывода
Balancer> Да, надо попробовать. Хотя не уверен, что оно позволит по сети сбросить дамп. А в интерактивном варианте бесполезно, поскольку несовместимо с framebuffer.

Вообще-то он должен весь дамп сгружать на диск. По крайней мере на RedHat-то подобных все прекрасно работало.
 29.0.1547.7629.0.1547.76
+
-
edit
 

Balancer

администратор
★★★★☆
Floyd> Вообще-то он должен весь дамп сгружать на диск.

Ему для этого раздел надо выделять, который он при этом убивает. Не знаю, может ли он сгрузить дамп на LVM-раздел. А физических лишних у меня нет. Разве что флешку воткнуть :) Но как-то стрёмно — а ну как в kexec ядре нумерация дисков поедет и он грохнет мне нормальный диск?
 2828
+
-
edit
 

Balancer

администратор
★★★★☆
Floyd> Не, это название темы. Там грешат и вроде как излечивают на Broadcom

Broadcom у меня тоже нет :) Попозже гляну, что там пишут подробнее.

Я пока смотрел на:

Группы Google

В Google Группах можно создавать и посещать форумы, общение в которых происходит онлайн или по электронной почте. // groups.google.com
 
[round_box]

Answer : NOHZ: WARNING: at arch/x86/kernel/smp.c:123 native_smp_send_reschedule


NOHZ: WARNING: at arch/x86/kernel/smp.c:123 native_smp_send_reschedule - answer - Hi, I just got the warning below when resuming from hibernation with kernel that has NO_HZ_FULL_ALL=y. This is with topmost commit e0fd9affeb640. [ snip ] PM: Hibernation mode set to 'shutdown' PM: Marking nosave pages: PM: Marking nosave pages: PM: Marking nosave pages: PM: Marking nosave pages: [mem

// us.generation-nt.com[/round_box]

Full Text Bug Listing

Red Hat Bugzilla – Full Text Bug Listing // bugzilla.redhat.com
 
 2828
+
-
edit
 

Floyd

аксакал

Floyd>> Вообще-то он должен весь дамп сгружать на диск.
Balancer>Не знаю, может ли он сгрузить дамп на LVM-раздел.

Может

Next, consider editing the kdump configuration file /etc/kdump.conf. This will allow you to write the dump over the network or to some other location on the local system, rather than to the default location of /var/crash. For additional information, consult the mkdumprd man page and the comments in /etc/kdump.conf.

code text
  1. [root@vm ~]# ll /var/crash/
  2. total 0
  3. [root@vm ~]# mount
  4. /dev/mapper/vg_livecd-lv_root on / type ext4 (rw)
  5. proc on /proc type proc (rw)
  6. sysfs on /sys type sysfs (rw)
  7. devpts on /dev/pts type devpts (rw,gid=5,mode=620)
  8. tmpfs on /dev/shm type tmpfs (rw,rootcontext="system_u:object_r:tmpfs_t:s0")
  9. /dev/sda1 on /boot type ext4 (rw)
  10. none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)
  11. sunrpc on /var/lib/nfs/rpc_pipefs type rpc_pipefs (rw)
  12. [root@vm ~]#
  13. [root@vm ~]#
  14. [root@vm ~]# echo c > /proc/sysrq-trigger
  15.  
  16.  
  17.  
  18. login as: root
  19. root@vm.local's password:
  20. Last login: Sat Sep 28 10:58:58 2013 from 192.168.1.243
  21. [root@vm ~]# ll /var/crash/
  22. total 4
  23. drwxr-xr-x. 2 root root 4096 Oct  1 01:34 127.0.0.1-2013-10-01-01:33:58
  24. [root@vm ~]# date
  25. Tue Oct  1 01:37:21 MSK 2013
  26. [root@vm ~]#
 29.0.1547.7629.0.1547.76
+
-
edit
 

Balancer

администратор
★★★★☆
Floyd> Может

Ок, тогда гут :) Попробую.
 2828
+
-
edit
 

Floyd

аксакал

Balancer @AirbaseRu
Сервер упал с kernel panic :-/ Странно. Сейчас перезагружается.
 


Дамп есть?
 32.0.1700.10232.0.1700.102
+
-
edit
 

Balancer

администратор
★★★★☆
Floyd> Дамп есть?

Не-а, я так и не собрался сделать сетевые дампы и т.п. Давно без проблем работало. Но в этом случае хотя бы с поводом понятно — я втыкал внешний USB-HDD. Как выдернул, так оно и в панику.
 32.0.1700.10232.0.1700.102

в начало страницы | новое
 
Поиск
Настройки
Твиттер сайта
Статистика
Рейтинг@Mail.ru