[ОТВЕТИТЬ]
11.04.2010 03:18
blondbf
 
Итак, проблема началась с того, что при запуске бекапера зависает сервер, вместе с ним зависают кассы, пытаясь положить файл чека в его каталог.

Мониторинг: загруженность ЦП - ок, свободная память - ок.

Беру ручками, копирую гигабайтный файл с одного диска на другой: файл копируется за несколько секунд, затем, после завершения копирования (внезапно) сервер подвисает на несколько минут.

Я понимаю, что скорей всего это какой-то плохой элеватор в windows пытается ускорить программы, интенсивно изменяющие файлы, но видимо процесс получает высокий приоритет либо крутится в критическом куске кода и не передаёт управление шедулеру (кривой драйвер).

Кто-нибудь сталкивался? Я просто новичок в windows (да) и не знаю куда копать.

Контроллеры ЖД - ICH9 (2 шт).
Рейдов нет никаких.
Windows 2003 Server Enterprise
Политику поведения шедулера и виртуальной памяти менять пробовал (в свойствах системы, вкладка "Быстродействие") - безрезультатно.
11.04.2010 07:32
Propil
 
Цитата:
после завершения копирования (внезапно) сервер подвисает на несколько минут
- активность диска при этом какая?
- что с сетью в этот момент?
Можно попробовать perfmon.
Выбрать там несколько показателей и посмотреть, есть ли на каком из них скачки в момент затыков
11.04.2010 07:57
Ivan Drago
 
В журнале Windows есть какие-то записи за этот период? Есть ли какие-то "желтые" устройства в дистпетчере устройств? Винт случайно не рассыпается? У меня точно такие же симптомы были при помирании винта (не сигейт часом?). В журнале писалось, что система не может записать на винт. В общем - меняешь винт и все сказочно.
11.04.2010 12:28
Shlong
 
Мне тоже кажется что проблема с веником, думаю следует посмотреть какой-нидь из утил SMART всех винтов...
11.04.2010 12:34
konst
 
как вариант попробовать заменить шлейфы IDE/SATA
11.04.2010 14:46
Shlong
 
Цитата:
konst как вариант попробовать заменить шлейфы IDE/SATA
В смарте есть один из параметров 199 Ultra DMA CRC errors, который как раз и укажет на хреновый шлейф... Вот тут можно взять бесплатную софтяру HDDScan | iHDD.RU для чтемния смарта работает без установки под виндой...
11.04.2010 15:42
blondbf
 
Цитата:
В смарте есть один из параметров 199 Ultra DMA CRC errors, который как раз и укажет на хреновый шлейф... Вот тут можно взять бесплатную софтяру HDDScan | iHDD.RU для чтемния смарта работает без установки под виндой...
Скачал, всё зелёное, ошибок не находит.



Цитата:
В журнале Windows есть какие-то записи за этот период? Есть ли какие-то "желтые" устройства в дистпетчере устройств? Винт случайно не рассыпается? У меня точно такие же симптомы были при помирании винта (не сигейт часом?). В журнале писалось, что система не может записать на винт. В общем - меняешь винт и все сказочно.
Только таймауты: запись в какой-то левый файл C:\Windows... заняла слишком много времени; служба OracleService не ответила на запрос своевременно...


Цитата:
- активность диска при этом какая?
- что с сетью в этот момент?
Можно попробовать perfmon.
Выбрать там несколько показателей и посмотреть, есть ли на каком из них скачки в момент затыков
Я из perfmon и наблюдал. Всё нормально, кроме зашкаливающего процента времени обработки прерываний. Пингуется, уровнем выше ничего не обрабатывает до конца висяка (нельзя подключиться ни по rdp ни по vnc, smb и oracle тоже не отвечают).


Цитата:
Винт случайно не рассыпается?
Прогонял тест на сбойные блоки - ничего не выявил.
11.04.2010 15:51
blondbf
 
Кстати я вам всем нагло врал, говоря, что рейдов нет: есть, на SRCSATAWB; только как здесь посмотреть, какой это рейд, сколько дисков? Управление дисками windows показывает один динамический том и всё. Сервер далеко, KVM over IP нету, соответственно залесть в настройки бивс или заглянуть внутрь корпуса сложновато.
11.04.2010 16:32
blondbf
 
Итак, свежие данные: обновил драйверы на контроллеры винчестеров.


Копирую большой файл из одного каталога в разделе на рейде в другой каталог на этом же разделе: копируется долго, система не виснет, perfmon показывает большой обмен страниц и длину очереди диска.


Копирую этот же файл на другой винт, не в рейде: копируется быстро, в это время в perfmon большая длина очереди диска, при этом не скачут ни прерывания ни обмен страницами. Затем (файл "скопировался") обмен страницами и прерывания немного скачут и сервер подвисает на минуту. Perfmon останавливает свою работу в это время, rdp-сессия замирает. Когда отмирает, perfmon показывает только спад загруженности процессора.


Итак, пологаю что во втором случае проц закидывает прерываниями, после чего идёт ловина обработки нижних половин обработчиков с большим приоритетом, что вытесняет все остальные процессы (на всех четырёх ядрах?). Повесить бы прерывания винта на два из четырёх ядер?





Вот кстати такие ошибки вылазют в логи:

Тип события: Предупреждение
Источник события: NTDS ISAM
Категория события: Быстродействие
Код события: 507
Дата: 11.04.2010
Время: 16:24:45
Пользователь: Н/Д
Компьютер: SERVER-MAG
Описание:
NTDS (424) NTDSA: Запрос на чтение из файла "C:\WINDOWS\ntds\ntds.dit" со смещением 7389184 (0x000000000070c000) размером 8192 (0x00002000) байт выполнен, но его выполнение ОС заняло слишком много времени (109 секунд). Вероятно, эта ошибка вызвана сбоем оборудования. Обратитесь к поставщику оборудования, чтобы точно установить причину ошибки.

Дополнительные сведения можно найти в центре справки и поддержки, в "".
11.04.2010 18:25
Propil
 
Случаем, не проблема ли со свободным местом на диске?
***
Либо - логические ошибки на нем (сделай chkdsk Диск: /f )
***
Либо проблемы с рейд контроллером
***
Еще - под вопросом перегрев...
11.04.2010 18:58
twix
 
дичайшие тормоза могут возникнуть, если на системном диске осталось совсем мало места. и там уже будет все-равно, рейд у тебя или нет.
есть еще вариант, который тоже здесь озвучивался: отмирание одного из винтов в массиве.
рейд софтовый или железный? утилка для мониторинга что-нибудь говорит? может, массив уже давно в деградирующем состоянии, а ты не в курсе?
11.04.2010 19:02
Ivan Drago
 
Я задавал вопрос про Seagate. У меня именно так и было. Все хорошо, все чекдиски проходят, но винт выглядит, как рассыпающийся. Т.е. даю 95% на вероятность проблемы самой железки, тем паче, что сам МС на это кивает.
11.04.2010 19:16
blondbf
 
Цитата:
Случаем, не проблема ли со свободным местом на диске?
На системном разделе свободного места - около 57%
На разделе с рейдом - более 80%


Цитата:
Либо - логические ошибки на нем (сделай chkdsk Диск: /f )
Для системного раздела нужна перезагрузка, для рейда - отключение раздела (с остановкой оракеля). Однако, для системного раздела chkdsk (без /f) обнаруживает ошибки и просит запустить с ключиком /f, для рейда говорит всё ОК. Прогоню на неделе ночью, когда сделаю снапшоты дисков и будет физический доступ к серверу.



Цитата:
Еще - под вопросом перегрев...
На рейде температуру проверить не могу, но симптомы не похожи на перегревы.


Цитата:
рейд софтовый или железный?
хардварный; SMART не применим; сегодня пойду искать на сайты интелов утилиты для работы с этим контроллером


Цитата:
Я задавал вопрос про Seagate
Сигейт. ST3250310NS. На системный раздел. В рейде не знаю что. Самое интересное, что файл копируется и затем читается корректно.


Цитата:
массив уже давно в деградирующем состоянии, а ты не в курсе?
Я ещё много чего здесь не знаю (работаю месяц здесь; при чём первый раз за лет пять сел за Windows :3) Возможно, однако работает всего год. Условия созданы: бесперебойное питание, отличное охлаждение.
11.04.2010 20:00
blondbf
 
Свежие данные:
При копировании с системного раздела на рейд-раздел проблем не наблюдается. При копировании данных внутри системного раздела проблем не наблюдается тоже.
т.е. проблема только при копировании с рейда на системный раздел


Я погорячился, когда сказал, что файлы копируются корректно: сейчас на распаковке на одном из упакованных недавних бекапов, копирующихся на системный раздел (и делающихся с рейд-раздела) получил CRC Error.

Пока писал сообщение, ещё один бекап распаковался с ошибками: ошибки только на больших файлах (>1G).

Скопировал эти упакованные бекапы на рейд-раздел: внезапно! распаковываются нормально.

С рейд-раздела на системный раздел много мелких файлов копируются нормально. На системном разделе хеш-проверки на мелких файлах тоже всегда сходятся. Проблемы только с большими (>1G).

На системном разделе распаковка больших файлов идёт медленно, раза в четыре медленней, чем на рейд-разделе.

Вот так вот локализуем проблемку.


Похоже, либо логические ошибки (прогоню chkdsk на неделе нормальный), либо винчестер на системный раздел умирает.
11.04.2010 20:04
blondbf
 
Один из скопированных обратно на рейд-раздел архивов при распаковке выплюнул CRC error. Похоже действительно случай с умирающим сигейтом.
11.04.2010 20:19
Propil
 
похожие симптомы бывают и при ошибках оперативной памяти, либо ее разгоне
Имеет смысл протестировать
11.04.2010 20:33
blondbf
 
Кстати да, прогоню ещё memtest.
Опции темы


Часовой пояс GMT +3, время: 10:21.

 

Форум сделан на основе vBulletin®
Copyright ©2000 - 2018, Jelsoft Enterprises Ltd. Перевод: zCarot и OlegON
В случае заимствования информации гипертекстовая индексируемая ссылка на Форум обязательна.