Форум по программам и оборудованию > >

Как анализировать значения/показатели отчета SMART носителя

19.07.2019 11:06


18.02.2017 13:03
OlegON
 
Большинство из нас знает, что существует отчет SMART, показывающий, насколько исправен носитель. Однако, например, я далеко не всегда точно знаю, что именно обозначает та или иная метрика в отчете. Предлагаю делиться информацией и замечаниями. Начну с базового.

В отчетах содержатся данные
Value - текущее значение метрики
Threshold - минимальное пороговое значения метрики
Worst - самое худшее значение метрики за все время работы накопителя
Raw - абсолютное значение метрики
Type - некоторые из программ в данном необязательном поле отображают информацию из флажков атрибутов или признаки их критичности (Critical или Pre-Fail , отражающих ухудшение характеристик оборудования, и Old-age для атрибутов, отражающих выработку ресурса);

Для анализа состояния накопителя, пожалуй самым важным значением атрибута является Value - условное число (обычно от 0 до 100 или до 253), заданное производителем. Значение Value изначально установлено на максимум при производстве накопителя и уменьшается в случае ухудшения его параметров. Для каждого атрибута существует пороговое значение, при достижения которого, производитель не гарантирует его работоспособность - поле Threshold. Если значение Value приближается или становится меньше значения Threshold, - накопитель пора менять.

Ниже - снял отчет smartctl с ноутбука жены (Hitachi/HGST Travelstar 5K750).

Код:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   099   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0025   100   100   040    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0023   197   100   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0032   097   097   000    Old_age   Always       -       5092
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       16 (0 2)
  7 Seek_Error_Rate         0x002f   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   040    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   069   069   000    Old_age   Always       -       13885
 10 Spin_Retry_Count        0x0033   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       5079
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       201870868480
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       1966081
190 Airflow_Temperature_Cel 0x0022   067   054   045    Old_age   Always       -       33 (Min/Max 22/33)
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       875864
192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       26411411
193 Load_Cycle_Count        0x0032   018   018   000    Old_age   Always       -       824989
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       2
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   100   100   000    Old_age   Always       -       0
223 Load_Retry_Count        0x002a   100   100   000    Old_age   Always       -       0
Можно использовать для попунктного анализа...
18.02.2017 13:08
OlegON
 
Вот список параметров SMART
Цитата:
001 ( 1h ) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. Из практики могу сказать, что накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще не поддерживают данный атрибут.

002 ( 02h ) Throughput Performance - усредненная производительность жесткого диска. Редко встречающийся атрибут.

003 ( 3h ) Spin Up Time - Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости. Для SSD дисков не поддерживается.

004 ( 4h ) Start/Stop Count - Количество циклов запуск/останов шпинделя.

005 ( 5h ) Reallocated Sector Count - Количество переназначенных ( перераспределенных) секторов . Современные накопители имеют резервную область поверхности для использования ее объема в случае ухудшения характеристик блоков из основной зоны. Если микропрограмма накопителя обнаруживает ошибки с записи/чтения какого-либо блока рабочей поверхности, то запускается механизм, обеспечивающий переадресацию обращений к дефектному блоку ( сектору ), на блок из резервной части. Он автоматически перемещает его данные в резервную область, а данный блок помечается как "переназначенный". Часто этот процесс называют "remapping", или "automatic defect reassignment". Процедура переназначения сбойных секторов на резервные, выполняется автоматически внутренней микропрограммой накопителя, и для пользователя (операционной системы) она невидима. Сам факт переназначения и количество переназначенных секторов доступны только из журналов SMART. Поле абсолютного значения атрибута Raw Value содержит общее количество переназначенных секторов. Нормализованное значение Value отражает процент допустимого количества дефектных блоков. При исчерпании резервной области, переназначение становится невозможным и диск подлежит замене. Даже некритическое, но большое значение этого поля, может привести к снижению скорости обмена данными, поскольку накопитель выполняет дополнительные операции установки головок на дорожки резервной области, которая обычно находится в конце рабочей поверхности диска.

007 ( 7h ) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ) . Дисковые накопители контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. На практике, большое количество ошибок позиционирования может быть вызвано не только проблемами оборудования, но и влиянием внешних факторов – не соответствующим температурным режимом или вибрацией.

008 ( 8h ) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.

009 (09h) Power-On Hours (POH) Количество рабочих часов - количество часов, когда диск находился во включенном состоянии за весь срок с момента производства, в виде целочисленного значения в часах. Иногда встречаются модели накопителей, в которых внутреннее значение данного атрибута сохраняется в виде количества рабочих минут или секунд, а не часов. Достижение порогового значения данного атрибута означает выработку ресурса, заданного производителем ( MTBF - Mean Time Between Failures

010 ( 0Ah ) Spin Retry Count - Количество повторных попыток старта шпинделя. После включения питания, накопитель раскручивает диски и контролирует достижение рабочей скорости вращения, заданной производителем для данной модели . Если за отведенное контрольное время рабочая скорость не достигнута, увеличивается значение данного атрибута и выполняется повторная раскрутка двигателя.

011 ( 0B ) Recalibration Retries - атрибут отражает количество повторных рекалибровок, в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью накопителя. Кроме того, увеличение абсолютного значения данного атрибута может быть вызвано тем, что процедура рекалибровки используется внутренней микропрограммой накопителя для коррекции других типов ошибок.

012 ( 0Ch ) Device Power Cycle Count - абсолютное значение Raw Value указывает на количество циклов включения/выключения питания накопителя за весь период эксплуатации. Нормализованное значение Value обычно не изменяется и равно 100.

013 ( 0Dh ) - Soft Read Error Rate - Количество программных сбоев - совокупное количество программных сбоев. Нормализованное значение: начиная со 100, отображает процент оставшегося допустимого нарастающего количества программных сбоев.

100 ( 64h ) Erase/Program Cycles - количество циклов стирания –записи перепрограммируемой памяти (flash) для SSD-дисков. Количество таких циклов ограниченно и зависит от микросхем постоянной перезаписываемой памяти, используемых в данной модели SSD.

103 ( 67h ) Translation Table Rebuild - количество событий, связанных с разрушением внутренних таблиц транслятора и его перестроением.

170 ( AAh )Reserved Block Count - количество доступных резервных блоков для переназначения сбойных секторов (см. атрибут E8h).

171 ( ABh ) Program Fail Count - ошибки записи в перепрограммируемую память SSD

172 ( ACh ) Erase Fail Count – ошибки стирания flash-памяти SSD. Процесс записи в перезаписываемую постоянную память состоит из двух частей - стирания и записи. Процедура стирания всегда выполняется перед записью данных.

173 ( ADh ) Wear Leveller Worst Case Erase Count - максимально допустимое количество операций стирания для единичного блока SSD-диска.

174 ( AEh) Unexpected Power Loss - непредвиденное отключение питания для SSD . Также этот показатель называется «Количество аварийных выключений» в терминологии жестких дисков с магнитными носителями. Абсолютное значение Raw Value: совокупное количество нештатных выключений за весь срок использования устройства.

175 ( AFh ) Program Fail Count– данный атрибут используется в SSD-накопителях производства Intel и отображает информацию о сбоях защиты от отключения питания SSD-дисков. Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Также записывается количество минут после последнего теста и общее количество тестов за весь срок использования устройства. Необработанное значение Raw Value:
Байты 0—1: Результаты последнего теста в виде количества микросекунд до разряда конденсатора,
фиксируется на максимальном значении. Результат теста должен быть в диапазоне
25 - 5 000 000, более низкое значение указывает на определенный код ошибки.
Байты 2—3: количество минут после последнего текста, фиксируется на максимальном значении.
Байты 4—5: количество тестов за весь срок использования устройства, не увеличивается при циклах включения и отключения,
фиксируется на максимальном значении.
Значение Value устанавливается равным 1 при сбое теста, или 11 при тестировании конденсатора в недопустимых температурных условиях; в противном случае устанавливается равным 100.

183 ( B7h ) SATA Downshifts - Количество снижений скорости SATA Необработанное значение: количество случаев, когда из-за ошибок для интерфейса SATA была выбрана пониженная скорость передачи данных ( с 6 Гб/с до 3Гб/с или 1,5Гб/с или с 3Гб/с. До 1.5Гб/с. Очень часто данный атрибут характеризует недостаточное качество электропитания, окисление контактов интерфейсного кабеля, или его неисправность.

184 ( B8h ) End-to-End error Количество обнаруженных сквозных ошибок кэш-памяти ( disk cache). Абсолютное значение: количество обнаруженных и исправленных оборудованием сквозных ошибок.

187 ( BBh ) Reported Uncorrectable Errors Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.

188 ( BCh ) Command Timeout - количество команд, прерванных по таймауту.

189 ( BDh ) High Fly Writes - количество событий, связанных с ошибками, зафиксированными монитором контроля высоты полета Fly Height Monitor, когда головки записи находятся в положении, не гарантирующем нормальное выполнение операции. Если высота полета головки над магнитной поверхностью, даже на короткое время превысит оптимальную, то записанные ею данные, в дальнейшем, могут не прочитаться. Современные накопители используют специально разработанную технологию контроля высоты полета головок, позволяющую не выполнять запись данных при неоптимальной высоте. В счетчик данного атрибута добавляется единица, а запись выполняется после установки нормальной высоты полета. Повышенное значение данного атрибута может быть вызвано внешними ударами или вибрациями, ненормальной температурой, ухудшением характеристик магнитной поверхности или головки.

190 ( BEh ) Airflow Temperature температура воздушного потока (корпус). Значение Raw Value: статистические данные по температуре корпуса .

Байты 0—1: текущая температура корпуса в градусах по Цельсию;
байт 2: недавняя минимальная температура корпуса в градусах по Цельсию;
байт 3: недавняя максимальная температура корпуса в градусах по Цельсию;
байты 4—5: счетчик превышений температуры. Количество случаев, когда зафиксированная температура
превышала максимальную допустимую рабочую температуру накопителя.

191 ( BFh ) G-sense error rate - количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера. Обычно довольно точно характеризует условия эксплуатации ноутбуков - большое значение атрибута говорит о резких толчках и падениях при работе устройства.

192 ( C0h ) Emergency Retract Cycle Count Количество аварийных выключений (количество нештатных выключений) - совокупное количество событий аварийного (нештатного) отключения питания за весь срок использования устройства. Для SSD дисков под «нештатным выключением» понимается отключение питания устройства без предварительной выдачи команды STANDBY IMMEDIATE.

194 ( C2h ) HDA Temperature - температура самого накопителя (HDA - Hard Disk Assembly). В данном атрибуте хранятся показания встроенного температурного датчика, которым обычно служит одна из магнитных головок (как правило - нижняя ). У SSD дисков термодатчик размещается внутри корпуса на печатной плате. Данные, записанные в полях атрибута отображают текущую, минимальную и максимальную температуру. Поле Worst показывает наихудшую, достигнутую за время работы накопителя, температуру (можно установить факт перегрева и его степень), Raw Value - текущую температуру. Некоторые модели накопителей могут поддерживать атрибут 205 ( CDh ) Thermal asperity rate (TAR), фиксирующий количество опасных перепадов температуры.

195 ( C3h ) Hardware ECC Recovered - количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.

196 ( C4h ) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.

197 ( C5 ) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область . Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).

198 ( C6 ) Uncorrectable Sector Count - Счетчик некорректируемых ошибок, т.е , счетчик ошибок, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Это означает, что такие ошибки проявляются как классические сбойные блоки файловой системы ( Bad Block ). Причиной подобных сбоев диска, может быть неисправность отдельных элементов или отсутствие свободных секторов в резервной области диска, когда возникла необходимость переназначения.

199 ( C7h ) UltraDMA CRC Error Rate - Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода (англ. Cyclic redundancy check, CRC). Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее “на лету”, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой. Обычно, данный атрибут содержит счетчик любых видов ошибок CRC. Нередко этот тип ошибки связан не столько с оборудованием накопителя, сколько с неисправным интерфейсным кабелем, окислившимися контактами, некачественным электропитанием, разгоном частоты шины PCI, перегревом микросхем чипсета материнской платы и т.п.

200 ( C8h ) Write Error Rate (Multi Zone Error Rate) - ошибки записи данных.

232 ( E8h ) Total Count of Write Sectors Для SSD-дисков - количество записанных секторов. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой. Для SSD Intel - Intel SSD Available Reserved Space - процент доступной резервной области, используемой для переназначения дефектных блоков.

233 ( E9h ) Power-On Hours - Время работы накопителя. Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ.

241 ( F1h) Total LBAs Written - Общее количество записанных секторов LBA. Значение Raw Value : совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.

242 ( F2h ) Total LBAs Read - Общее количество прочитанных секторов LBA. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой.

254 ( FEh ) Free Fall Event Count - количество событий ускорения свободного падения диска за время эксплуатации ( сколько раз диск падал ).
18.02.2017 13:30
OlegON
 
Цитата:
OlegON 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 13885
Что-то не очень понимаю, что имеет ввиду производитель... 69 чего... Но 13885/24=578 суток работал ноут...
Цитата:
OlegON 191 G-Sense_Error_Rate 0x0032 001 001 000 Old_age Always - 875864
Тааак, уронила разок (созналась, что и не разок)... Интересно, что значит цифра в RAW...
Цитата:
OlegON 4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 5092
С учетом наработанных часов как-то и затрудняюсь сказать, что это такое, видимо, диск все же засыпал... Не количество же ребутов/выключений...
Цитата:
OlegON 193 Load_Cycle_Count
Как я понял, это - число парковок головок.. Хм. А я все ломал голову, почему оно тупит, когда я интервал сброса буферов увеличивал...
Сделал
Код:
hdparm -B 255 /dev/sda
перестало издеваться... Полезно иногда разбираться...
18.02.2017 13:57
OlegON
 
Вот метрика с SSD (INTEL SSDSC2CW240A3) форумного "сервера"
Код:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   000   000   000    Old_age   Always       -       927013h+58m+37.080s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       35
170 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       35
184 End-to-End_Error        0x0033   100   100   090    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       35
225 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       651226
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       65535
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       60
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       65535
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   100   100   000    Old_age   Always       -       0
241 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       651226
242 Host_Reads_32MiB        0x0032   100   100   000    Old_age   Always       -       983681
249 NAND_Writes_1GiB        0x0013   100   100   000    Pre-fail  Always       -       22351
как-то я с аптаймом озадачен... Но прирост вполне вменяемый и похожий на правду...
20.02.2017 12:07
grannie
 
Меня обычно прежде всего интересуют
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 16 (0 2)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 2
причём RAW-значения.
Ненулевые (как у тебя) свидетельствуют о начале конца диска. Конец может быть долгим, но неминуем Почти не видел дисков с "застывшим" ненулевым значением этих параметров. Если начало сыпаться - будет сыпаться и дальше.
Меняй, в общем..
20.02.2017 12:38
baggio
 
Показатели для хдд и ссд как я понимаю отличаются?
20.02.2017 12:43
OlegON
 
Внезапно нашел старую тему по SMART

Цитата:
grannie Если начало сыпаться - будет сыпаться и дальше
Да, вот уже поставил напоминалку через месяц посмотреть, что там с этим параметром, машинка чисто рабочая, данных нет, поэтому интересно будет посмотреть предсказания SMART'а так сказать. Есть подозрения, что это повреждения после падения... Или неверное определение этих повреждений.
20.02.2017 12:44
OlegON
 
Цитата:
baggio Показатели для хдд и ссд как я понимаю отличаются?
Ну, физика-то разная... И контроллеры разные...
13.03.2017 09:40
OlegON
 
Цитата:
OlegON 191 G-Sense_Error_Rate 0x0032 001 001 000 Old_age Always - 875864
Цитата:
191 G-Sense_Error_Rate 0x0032 001 001 000 Old_age Always - 907316
остальные показатели не меняются... никто не знает, что это за числа? уж больно большая разница... сейчас на ходу изменений не вижу... кстати, Reallocation пока тоже не меняется...
13.03.2017 11:29
grannie
 
Накопительный счётчик G-сенсора. Отражает "переносимость" девайса во времени: чем быстрее растёт, тем больше девайс таскается. Напрямую ни на что не влияет, но может служить косвенным доказательством "небережного отношения", особенно при резких его скачках.

Форум на базе vBulletin®
Copyright © Jelsoft Enterprises Ltd.
В случае заимствования информации гипертекстовая индексируемая ссылка на Форум обязательна.