poniedziałek, 2020-11-30

System monitorowania S.M.A.R.T.

Częstą przyczyną awarii komputera jest uszkodzenie dysku twardego. W wielu przypadkach kończy się to utratą danych. S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) to technologia pozwalająca w porę przewidzieć uszkodzenie dysku.

Pomysł, aby monitorować stan dysków, nie jest nowy. Na początku lat dziewięćdziesiątych ubiegłego stulecia firma IBM w macierzach dyskowych IBM 9337 dla serwerów AS/400 wykorzystujących dyski IBM 0662 SCSI-2 wprowadziła technologię nazwaną później jako Predictive Failure Analysis (PFA). Badanych było kilka kluczowych parametrów stanu urządzenia, jednak raportowanie ograniczało się do zero-jedynkowego stwierdzenia „działa prawidłowo” lub „wkrótce możliwa jest awaria”. Wkrótce później amerykańskie przedsiębiorstwo Compaq we współpracy z producentami dysków twardych, firmami Seagate, Quantum i Conner wprowadziło system IntelliSafe, w którym wartości monitorowanych parametrów mogły być odczytywane przez specjalistyczne oprogramowanie.

W połowie lat dziewięćdziesiątych firma Compaq zwróciła się do komitetu Small Form Factor (SFF) z wnioskiem o ustanowienie standardu na podstawie IntelliSafe. Miało to doprowadzić do sytuacji, w której każdy producent dysków twardych stosowałby taką samą technologię monitorowania. Opracowany standard nazwano jako S.M.A.R.T., jego pierwsza wersja opisywała stosowany do monitorowania protokół komunikacyjny dla hosta ATA, jednak nie określała żadnych konkretnych metod analizy i badanych parametrów. W 2004 roku technologia S.M.A.R.T. została włączona do standardu AT Attachment (ATA).

Obecnie specyfikacja systemu S.M.A.R.T. zawiera około osiemdziesięciu potencjalnych atrybutów, za krytyczne uznawanych jest jedynie kilka. W praktyce wiele parametrów określonych w specyfikacji nie jest monitorowanych.

Parametry S.M.A.R.T. uznane za krytyczne:

(01) częstotliwość błędów podczas odczytu (Read Error Rate) – niezerowa wartość wskazuje na problemy z powierzchnią dysku lub głowicą.
(05) liczba przeniesionych sektorów (Reallocated Sectors Count) – liczba błędnych sektorów na dysku przeniesionych do obszaru zapasowego, po wyczerpaniu przewidzianego dla nich miejsca, pojawianie się kolejnych uszkodzonych sektorów doprowadza do błędnej pracy dysku.
(0A) liczba prób ponownego rozpoczęcia wirowania dysku (Spin Retry Count) – podaje liczbę prób wprawiania dysku w ruch po nieudanej pierwszej próbie, wzrost wartości tego parametru może świadczyć o problemach z mechaniką dysku.
(C4) liczba operacji realokowania (Reallocation Event Count) – podaje liczbę operacji realokowania sektorów i jest związana z parametrem „Reallocated Sectors Count”, jeśli są one równe, oznacza to, że wszystkie próby przeniesienia się udały.
(C5) liczba sektorów niestabilnych (Current Pending Sector Count) – liczba sektorów oznaczonych jako niestabilne i czekających na operację remapowania.
(C6) liczba nie naprawionych błędów (Uncorrectable Sector Count) – liczba błędów, które nie zostały naprawione.

Tabela parametrów S.M.A.R.T.

Oznaczenia w Polu interpretacja:

(-) im mniejsza wartość, tym lepiej;
(+) lepiej jeśli się nie zmniejsza

Kod dec (hex)	Nazwa atrybutu	Interpretacja
1 (1)	Raw Read Error Rate	(-)
2 (2)	Throughput Performance	(+)
3 (3)	Spin Up Time	(-)
4 (4)	"Start/Stop Mount (Number of spin-up times)"
5 (5)	Reallocated Sectors Count	(-)
6 (6)	Read Channel Margin
7 (7)	Seek Error Rate	(-)
8 (8)	Seek Time Performance	(+)
9 (9)	Power-On Hours	(-)
10 (0A)	"Spin Retry Count (Spin-up retries)"	(-)
11 (0B)	Recalibration Retries	(-)
12 (0C)	"Device Power Cycle Mount (Start/stop count)"
13 (0D)	Soft Read Error Rate	(-)
184 (B8)	End-to-End Error	(-)
185 (B9)	Head Stability
186 (BA)	Induced Op-Vibration Detection
187 (BB)	Reported UNC Error	(-)
188 (BC)	Command Timeout	(-)
189 (BD)	High Fly Writes	(-)
190 (BE)	Airflow Temperature	(-)
191 (BF)	G-sense error rate	(-)
192 (BE)	Power-off retract count	(-)
193 (C1)	Load/Unload Cycle Count	(-)
194 (C2)	HDA Temperature	(-)
195 (C3)	Hardware ECC Recovered	(+)
196 (C4)	Reallocation Event Count	(-)
197 (C5)	Current Pending Sector Count	(-)
198 (C6)	"Uncorrectable Sector Mount (Offline scan UNC sectors)"	(-)
199 (C7)	UltraDMA CRC Error Count	(-)
200 (C8)	"Write Error Rate (Multi Zone Error Rate)"	(-)
201 (C9)	Off-track errors Mount	(-)
202 (CA)	Data Address Mark errors	(-)
203 (CB)	Run Out Cancel	(-)
204 (CC)	Soft ECC Correction	(-)
205 (CD)	Thermal Asperity Rate (TAR)	(-)
206 (CE)	Flying Height
207 (CF)	Spin High Current	(-)
208 (D0)	Spin Buzz
209 (D1)	Offline Seek Performance
211 (D3)	Vibration During Write
212 (D4)	Shock During Write
220 (DC)	Disk Shift	(-)
221 (DD)	G-Sense Error Rate	(-)
222 (DE)	Loaded Hours
223 (DF)	Load/Unload Retry Count
224 (E0)	Load Friction	(-)
225 (E1)	Load/Unload Cycle Count	(-)
226 (E2)	Load 'In'-time
227 (E3)	Torque Amplification Count	(-)
228 (E4)	Power-Off Retract Cycle	(-)
230 (E6)	GMR Head Amplitude
231 (E7)	Temperature	(-)
240 (F0)	Head Flying Hours
241 (F1)	Total LBA-s Written
242 (F2)	Total LBA-s Read
250 (FA)	Read Error Retry Rate	(-)
254 (FE)	Free Fall Protection	(-)

Centrum Kształcenia Zawodowego i Ustawicznego w Mrągowie

System monitorowania S.M.A.R.T.

Tabela parametrów S.M.A.R.T.

Nasze technikum

Szkoły dla dorosłych

Pełna oferta edukacyjna