SSDs und SMART-Daten

SMART steht für System zur Selbstüberwachung, Analyse und Statusmeldung. Wie der Name schon sagt, handelt es sich um ein Tool, das die Zustandsdaten einer Festplatte (HDD) oder einer Solid State Drive (SSD) aufzeichnet. SMART-Daten können ein wertvolles Werkzeug sein, das eine Frühwarnung bietet, wenn ein Laufwerk Probleme hat oder das Ende seiner Nutzungsdauer erreicht. So hat man die Möglichkeit, es vor einem Ausfall auszutauschen.

Eine einfache Berichterstellung an einen Benutzer oder Systemadministrator ist wichtig, da das Laufwerk selbst nicht in der Lage ist, eine detaillierte Analyse der Daten durchzuführen. Das Laufwerk kann nur melden, wenn bestimmte Attribute die vorgegebenen Schwellenwerte überschritten haben, und auch nur dann, wenn die Schwellenwerte in der Firmware programmiert wurden.

SMART gibt es seit vielen Jahren und bestand schon lange vor dem Aufkommen der SSD. SMART wurde ursprünglich auf Festplatten implementiert und wurde dann für SSDs angepasst, als diese neue Technologie als Ersatz für die klassischen Laufwerke erfunden wurde. Leider gibt es unabhängig von der Speichertechnologie keinen branchenweiten Standard, der Ihnen sagt, welches nummerierte SMART-Attribut eine bestimmte physikalische Eigenschaft eines Laufwerks beschreibt. Die Attributdeskriptoren variieren zwischen SSD und Festplatte und sogar zwischen den verschiedenen SSD-Anbietern.

Es gibt mehrere Dienstprogramme von Drittanbietern, welche die SMART-Daten eines Laufwerks abrufen und in Berichten ausgeben können und häufig als Freeware und Shareware erhältlich sind. Wenn der Drittanbieter jedoch nicht mit dem Laufwerkshersteller die korrekten SMART-Attribute abklärt, können deren Definitionen und Schwellenwerte (falls zutreffend) die Attribute falsch kennzeichnen und zu falsch-positiven oder falsch-negativen Fehlermeldungen führen.

Wir haben Beispiele gesehen, bei denen das Attribut „Power-on Hours Count“ (Zeit in Betrieb) eine Zahl an das Dienstprogramm meldet und dann ein inkompatibles Dienstprogramm diese Zahl fälschlicherweise als „Program Fail Count“ (Programmfehler) oder „Reported Uncorrectable Errors“ (Gemeldete unkorrigierbare Fehler) bezeichnen könnte. Darüber hinaus kann es vorkommen, dass das Dienstprogramm eines Drittanbieters Fehlerschwellen aufweist, die für die betreffende SSD ungeeignet sind, sodass das Dienstprogramm SMART einen Fehler meldet, den der Hersteller als für den Betrieb akzeptabel erachtet.

Aufgrund dieser potenziellen Verwirrung empfiehlt Crucial, nur unsere Storage Executive Software als Hilfsmittel zu verwenden, um SMART-Daten auf Crucial SSDs genau abrufen und analysieren zu können. Storage Executive wird immer mit den richtigen Attributbeschreibungen und Schwellenwerten (falls zutreffend) für alle (bis auf die ältesten veralteten) Crucial SSDs programmiert.

Von Crucial definierte SMART-Attributbeschreibungen

Crucial SSDs zeichnen verschiedene Attribute auf, die von Storage Executive abgerufen werden können. Einige Attribute melden kritische Informationen über die SSD, während andere nur zur Information dienen.

Wir werden hier auf einige der wichtigsten eingehen. Wenn das Attribut für SATA und PCle unterschiedlich benannt ist, werden beide Namen angezeigt:

Attribut 202: Prozentsatz abgelaufener Lebensdauer (Percentage Lifetime Used)

Dieses Attribut entspricht exakt seinem Namen. Es ist ein Maß dafür, wie viel von der voraussichtlichen Lebensdauer des Laufwerks zu einem beliebigen Zeitpunkt bereits genutzt wurde. Bei einer brandneuen SSD meldet das Attribut 202 „0“, und wenn die angegebene Lebensdauer erreicht ist, zeigt es „100“ an und meldet, dass 100 Prozent der Lebensdauer genutzt wurden.

Es ist jedoch wichtig zu wissen, was es bedeutet, 100 Prozent der voraussichtlichen Lebensdauer zu erreichen – es bedeutet nicht, dass das Laufwerk gleich ausfällt, wenn dieser Zähler auf 101 Prozent steigt, sondern nur, dass Ihre SSD möglicherweise bald ausgetauscht werden muss.

Die Lebensdauer eines NAND-Flash-Gerätes wird durch ein weiteres Merkmal definiert: die Datenhaltung. Die Datenhaltung ist die Zeitspanne, für die das Gerät in einem stromlosen Zustand Benutzerdaten sicher speichern kann und ein erfolgreiches Abrufen ermöglicht. Bei brandneuen SSDs oder anderen NAND-Flash-Geräten beträgt die Datenhaltung im stromlosen Zustand mehrere Jahre. Wie beim menschlichen Gedächtnis wird diese Dauer jedoch im Laufe der Zeit kürzer, da sie durch das Schreiben von Daten (Datenlesen verursacht keinen direkten Verschleiß) abgenutzt wird.

Der Joint Electron Device Engineering Council (JEDEC) ist die Industriegruppe, die Normen und Spezifikationen für halbleiterbasierte Geräte und Baugruppen erstellt. Micron ist ein führendes Mitglied des JEDEC, der die Datenhaltung auf eine bestimmte Weise definiert: Bei SSDs in Client-Anwendungen (wie Geschäfts- oder Personalcomputern) beträgt die Datenhaltung für eine SSD ein Jahr, im stromlosen Zustand, gelagert bei 30 °C (86 °F). Dies sollte den meisten Computerbenutzern genügend Zeit geben, um bei Bedarf alle Daten von einem unbenutzten Laufwerk abzurufen, auch wenn es einige Zeit im Regal gelegen hat.

Aus dieser Beschreibung können Sie vielleicht ersehen, dass die SSD recht gut funktionieren wird, solange der Lebensdauerzähler in Richtung 100 Prozent ansteigt. Im Laufe der Zeit wird sich die Datenhaltung jedoch von einem Jahr auf sechs Monate auf drei Monate und so weiter verringern. Letztendlich werden neue Schreibvorgänge lange nach der garantierten Lebensdauer des Laufwerks im stromlosen Zustand überhaupt nicht mehr gespeichert werden können.

Die SSD-Firmware berücksichtigt dies jedoch. Mit zunehmendem Alter der SSD können Fehlerkorrekturcodes (Error Correction Code, ECC), Lesewiederholungen, adaptive Leseparameter, Hintergrunddatenpflege und andere Korrekturen in der Firmware Probleme beheben, die aufgrund der allmählich abnehmenden Datenhaltung auftreten. Da sich NAND-Datenblöcke verschlechtern, können sie mit integrierten Mitteln ersetzt und der normale Betrieb kann fortgesetzt werden. Natürlich finden alle diese Hintergrundoperationen bei Stromzufuhr statt und deshalb wird die Datenhaltung in einem nicht eingeschalteten Zustand definiert.

Attribut 5: Ausgediente NAND-Blöcke (Retired NAND Blocks)

Die Anzahl der Blöcke, die durch diesen Prozess der kontinuierlichen Bewertung der Qualität von NAND-Blöcken ausgemustert wurden, wird im SMART-Attribut 5 verfolgt. Die SSD-Firmware stellt NAND-Blöcke aus verschiedenen Gründen neben dem oben beschriebenen Problem der Beanspruchung und Datenhaltung außer Betrieb. Ein Grund für die Ausmusterung ist das Nichtlöschen eines Blocks beim Löschen von Daten oder beim Verschieben von Daten während der Garbage Collection. Diese Art von Fehler verursacht nur ein geringes Risiko für die Benutzerdaten, da die betroffenen Daten gelöscht werden oder bereits erfolgreich an einen neuen Ort auf der SSD kopiert wurden.

Attribut 180: Anzahl ungenutzter reservierter Blöcke (Unused Reserved Block Count – verfügbare Reserveblöcke auf PCIe SSDs)

Auch hier ist dies, wie der Name schon sagt, die Anzahl der zusätzlichen Blöcke, die für den Fall, dass fehlerhafte Blöcke ausgemustert werden müssen, verwendet werden können. Diese Anzahl variiert je nach zugrundeliegender NAND-Architektur, Firmware-Architektur und Benutzerkapazität des Laufwerks. Sie beginnt jedoch in der Regel bei Tausenden.

Diese Zahl nimmt ab, wenn die Anzahl ausgemusterter Blöcke zunimmt. Wenn das Attribut 180 den Wert 0 erreicht, versetzt die Firmware die SSD in den schreibgeschützten Modus. Die SSD ist somit nicht mehr als normales Laufwerk verwendbar, aber der Benutzer sollte in der Lage sein, gespeicherte Daten abzurufen und auf ein neues Gerät zu übertragen. Wenn diese Zahl unter circa 100 fällt, wird dringend empfohlen, das Laufwerk auszutauschen.

Attribut 210: RAIN Seitenanzahl erfolgreicher Wiederherstellungen (RAIN Successful Recovery Page Count)

Redundant Array of Independent NAND (RAIN) ist der Gewinnung von Datenredundanz durch RAID in einem Laufwerksarray sehr ähnlich. Die RAIN-Redundanz wird jedoch innerhalb des Laufwerks und für den Benutzer transparent durchgeführt. RAIN ist eine Funktion, mit der die SSD die Benutzerdaten schützt und die Lebensdauer der Festplatte verlängert.

RAIN-Ereignisse sind relativ selten. Wenn diese Anzahl also groß wird, ist es an der Zeit, einige der oben genannten Attribute zu untersuchen und zu prüfen, ob das Laufwerk ausgetauscht werden muss. Häufige RAIN-Ereignisse können zu einer spürbaren Leistungsabnahme führen. Die Verwendung von Paritätsredundanz zur Datenwiederherstellung ermöglicht den normalen Laufwerksbetrieb, verbraucht aber eine gewisse I/O-Bandbreite. Wenn Leistungseinbußen häufig auftreten, können RAIN-Rekonstruktionen der Grund dafür und Anlass zu Besorgnis sein.

Attribut 174: Anzahl unerwarteter Stromausfälle – Unsichere Abschaltungen bei PCIe SSDs (Unexpected Power Loss Count – Unsafe Shutdowns Count on PCIe SSDs)

Einem normalen Leistungsverlust in einem Computersystem geht eine Meldung vom Host-Computer an die SSD voraus, dass die Stromversorgung gleich unterbrochen wird. Diese Warnung gibt der SSD genügend Zeit, um sämtliche laufenden Aktivitäten abzuschließen. Nach Abschluss sendet die SSD eine Meldung zur „Bestätigung“ an den Host und der Host beendet den Abschaltvorgang.

Es gibt zahlreiche Situationen, in denen die Stromversorgung unerwartet ausfällt, was zu Problemen für die SSD führen kann. Unter fast allen Bedingungen kann die SSD dies kompensieren, obwohl die nächste Boot-Up-Zeit etwas länger dauern kann (ein paar Sekunden statt Hunderte Millisekunden), aber das System wird erneut hochfahren.

Das Attribut 174 dient in der Regel nur der Information. Eine große Anzahl solcher Ereignisse kann jedoch darauf hindeuten, dass ein Benutzer in Bezug auf das ordnungsgemäße Herunterfahren von Betriebssystemen geschult werden sollte oder dass ein Problem mit der Stromversorgung oder den Anschlüssen vorliegen könnte.

Attribut 194: Gehäusetemperatur bzw. Gerätetemperatur bei PCIe (Enclosure Temperature – Device Temperature on PCIe)

Die Crucial Storage Executive Software meldet sowohl die aktuelle Temperatur als auch die höchste bisher erreichte Temperatur in Celsius, die von einem Sensor auf der SSD gemessen wird. Der angegebene Betriebsbereich für die meisten Crucial SSDs beträgt 0 °C bis 70 °C (bzw. 32 °F bis 158 °F). Temperaturen über 70 °C können die Produktgarantie aufheben und daher sollte die Temperatur regelmäßig überwacht werden. Wenn die Temperaturen regelmäßig über 65 °C liegen, sind Korrekturmaßnahmen wie etwa eine bessere Belüftung und Lüfter empfehlenswert.

Einige abschließende Gedanken

SMART kann ein sehr nützliches Tool zur Überwachung des Zustands Ihrer SSD sein. SMART ist jedoch kein umfassendes Diagnosetool. Informationen, die aus SMART-Attributen gewonnen werden, können zusammen mit der Diagnose des Betriebssystems einen guten Ausgangspunkt für übliche Fehlerbehebungsmaßnahmen bilden.

Falsch gemeldete oder fehlinterpretierte SMART-Daten können zu falschen Schlussfolgerungen führen, was leider zur Rückgabe eines perfekt funktionierenden Laufwerks führen kann. Daher kann man nicht oft genug wiederholen, dass Crucial nachdrücklich empfiehlt, dass nur die Crucial Storage Executive Software zum Lesen von SMART-Daten von Crucial SSDs verwendet wird.

© 2019 Micron Technology, Inc. Alle Rechte vorbehalten. Informationen, Produkte und/oder Spezifikationen können ohne Vorankündigung geändert werden. Weder Crucial noch Micron Technology, Inc. sind für Auslassungen oder Fehler in Texten oder Bildern verantwortlich. Micron, das Micron Logo, Crucial und das Crucial Logo sind Markenzeichen oder eingetragene Markenzeichen von Micron Technology, Inc. PCI Express und PCIe sind eingetragene Markenzeichen von PCI-SIG. Alle anderen Markenzeichen und Dienstleistungsmarken sind Eigentum ihrer jeweiligen Inhaber.


Live-Chat
Offline chatten