SSDs und SMART-Daten

SMART steht für Selbstüberwachungs-, Analyse- und Berichterstattungstechnologie. Wie der Name schon sagt, handelt es sich um ein Tool, das die Zustandsdaten einer Festplatte (HDD) oder einer Solid State Drive (SSD) aufzeichnet. SMART-Daten können ein wertvolles Werkzeug sein, das eine Frühwarnung bietet, wenn ein Laufwerk Probleme hat oder das Ende seiner Nutzungsdauer erreicht. So hat man die Möglichkeit, es vor einem Ausfall auszutauschen.

Eine einfache Berichterstattung an einen Benutzer oder Systemadministrator ist wichtig, da das Laufwerk selbst nicht in der Lage ist, eine detaillierte Analyse der Daten durchzuführen. Das Laufwerk kann nur melden, wenn bestimmte Attribute die vorgegebenen Schwellenwerte überschritten haben, und dann nur, wenn die Schwellenwerte in der Firmware programmiert wurden.

SMART gibt es seit vielen Jahren und bestand schon lange vor dem Aufkommen der SSD. SMART wurde ursprünglich auf Festplatten implementiert und später für SSDs angepasst, als diese neue Technologie als Ersatz für die klassischen Laufwerke erfunden wurde. Leider gibt es unabhängig von der Speichertechnologie keinen branchenweiten Standard, der Ihnen sagt, welches nummerierte SMART-Attribut eine bestimmte physikalische Eigenschaft eines Laufwerks beschreibt. Die Attributdeskriptoren variieren zwischen SSD und Festplatte und sogar zwischen den verschiedenen SSD-Anbietern.

Es gibt mehrere Dienstprogramme von Drittanbietern, die die SMART-Daten eines Laufwerks abrufen und in Berichten ausgeben können. Diese sind häufig als Freeware und Shareware erhältlich. Wenn der Drittanbieter jedoch nicht mit dem Laufwerkshersteller die korrekten SMART-Attribute abklärt, können deren Definitionen und Schwellenwerte (falls zutreffend) die Attribute falsch kennzeichnen und zu falsch-positiven oder falsch-negativen Fehlermeldungen führen.

Wir haben Beispiele gesehen, bei denen das Attribut „Power-on Hours Count“ (Stunden in Betrieb) eine Zahl an ein inkompatibles Dienstprogramm meldet, das diese Zahl dann fälschlicherweise als „Program Fail Count“ (Programmfehler) oder „Reported Uncorrectable Errors“ (Gemeldete unkorrigierbare Fehler) bezeichnen könnte. Darüber hinaus kann es vorkommen, dass das Dienstprogramm eines Drittanbieters Fehlerschwellen enthält, die für die betreffende SSD ungeeignet sind, sodass das SMART-Dienstprogramm einen Fehler an einem Punkt meldet, den der Hersteller als akzeptablen Betrieb erachtet.

Aufgrund dieser möglichen Fehlmeldungen empfiehlt Crucial, nur unsere Software Storage Executive als Tool zum korrekten Abrufen und Analysieren von SMART-Daten auf Crucial SSDs zu verwenden. Storage Executive wird immer mit den richtigen Attributbeschreibungen und Schwellenwerten (falls zutreffend) für alle bis auf die ältesten Alt-SSDs von Crucial programmiert.

Beschreibungen der von Crucial definierten SMART-Attribute

Crucial SSDs zeichnen verschiedene Attribute auf, die von Storage Executive abgerufen werden können. Einige Attribute melden kritische Informationen über die SSD, während andere nur zur Information dienen.

Wir werden hier auf einige der wichtigsten eingehen. Wenn das Attribut für SATA und PCle unterschiedlich benannt ist, werden beide Namen angezeigt:

Attribut 202: Verbleibende Lebensdauer in Prozent (prozentuale Nutzungsdauer über PCIe)

Dieses Attribut entspricht exakt seinem Namen. Es gibt an, wie viel Prozent der voraussichtlichen Lebensdauer des Laufwerks zu einem bestimmten Zeitpunkt erreicht sind. Wenn die SSD brandneu ist, meldet das Attribut 202 „100“. Beim Erreichen der angegebenen Lebensdauer hat es den Wert „0“, was 0 Prozent restliche Lebensdauer bedeutet.

Sie sollten sich jedoch wissen, welche Bedeutung die voraussichtliche Lebensdauer hat. Sie besagt nicht, dass das Laufwerk beim Erreichen des Zählers Null ausfällt, sondern nur, dass Ihre SSD in diesem Fall möglicherweise bald ersetzt werden muss.

Die Lebensdauer eines NAND-Flash-Gerätes wird durch ein weiteres Merkmal definiert: die Datenhaltung. Die Datenhaltung ist die Zeitspanne, für die das Gerät in einem stromlosen Zustand Benutzerdaten sicher speichern kann und ein erfolgreiches Abrufen ermöglicht. Bei brandneuen SSDs oder anderen NAND-Flash-Geräten beträgt die Datenhaltung im stromlosen Zustand mehrere Jahre. Wie beim menschlichen Gedächtnis wird diese Dauer jedoch im Laufe der Zeit kürzer, da sie durch das Schreiben von Daten (Datenlesen verursacht keinen direkten Verschleiß) abgenutzt wird.

Der Joint Electron Device Engineering Council (JEDEC) ist die Industriegruppe, die Normen und Spezifikationen für halbleiterbasierte Geräte und Baugruppen erstellt. Micron ist ein führendes Mitglied des JEDEC, der die Datenhaltung auf eine bestimmte Weise definiert: Bei SSDs in Client-Anwendungen (wie Geschäfts- oder persönlichen Computern) beträgt die Datenhaltung für eine SSD im stromlosen Zustand, gelagert bei 30 °C (86 °F), ein Jahr. Dies sollte den meisten Computerbenutzern genügend Zeit geben, um bei Bedarf alle Daten von einem unbenutzten Laufwerk abzurufen, auch wenn es einige Zeit im Regal lag.

Wie oben dargelegt können Sie also davon ausgehen, dass die SSD korrekt funktionieren wird, solange der Zähler für die Lebensdauer von 100 Prozent herunterzählt. Im Laufe der Zeit wird sich die Datenhaltung jedoch von einem Jahr auf sechs Monate auf drei Monate und so weiter verringern. Letztendlich können neue Schreibvorgänge lange nach der garantierten Lebensdauer des Laufwerks im stromlosen Zustand überhaupt nicht mehr gespeichert werden.

Die SSD-Firmware berücksichtigt dies jedoch. Mit zunehmendem Alter der SSD können Fehlerkorrekturcodes (Error Correction Code, ECC), Lesewiederholungen, adaptive Leseparameter, Hintergrunddatenpflege und andere Korrekturen in der Firmware Probleme beheben, die aufgrund der allmählich abnehmenden Datenhaltung auftreten. Während sich NAND-Datenblöcke verschlechtern, können sie durch On-Board-Teile ersetzt werden, sodass der normale Betrieb fortfahren kann. Natürlich finden alle diese Hintergrundoperationen bei Stromzufuhr statt, weshalb die Datenhaltung für den stromlosen Zustand definiert wird.

Dieses Attribut wird bei bestimmten älteren Crucial SSDs sowie bei NVMe-Modellen auch als „Percentage Lifetime Used“ (Genutzter Prozentsatz der Lebensdauer) angezeigt. Es gilt hier das gleiche Prinzip wie bei der verbleibenden Lebensdauer, nur in die entgegengesetzte Richtung. Das Attribut 202 einer neuen SSD hat zu Beginn den Wert „0“ an. Wenn die angegebene Lebensdauer erreicht ist, zeigt es „100“ an und meldet, dass 100 Prozent der Lebensdauer genutzt wurden. Bei diesen Modellen kann der Prozentsatz 100 übersteigen, da weitere Schreibvorgänge durchgeführt werden. Hinsichtlich der Datenhaltung sind jedoch dieselben Erwägungen zu berücksichtigen.

Attribut 5: Ausgediente NAND-Blöcke (Retired NAND Blocks)

Die Anzahl der Blöcke, die durch diesen Prozess der kontinuierlichen Qualitätsbewertung von NAND-Blöcken ausgemustert werden, wird im SMART-Attribut 5 verfolgt. Die SSD-Firmware mustert NAND-Blöcke aus verschiedenen Gründen neben dem oben beschriebenen Problem der Beanspruchung und Datenhaltung aus. Ein Grund für die Ausmusterung ist das Nichtlöschen eines Blocks beim Löschen von Daten oder beim Verschieben von Daten während der Garbage Collection. Diese Art von Fehler verursacht nur ein geringes Risiko für die Benutzerdaten, da die betroffenen Daten gelöscht werden oder bereits erfolgreich an einen neuen Ort auf der SSD kopiert wurden.

Neuere Crucial SSDs messen mit diesem Attribut Superblöcke, bei denen es sich um Gruppen aus vielen einzelnen Blöcken handelt. Wenn Attribut 5 Superblöcke misst, steigt die Blocksumme erst dann an, wenn viele einzelne Blöcke ausgemustert werden.

Attribut 180: Anzahl ungenutzter reservierter Blöcke (Unused Reserved Block Count – verfügbare Reserveblöcke auf PCIe SSDs)

Auch dies ist, wie der Name schon sagt, die Anzahl der zusätzlichen Blöcke, die für den Fall, dass fehlerhafte Blöcke ausgemustert werden müssen, verwendet werden können. Diese Anzahl variiert je nach zugrundeliegender NAND-Architektur, Firmware-Architektur und Benutzerkapazität des Laufwerks. Sie beginnt jedoch in der Regel bei mehreren Tausend.

Diese Zahl nimmt ab, wenn die Anzahl ausgemusterter Blöcke zunimmt. Wenn das Attribut 180 den Wert 0 erreicht, versetzt die Firmware die SSD in den schreibgeschützten Modus. Die SSD ist somit nicht mehr als normales Laufwerk verwendbar, aber der Benutzer sollte in der Lage sein, gespeicherte Daten abzurufen und auf ein neues Gerät zu übertragen.

Wie bei Attribut 5 messen neuere Crucial SSDs Superblöcke ebenfalls mit diesem Attribut, was bedeutet, dass die Blocksumme erst abnimmt, wenn viele einzelne Blöcke ausgemustert werden. Somit kann bei einer neuen SSD ein viel niedrigerer Wert als bei einem Altteil angegeben werden.

Attribut 210: RAIN Seitenanzahl erfolgreicher Wiederherstellungen (RAIN Successful Recovery Page Count)

Redundant Array of Independent NAND (RAIN) ist der Gewinnung von Datenredundanz durch RAID in einem Laufwerksarray sehr ähnlich. Die RAIN-Redundanz wird jedoch innerhalb des Laufwerks und für den Benutzer transparent durchgeführt. RAIN ist eine Funktion, mit der die SSD die Benutzerdaten schützt und die Lebensdauer der Festplatte verlängert.

RAIN-Ereignisse sind relativ selten. Wenn diese Anzahl also ansteigt, ist es an der Zeit, einige der oben genannten Attribute zu untersuchen und zu prüfen, ob das Laufwerk ausgetauscht werden muss. Häufige RAIN-Ereignisse können zu einer spürbaren Leistungsabnahme führen. Die Verwendung von Paritätsredundanz zur Datenwiederherstellung ermöglicht den normalen Laufwerksbetrieb, beansprucht aber eine gewisse I/O-Bandbreite. Wenn Leistungseinbußen häufig auftreten, können RAIN-Rekonstruktionen der Grund dafür und Anlass zu Besorgnis sein.

Attribut 174: Anzahl unerwarteter Stromausfälle – Unsichere Abschaltungen bei PCIe SSDs (Unexpected Power Loss Count – Unsafe Shutdowns Count on PCIe SSDs)

Einem normalen Leistungsverlust in einem Computersystem geht eine Meldung vom Host-Computer an die SSD voraus, dass die Stromversorgung gleich unterbrochen wird. Diese Warnung gibt der SSD genügend Zeit, um sämtliche laufenden Aktivitäten abzuschließen. Nach Abschluss sendet die SSD eine Meldung zur „Bestätigung“ an den Host, und der Host beendet den Abschaltvorgang.

Es gibt zahlreiche Situationen, in denen die Stromversorgung unerwartet ausfällt, was zu Problemen für die SSD führen kann. Unter fast allen Bedingungen kann die SSD dies kompensieren, obwohl die nächste Boot-Up-Zeit etwas länger dauern kann (ein paar Sekunden statt Hunderte von Millisekunden), aber das System wird erneut hochfahren.

Das Attribut 174 dient in der Regel nur der Information. Eine große Anzahl solcher Ereignisse kann jedoch darauf hindeuten, dass ein Benutzer in Bezug auf das ordnungsgemäße Herunterfahren von Betriebssystemen geschult werden sollte oder dass ein Problem mit der Stromversorgung oder den Anschlüssen vorliegen könnte.

Attribut 194: Gehäusetemperatur bzw. Gerätetemperatur bei PCIe (Enclosure Temperature – Device Temperature on PCIe)

Die Crucial Storage Executive Software meldet sowohl die aktuelle Temperatur als auch die höchste bisher erreichte Temperatur in Celsius, die von einem Sensor auf der SSD gemessen werden. Der angegebene Betriebsbereich für die meisten Crucial SSDs beträgt 0 °C bis 70 °C (bzw. 32 °F bis 158 °F). Temperaturen über 70 °C können die Produktgarantie aufheben, daher sollte die Temperatur regelmäßig überwacht werden. Wenn die Temperaturen regelmäßig über 65 °C liegen, sind Korrekturmaßnahmen wie etwa eine bessere Belüftung und Lüfter empfehlenswert.

Fazit

SMART kann ein sehr nützliches Tool zur Überwachung des Zustands Ihrer SSD sein. SMART ist jedoch kein umfassendes Diagnosetool. Informationen, die mittels SMART-Attributen gewonnen werden, können zusammen mit der Diagnose des Betriebssystems einen guten Ausgangspunkt für übliche Fehlerbehebungsmaßnahmen bilden.

Falsch gemeldete oder fehlinterpretierte SMART-Daten können zu falschen Schlussfolgerungen führen, was leider zur Rückgabe eines perfekt funktionierenden Laufwerks führen kann. Daher kann man nicht oft genug wiederholen, dass Crucial nachdrücklich empfiehlt, nur die Crucial Storage Executive Software zum Lesen von SMART-Daten auf Crucial SSDs zu verwenden.

©2019 Micron Technology, Inc. Alle Rechte vorbehalten. Informationen, Produkte und/oder Spezifikationen können ohne vorherige Ankündigung geändert werden. Weder Crucial noch Micron Technology, Inc. sind für Auslassungen oder Fehler in Texten oder Bildern verantwortlich. Micron, das Micron Logo, Crucial und das Crucial Logo sind Marken oder eingetragene Marken von Micron Technology, Inc. PCI Express und PCIe sind eingetragene Marken von PCI-SIG. Alle anderen Marken und Dienstleistungsmarken sind Eigentum ihrer jeweiligen Rechtsinhaber.