TSM Backup vs. Archiv

TSM Backup vs. Archiv – Eigenschaften, Unterschiede, Einsatzbereiche, Anwendungsszenarien

Immer wieder tauchen Fragen auf wie: Was ist eigentlich der Unterschied zwischen dem Backup mit TSM und der Archivierung mit TSM? Aber auch welche Funktion für welchen Zweck geeignet ist. In diesem Artikel wollen wir auf diese Fragen eingehen.

Müsste man den Unterschied zwischen TSM-Backup und -Archivierung in einem Wort zusammen fassen, so wäre dies: Versionsverwaltung. Die Backup-Funktion erkennt, speichert und verwaltet unterschiedliche Versionen einer Datei, wohingegen die Archiv-Funktion nicht inkrementell arbeitet.

Die Backup-Funktion dient der regelmäßigen (z.B. täglichen) Sicherung von Daten, damit diese Daten im Fehlerfalle aus dem Backup wiederhergestellt werden können. Um das System beim Backup möglichst wenig zu belasten und die aufzubewahrende Datenmenge möglichst gering zu halten, werden immer nur die – zum letzten Backup-Lauf – geänderten Dateien gespeichert. Jede Änderung an einer Datei – im Vergleich zum letzten Backup-Lauf – führt also dazu, dass eine neue Version dieser Datei im Backup gespeichert wird. Da es leider aus Kostengründen nicht möglich ist, sämtliche Versionen einer Datei für immer zu speichern, gibt es Regeln in TSM, um alte Versionen einer Datei aus dem Backup herausaltern zu lassen. Dies geschieht sowohl zeit- als auch versionsgesteuert. Zu beachten ist, dass die jeweils aktuellste Version einer Datei, die – beim letzten Backup-Lauf – noch auf dem Client existiert hat, die sogenannte aktive Version der Datei ist und dass TSM eine aktive Version nie löscht. Sobald eine aktive Dateiversion durch eine neue Version ersetzt wird oder beim Backup-Lauf erkannt wird, dass diese Datei am Client gelöscht wurde, wird sie als inaktiv markiert und unterliegt ab sofort den Aufbewahrungs-richtlinien, die über folgende Parameter gesteuert werden.

  • VERExists – Maximale Anzahl an aufzubewahrenden Versionen einer Datei, die noch auf dem Client existiert.
  • VERDeleted – Maximale Anzahl an aufzubewahrenden Versionen einer Datei, die auf dem Client schon gelöscht wurden.
  • RETExtra – Anzahl Tage, die eine Backup-Version aufbewahrt wird, nachdem sie als inaktive Version markiert wurde.
  • RETOnly – Anzahl Tage, für die eine am Client gelöschte Datei im Backup aufbewahrt werden soll.

Sobald einer der o.g. Parameter für eine Version einer Datei greift – also entweder die maximale Anzahl an Versionen überschritten oder die maximale Aufbewahrungsdauer einer Version überschritten ist – wird diese Version aus dem Backup gelöscht.

Die LRZ-Standardaufbewahrungsrichtlinien arbeiten mit folgenden Werten:

  • VERExists = 3
  • VERDeleted = 3
  • RETExtra = 180
  • RETOnly = 180

Frei übersetzt bedeutet dies, dass wir von Backup-Daten maximal drei Versionen für maximal 180 Tage speichern. Neben den Standardaufbewahrungsrichtlinien (im TSM-Jargon „Managementklasse“) gibt es noch die Möglichkeit, für bestimmte Dateien oder Verzeichnisse eine spezielle Managementklasse anzugeben, die es erlaubt, maximal zehn Versionen für maximal 180 Tage zu speichern.

Im Gegensatz dazu ermöglicht es die Archiv-Funktion von TSM, eine Kopie Ihrer Daten für einen längeren Zeitraum sicher aufzubewahren. Zum Beispiel aus gesetzlichen Gründen oder um den DFG-Regeln der guten wissenschaftlichen Praxis nachzukommen oder einfach um „kalte“ Daten aus Effizienzgründen von Ihrem lokalen System auszulagern, um Platz für neue Daten zu schaffen. Die Archiv-Funktion bewahrt Dateien für eine bestimmte Zeit im Archivsystem auf ohne dabei Versionen einer Datei zu erkennen oder zu verwalten. Das bedeutet, dass jedes Mal, wenn eine Datei archiviert wird, eine Kopie von dieser im Archivsystem gespeichert wird, völlig unabhängig davon, ob dieselbe Version dieser Datei schon mal gespeichert wurde. Die Aufbewahrungsrichtlinie für Archivdaten besteht deshalb auch nur aus dem folgenden Parameter:

  • RetVer – Anzahl an Tagen, die eine archivierte Datei aufbewahrt werden soll.

Die LRZ-Standardaufbewahrungsrichtlinien arbeiten mit folgendem Wert:

  • RetVer = 3653

Das bedeutet, wir speichern Archivkopien für 10 Jahre. Auf Anfrage bieten wir auch die Möglichkeit der sogenannten Langzeitarchivierung, bei der die Archivkopien „für immer“ aufbewahrt werden.

Ein weiterer bedeutender Unterschied zwischen Backup und Archivierung im LRZ-Umfeld ist, dass wir von den Archivdaten eine Zweitkopie an einem entfernten Standort anfertigen, so dass im Falle eines Mediendefekts oder gar der Zerstörung des LRZ, Ihre Archivdaten trotzdem sicher sind. Leider ist es aus Kostengründen nicht möglich, auch von den Backup-Daten eine Zweitkopie zu speichern.

Aufgrund Ihrer Eigenschaften, lassen sich folgende Standard­anwendungs­szenarien für Backup und Archiv ableiten:

  • Backup – Regelmäßige Sicherung Ihrer aktuellen Arbeit/Daten zum Schutz gegen Datenverlust auf Ihrem System.
  • Archivierung – Einmalige Sicherung zur Auslagerung und/oder lang­fristigen sicheren Aufbewahrung Ihrer abgeschlossenen Arbeit/Daten.

In gewissen Anwendungsszenarien wäre es vorteilhaft, wenn es eine Art inkrementelle Archivierungsfunktion geben würde. Ein solcher Fall ist typischerweise, dass während eines Experiments über einen längeren Zeitraum Rohdaten erzeugt werden, die längerfristig aufbewahrt werden müssen, aber  nicht genügend Kapazität auf dem Primärsystem zur Verfügung steht, um alle Rohdaten des Experiments zu speichern. D.h. wenn das Primärsystem vollläuft, können Sie ältere Daten löschen und diese werden trotzdem für 10 Jahre im Backup-System aufbewahrt und können später bei Bedarf zurückgeholt werden. Für diesen Anwendungsfall haben wir eine spezielle Backup-Aufbewahrungs­richtlinie mit Zweitkopie und folgenden Parametern erstellt:

  • VERExists = 1
  • VERDeleted = 1
  • RETExtra = 3653
  • RETOnly = 3653

Das heißt, wir speichern die jeweils aktuellste Version einer Datei und bewahren diese (ab dem Zeitpunkt an dem Sie vom TSM Backup als inaktiv markiert wird) für 10 Jahre auf. Da es sich bei Archivdaten per Definition um abgeschlossene Daten handelt – d.h. die Daten verändern sich nicht mehr – reicht es aus, dass wir nur eine Version speichern.

Die Art und Weise, wie TSM die Backup-Funktion umsetzt, unterscheidet sich grundlegend von der traditionellen Vorgehensweise. Eine ausführliche Gegen­überstellung finden Sie in unserem Artikel „The TSM Way of Backup“. Beide Methoden haben Ihre Vor- und Nachteile. Was mit der TSM-Backup-Philosophie im Standardfall nicht funktioniert, weil die Anzahl der gespeicherten Versionen begrenzt ist, ist, den Zustand eines Dateisystems in bestimmten Abständen  monatlich oder quartalsweise festzuhalten. Wenn man genauer über seine Anforderungen nachdenkt, ist dies in 99% der Fälle aber auch gar nicht nötig, da die Kosten den potentiellen Mehrnutzen übersteigen. Für begründete Ausnahmefälle bieten wir aber die Möglichkeit, solche Monats- bzw. Quartalssicherungen für längere Zeit aufzubewahren. Dazu müssen Sie parallel zu Ihren „normalen“ TSM-Node einen weiteren „speziellen“ TSM-Node für die Monats- bzw. Quartalssicherung beantragen. Dieser Node wird einer speziellen Aufbewahrungsrichtlinie zugeordnet. Mögliche Richtlinien sind:

VERExists/VERDeleted

RETExtra/RETOnly

Sicherungshäufigkeit

12

1 Jahr

Monatssicherung

12

2 Jahre

zwei-Monatssicherung

12

3 Jahre

Quartalssicherung

16

4 Jahre

Quartalssicherung

20

5 Jahre

Quartalssicherung

40

10 Jahre

Quartalssicherung

Das Verfahren ist dann, dass in den „normalen“ Node die tägliche Sicherung gespeichert wird und in den „speziellen“ Node in den entsprechenden Zeitabständen (monatlich, zwei-monatlich bzw. quartalsweise) eine zusätzliche Sicherung gespeichert wird.

Da dieses Verfahren aber natürlich deutlich mehr Ressourcen verbraucht als das normale TSM-Backup-Verfahren, können wir dies nur in begrenztem Maße und nach genauer Kosten-/Nutzenanalyse anbieten.

Wovon wir Sie auf jeden Fall bitten Abstand zu nehmen – und uns auch entsprechend korrektive Schritte vorbehalten – ist, die Archiv-Funktion für das regelmäßige Speichern von Dateisystemständen zu verwenden. Da die Archiv-Funktion nicht inkrementell ist, wird jedes Mal das komplette Dateisystem übertragen und gespeichert und verursacht so immense und vor allem unnötige Kosten. Da die Kapazität des Backup-Systems begrenzt ist und wir beim Erreichen der Kapazitätsgrenze unseren Dienst nicht weiter kostenlos anbieten können, ist dieses Vorgehen allein schon aus Fairness gegenüber den anderen Benutzern mehr als fragwürdig.

Sollten Sie Bedarf an den hier vorgestellten Sonderlösungen (inkrementelles Archiv oder Monats-/Quartalssicherung) haben bzw. sollten Sie spezielle Anforderungen haben, die mit den hier vorgestellten Lösungen nicht zu erfüllen sind, wenden Sie sich bitte über den LRZ-Servicedesk an uns. Wir versuchen dann gemeinsam, eine geeignete Lösung zu finden.