Page 1

White Paper Datenoptimierung mittels Deduplication und datadomain Werner Pospiech, Director Sales, Rödl Consutling AG

© Rödl Consulting AG – Erlenstegenstrasse 10 – 90491 Nürnberg


1

Allgemeines

Die Marktforscher von IDC haben herausgefunden, dass im vergangenen Jahr jeder Bürger unserer Erde 45 Gigabyte an Daten erzeugt hat, ohne es überhaupt zu merken. Ob Sie telefonieren, Ihre Kreditkarte benutzen, MP3 Files archivieren oder von einer Überwachungskamera aufgezeichnet werden, Sie tragen zum stetigen Datenwachstum bei. Im Jahr 2011 soll das digitale Universum bereits 1.800 Exabyte (1800 Milliarden Gigabyte) umfassen. Somit ist es nicht verwunderlich, dass der Speichermarkt boomt wie nie zuvor. Firmen, wie Privatkunden müssen unentwegt aufrüsten, um der Informationsflut Herr zu werden. Viele Unternehmen suchen nach Wegen, um ihre Daten effizienter abzulegen. Technologien wie die Deduplizierung, E-Mail und Filearchivierung befinden sich im Aufwind. Und auch die Storage-Virtualisierung gewinnt im Zuge der virtuellen Rechenzentren immer mehr an Fahrt. Die wachsende Datenflut ist und bleibt eine Herausforderung für die ITVerantwortlichen und zwingt die Unternehmen zum Umdenken.

2

Was sind die Herausforderungen an ein effizientes Datenmanagement?

Die Geschäftsprozesse im Unternehmen mit ihren spezifischen Anforderungen an das Informationsmanagement spielen die entscheidende Rolle und stellen den Ausgangspunkt aller Überlegungen dar. Unternehmensdaten sollen sicher und verfügbar sein, sprich die Datenintegrität ist unumgänglich. Der Gesetzgeber zwingt Unternehmen zunehmend dazu, geschäftskritische Daten, wie E-Mails und Dokumente, zu archivieren. Wikipedia definiert Backup mit: Unter Datensicherung (auch Backup) versteht man das teilweise oder gesamte Kopieren der in einem Computersystem vorhandenen Daten auf ein alternatives (häufig transportables) Speichermedium. Zur wiederherstellbaren vollständigen Datensicherung ist die Fixierung aller Werte bzw. Daten notwendig. Die auf dem Speichermedium gesicherten Daten werden als Sicherungskopie, oft englisch als Backup, bezeichnet. Das Ziel ist, den Datenverlust bei Systemausfällen zu begrenzen. Das alternative Speichermedium innerhalb einer Backupkonzeption ist traditioneller Weise in vielen Unternehmen ein Band. Linear Tape Open (LTO) hat sich als Standard am Markt durchgesetzt. Eine zeitgemäße Sicherung von Unternehmensdaten stellt jedoch eine Backup to Disk-Lösung dar, die

-2-


im Laufe der Zeit zu verschiedenen Ansätzen geführt hat, wie Daten effizient gesichert werden können.

Um das Ziel des Datenverlustes zu begrenzen, bzw. dem entgegenzuwirken, stehen den Strategien für den Backup-Prozess folgende Herausforderungen gegenüber:        

Gleichbleibende Backupfenster bei größeren Datenmengen Schnelles Desaster Recovery Hohe Anforderungen an Restore-Zeiten (SLA`s) Hoher Zeitaufwand für Tapehandling Abschätzung der zukünftigen Datenmenge Sicherheitsrisiko bei der Auslagerung von Daten Replikation von Daten standortübergreifend Verifikation von Daten.

Backup to Disk hat sich in den letzten Jahren in den Unternehmen etabliert und ist heute als Teil einer Backupstrategie nicht mehr wegzudenken. Um ein effizientes Speichern von Daten auf diskbasierte Medien zu ermöglichen, hat sich das HSB Systemhaus auf die Echtzeit-Deduplizierung von datadomain fokussiert.

3

Was bedeutet Deduplizerung?

Deduplizierung, auch Data-Deduplication, Datendeduplizierung, ist in der Informationstechnologie ein Prozess, der redundante Daten identifiziert und eliminiert. Vorrangiges Einsatzgebiet der Deduplizierung ist die Datensicherung (Backup), bei der sich in der Praxis realistische Datenverdichtungen von 1:20 erzielen lassen. Bei einer Deduplizierung mit einer Appliance von datadomain werden alle Datenblöcke, die von einer oder mehreren Backupapplikationen geschrieben werden, in variable Segmente (4-16 kbyte) zerlegt und mit einem sogenannten Fingerabdruck verse-

-3-


hen. Ist ein Segment schon archiviert worden, erfolgt ein Verweis auf das bereits geschriebene Segment, ohne dass die Daten auf das System geschrieben werden. Jeder Fingerabdruck enthält die Prüfsumme des Datensegmentes. Einzigartige Segmente werden vor dem Schreiben auf das Medium komprimiert, wobei die Datengröße dann nochmals halbiert wird. Wichtig ist, dass die Deduplizierung der Daten vor dem Schreiben auf ein Medium (Disk) erfolgt (Echtzeit Deduplikation). Nur somit lassen sich die physikalischen Größen der Plattensysteme optimal ausnutzen. Beispiel: Werden insgesamt 10 E-Mails an unterschiedliche Empfänger versendet, steht in jeder E-Mail Signatur der gleiche Text, der jedoch bei der Datensicherung des Mailservers jedes Mal mitgesichert wird. Würde der Datenstrom nach dem o. g. Verfahren analysiert, würde er nur einen Bruchteil an Speicherplatz benötigen. Die Deduplizierungsengine der datadomain findet in jedem Lebenszyklus einer Datei Datenduplikate, die in zahlreichen verschiedenen Anwendungen geschrieben wurden. Die Beanspruchung von Speicher und Festplattenressourcen ist dabei minimal. Ein wichtiger Aspekt bei der Deduplizierung ist die Aufteilung des Datenstromes in variable Datensegmente, nur so lassen sich Duplikate auf kleinster Ebene finden.

4

Welche Vorteile ergeben sich durch Deduplizierung mit datadomain?           

Deutlich weniger Plattenplatzbedarf als bei herkömmlichen Systemen, wodurch eine längere Aufbewahrungszeit erreicht wird (längere Retention Time). Hohe Datensicherheit durch permanente Überprüfung der Daten auf Korruption und RAID6. Deutliche Minimierung des Backupvolumens (ca. 90 %). Reduktion von Strom- und Kühlungskosten durch geringeren Plattenbedarf. Unterstützung von allen gängigen Backupsystemen, wie Symantec, Legato, Bakbone, etc. Datenreplikation über WAN-Strecken wird bei verteilten Standorten möglich. Hoher Deduplizierungsfaktor durch die Aufteilung in variable Segmentgrößen. Geringe Betriebskosten durch verbessertes Datenmanagement. Idealer Datenspeicher für große VMware Images. Einfache Integration in die bestehende IT-Infrastruktur. Wegfall, bzw. erhebliche Reduzierung des Bandhandlings.

Daten sind nur dann wirklich geschützt, wenn sich eine Kopie an einem entfernten sicheren Ort befindet. Für besonders wichtige Daten kommt

-4-


zunehmend die Replikation zum Einsatz. Ohne Deduplizierung ist die Replikation von Daten jedoch zu kostspielig, denn die Übertragung von großen Datenmengen bei geringen Bandbreiten ist teuer und mit einem hohen administrativen Aufwand verbunden. Das eigene Filesystem der datadomain hat eine asynchrone Replikation, die nur die neu abgelegten Blöcke weiter repliziert.

5

Beispiel Datensicherung auf datadomain

Backup Daten Freitag Full Backup Mo. Inkrementelles Backup Di. Inkrementelles Backup Mi. Inkrementelles Backup Do.Inkrementelles Backup Fr. zweites Full Backup Total

Logische Größe 1 TB 100 GByte 100 GByte 100 GByte 100 GByte 1 TB 2,4 TB

Erwartete Reduktion 2-4x 7-10x 7-10x 7-10x 7-10x 50-60x 7,8x

Physikalische Größe 250 GB 10 GB 10 GB 10 GB 10 GB 18 HB 308 GB

Nach einer Woche ist nach einer logischen Datengröße von 2,4 TB nur 308 GByte archiviert worden. Datenreduktionen bis zu einem Faktor 20 sind üblich. Welche Appliances gibt es für welche Anforderung? Appliance:      

DD120 – 3 x 250 GB Platten intern DD510 – 9 x 250 GB Platten intern und intern erweiterbar mit 6 x 250 GB DD530 – 9 x 500 GB Platten intern und intern erweiterbar mit 6 x 500 GB DD565 – 15 x 500 GB Platten intern und erweiterbar mit max. 2 Erweiterungsmodulen ES20 mit jeweils 16 Platten DD580 – 15 x 500 GB Platten intern und erweiterbar mit max. 3 Erweiterungsmodulen ES20 mit jeweils 16 Platten DD690 – min. 2 x ES20 und erweiterbar auf max. 6 x ES20.

Eine Lizenzierung der datadomain-Appliance erfolgt nach dem physikalisch nutzbaren Plattenplatz.

Beispiel einer DD510 Appliance

-5-


DD120

DD510

DD530

DD565

DD580/g

DDX Array

Speed

150 GB/hr 43690 KB/sec

290 GB/hr 84468 KB/sec

360 GB/hr 104858 KB/sec

630 GB/hr 183500 KB/sec

800 GB/hr 233017 KB/sec

12.8 TB/hr 38177487 KB/sec

adressierbare Kapazität

373 GB

1.5 / 2.7 TB

2.5 / 5 TB

bis 15 TB

bis 21 TB

bis 336 TB

Beispiel einer Integration von datadomain

Speicherkonzepte mit datadomain sind über die gesamte Speicherinfrastruktur hinweg für die Datensicherung und Datensicherheit sehr nützlich. Erfolgreiche Deduplizierungslösungen bieten neue und einfachere Möglichkeiten, Daten zu erstellen, freizugeben, abzurufen, zu verwalten und zu schützen. Letztlich bieten sie die Möglichkeit, moderne Datenkonzepte aufzubauen, um die wachsenden Daten in den Griff zu bekommen. Deduplizierung revolutioniert die bisherigen Backuplösungen, die u. a. einen erheblichen administrativen Aufwand und Kosten bzgl. Bandhandling verursachen. Die Neuanschaffungen für Tape Libraries haben sich also in Zukunft auch erledigt.

© Rödl Consulting AG Erlenstegenstrasse 10 D-90491 Nürnberg Tel. 0911-59796-0 http://www.roedl.de E-Mail:vertrieb-itc@roedl.de

-6-

Datenredudizierung mittels deduplication  

Wie kann mit Hilfe von Technologien wie Deduplizierung das Datenvolumen reduziert werden?

Advertisement