Article technique sur la récupération de données Netapp

Les plus grandes craintes des fabricants de systèmes de stockage sont la perte de données électroniques ou l’incapacité à fournir la bande passante nécessaire au transfert des données des utilisateurs/applications. Plus la technologie évolue, plus le retour sur investissement dans des équipements de stockage est avantageux.

Pourtant, même s’il existe des méthodes toujours plus sophistiquées de stocker des fichiers de données, les pannes entraînant la perte de données restent fréquentes. Quand leur portée est limitée, elles n’affectent qu’un petit nombre d’utilisateurs, un seul dans le meilleur des cas. Mais d’autres affectent des divisions entières, quand ce n’est pas toute une entreprise. Quand ils s’efforcent de résoudre le problème, les techniciens informatiques s’interrogent : « Pourquoi cette panne ? Nous pensions pourtant avoir protégé ce système ».

Présentation d’une architecture de stockage alternative

Comme quantité d’autres entreprises, NetApp propose une alternative unique à l’architecture DAS (Direct Attached Storage), à savoir un serveur aux fonctionnalités de stockage en local, les données étant accessibles au travers de protocoles réseau. C’est en 1994 que NetApp (alors nommé Network Appliance) présente pour la première fois à la société USENIX son système de stockage informatique consolidé, avec système d’exploitation, connexions réseau et mécanismes de stockage intégrés. Ce concept d’appliance réseau est le seul sur le marché informatique à réunir système d’exploitation, équipement matériel et système de fichiers dans un même boîtier, diminuant par conséquent les efforts de gestion. D’une grande fiabilité, cette appliance est aussi simple d’utilisation qu’une cuisinière, un réfrigérateur ou une machine à café. Il suffit simplement de la brancher. Facile à gérer et permettant de mieux contrôler les coûts d’exploitation, elle a rapidement séduit les techniciens informatiques jusqu’aux dirigeants.

Ce système reposait sur les concepts de stockage de données suivants :

  • Les protocoles NFS, développés par Sun Microsystems, Inc.
  • La technologie de stockage RAID, développée par D. Patterson, G. Gibson et R. Katz, de l’université Berkeley de Californie
  • Le système d’exploitation UNIX, développé par AT&T et de nombreux contributeurs
  • Le système Berkeley Fast File, développé par le département de génie électrique et informatique de Berkeley
  • Le système de fichiers Episode, développé par TransArc Corporation

L’appliance de NetApp est optimisée par un système d’exploitation du matériel propriétaire, Data ONTAP, et un nouveau système de fichiers, WAFL (Write Anywhere File Layout), qui lui confèrent performances et fiabilité. Le système de fichiers WAFL stocke les métadonnées (données clés du système de fichiers qui décrivent les fichiers et la localisation logique du flux de données) dans le flux de données des fichiers. Il exploite un inode (nœud d’index) UNIX en guise de descripteur des métadonnées. Toutefois, au lieu de conserver l’inode en un lieu spécifique comme le font la plupart des systèmes de fichiers basés sur UNIX, il considère l’inode et le flux de données comme un objet du volume. Cela lui permet d’« écrire n’importe où » (Write Anywhere). Et ce système fragmente en plus les fichiers pour offrir de meilleurs niveaux de performance. Les opérations d’écriture sont programmées par le système d’exploitation en conformité avec la configuration RAID du pool de stockage. La lecture et l’écriture sont ainsi optimisées et les temps d’exécution réduits.

Le système de fichiers de NetApp supporte également la technique COW (Copy-On-Write), qui réplique les données selon un programme spécifique, créant ainsi des « snapshots » (instantanés), comme les nomme NetApp. Ces snapshots sont programmés dans le système Data ONTAP de sorte que seuls les blocs modifiés du flux de données d’un fichier sont sauvegardés. Prenons par exemple un fichier constitué de 1 000 blocs, chacun pouvant stocker 4 000 octets de données, soit un fichier de 4 Mo. Ce fichier est ouvert et actualisé à plusieurs reprises au cours d’une journée de travail. Grâce à la technologie snapshot, seules les parties modifiées de ce fichier sont dupliquées à l’heure préprogrammée. De cette façon, si le fichier est modifié ou supprimé accidentellement, l’administrateur système peut toujours se référer au dernier instantané effectué avant la perte de données et restaurer le fichier. Les snapshots faisant partie intégrante du système de fichiers WAFL, le processus de stockage s’en trouve optimisé, tout comme la gestion des données.

De surcroît, les derniers systèmes développés par NetApp consignent les modifications du système de fichiers dans des journaux extrêmement détaillés et un système transactionnel assure la cohérence de l’ensemble. Ces transactions sont conservées dans une mémoire non-volatile ou flash. En cas de panne impromptue du système, le système de fichiers identifie précisément les opérations interrompues et actualise en conséquence les métadonnées WAFL. Comme ces opérations ont lieu dans un espace de stockage isolé, la fiabilité du système de fichiers s’en trouve accrue : le nombre de vérifications requises est limité et l’accessibilité du système est accélérée.

Pannes et pertes de données Netapp impromptues

Les sinistres entraînant la perte de données sont généralement le fruit d’événements inattendus. Il arrive que des événements programmés aient des conséquences imprévues du fait de risques ignorés, d’erreurs humaines ou d’équipements défectueux. Et de tels sinistres sont d’autant plus catastrophiques quand ils provoquent des pannes ou répercussions en chaîne. Pour résumer, ils interviennent toujours au mauvais moment et leurs effets peuvent s’avérer dévastateurs s’ils ne sont pas maîtrisés rapidement.

Même les meilleures technologies matérielles et logicielles ne peuvent empêcher les erreurs, mêmes minimes, au niveau des couches d’abstraction de données des processus de stockage physiques et logiciels. Il suffit que ces erreurs se multiplient en cascade pour qu’elles provoquent la perte de l’ensemble des données. Les pertes de données peuvent intervenir sur une ou plusieurs des couches suivantes :

  • La couche de stockage physique, disques durs compris, la panne pouvant toucher les supports électroniques et magnétiques.
  • La couche LUN (Logical Unit Number) où les périphériques physiques sont regroupés au sein d’unités de stockage, comme dans le cas des systèmes RAID : la panne peut s’expliquer par la perte de configuration du système de stockage ou par le dysfonctionnement du matériel contrôlant cette configuration.
  • La couche LVM (Logical Volume Management), où de nombreuses LUN sont configurées au sein de « pools de stockage » ou des parties de LUN sont regroupées en volumes présentés au système d’exploitation en tant que capacité de stockage utilisable : la panne peut provenir de la configuration ou de l’indisponibilité de deux couches successives, essentielles au bon fonctionnement de la LVM.
  • La couche du système de fichiers, où s’effectue le lien entre les métadonnées et les flux de données des fichiers. Il s’agit de la représentation hiérarchique de l’organisation des fichiers dont les utilisateurs et les applications se servent pour lire ou écrire sur le système de stockage. La panne peut résulter de la corruption des métadonnées ou de l’inaccessibilité des flux de données.

Les systèmes de stockage modernes comportent toutes ces couches. Et les solutions de NetApp, du fait de leur conception intégrée, s’avèrent particulièrement complexes. En effet, en cas de panne d’une ou de plusieurs des couches qui précèdent, il devient difficile d’accéder à l’ultime couche de stockage de données de ces systèmes. De même, si toutes les couches de stockage sont opérationnelles mais qu’un utilisateur commet une erreur, ou encore si la redondance du système (comme la technologie snapshot) n’est pas correctement configurée et qu’une panne survient, il peut s’avérer nécessaire de contacter la division Ontrack Data Recovery de Kroll Ontrack pour restaurer les fichiers critiques.

Ces dix dernières années, la plupart des récupérations de systèmes NetApp effectuées par les ingénieurs d’Ontrack Data Recovery concernaient des pannes de périphériques de stockage individuels (un ou deux disques durs défectueux hors de la couche RAID, annulant la redondance prévue à l’origine). Les experts de la restauration qui travaillent dans les salles blanches d’Ontrack Data Recovery parviennent à dépanner la plupart des disques durs et à en extraire les données. Celles-ci sont alors stockées sur des disques similaires à ceux des équipements NetApp, qui sont ensuite réintégrés dans le système. Les données récupérées suffisent généralement pour restaurer les autres couches de stockage et préserver au mieux l’intégrité des fichiers.

Sinon, la seule alternative consiste à mettre à niveau le microcode du disque dur, de façon à restaurer les données fondamentales et réactiver le périphérique de stockage. L’unité tout entière fonctionne alors suffisamment longtemps pour permettre la copie des données cibles, avec cette fois encore un impact minime sur l’intégrité des fichiers.

Etude d’un cas de restauration Netapp après une panne

Ces six derniers mois, une situation inédite s’est présentée. Face à la crise économique mondiale de 2008/2009, de nombreuses entreprises ont décidé de confier leur gestion informatique à un nombre restreint de techniciens. Le risque d’erreur humaine est alors majoré, tout comme le nombre des sinistres probables. L’équipe informatique d’une de ces entreprises s’est retrouvée à devoir gérer de très nombreuses sauvegardes instantanées en un temps extrêmement court. Le volume des données actives et des données sauvegardées a fini par déborder la capacité de stockage de l’appliance. N’ayant d’autre choix, les techniciens ont décidé de supprimer les données de snapshot afin de préserver la disponibilité du système. C’est alors qu’un sinistre a frappé le système de stockage.

Or, un fichier doit pouvoir être restauré tout au long de son cycle de vie (voir figure 1). Dans l’exemple donné, l’entreprise n’a eu d’autre choix que de faire appel à un expert des techniques de restauration de données. Il se trouve que la perte de données est intervenue sur la couche supérieure, celle du système de fichiers.

Les ingénieurs d’Ontrack Data Recovery ont dû développer des solutions pour restaurer les métadonnées du système de fichiers et faire en sorte que les données cibles soient à nouveau accessibles. Pour ce faire, ils ont dû examiner de près les méthodes d’allocation du système de fichiers. L’équipe d’Ontrack Data Recovery a réussi à développer une solution répondant parfaitement aux exigences de temps et d’intégrité des données du client, propriétaire des données.

Cette même innovation peut désormais s’appliquer à tous les systèmes de fichiers de NetApp dont les snapshots WAFL ont été supprimés du pool de stockage ou dont des volumes entiers ont été détruits. Des techniques de restauration spécifiques permettent en outre de contrôler le système de fichiers et de le remettre en état au besoin. Ceci est d’autant plus utile et efficace pour évaluer la réussite de la restauration et l’ampleur de l’éventuelle corruption de données.

Ce sont ces techniques qui distinguent Kroll Ontrack de la concurrence, ainsi que son expertise du stockage électronique et magnétique et de la restauration de disques RAID, sans oublier les compétences et l’expérience de son équipe d’ingénieurs, qui mettent tout en œuvre pour restaurer les données dans les meilleures conditions possibles.

  • 0 800 10 12 13
    01 69 53 66 99




Plus d'informations



Centre de ressources