Pourquoi la technologie RAID est-elle toujours utilisée ?

lundi 26 février 2018 par Michael Nuncic

Il est assez rare dans le secteur de l’informatique qu’une technologie ayant été développée de nombreuses décennies plus tôt soit encore largement utilisée de nos jours et, soit toujours aussi importante pour les administrateurs et autres utilisateurs. Les serveurs et systèmes de stockage modernes eux-mêmes fonctionnent avec la technologie RAID, principalement dans les entreprises, mais également de plus en plus dans les systèmes NAS destinés aux consommateurs. Trois décennies représentent une très longue période, en particulier dans le domaine des technologies de l’information. Et qui se souvient encore des nombreux concepts et produits ayant été développés et mis sur le marché, et n’ayant pas duré aussi longtemps ? Eh bien, le RAID a survécu, célèbre son 30^e anniversaire cette année, et continue à jouer un rôle majeur. Comment cela est-il possible ? Et quels sont les avantages et les inconvénients du concept ?

Lorsque David Patterson, Garth A. Gibson et Randy Katz de l’Université de Berkeley en Californie inventent le terme RAID en 1987 et publient leur article « Case for Redundant Arrays of Inexpensive Disks » à la conférence SIGMOD de juin 1988, les disques durs étaient encore très chers, et essayer de garder le moins de données possible sur les supports de stockage était non seulement une pratique courante, mais nécessaire. C’était encore l’époque de ces énormes ordinateurs centraux utilisés dans les entreprises, tandis que les ordinateurs de bureau n’étaient pas encore largement présents sur le lieu de travail. Toutefois, ceci était sur le point de changer et les ventes d’ordinateurs personnels commencèrent à augmenter. En conséquence, les disques durs de ces premiers ordinateurs non centraux étaient déjà bien moins chers que ceux des ordinateurs centraux, beaucoup plus gros au moment où les développeurs mirent au point leur concept.

C’est la raison pour laquelle ils ont développé leur idée. Ils soutenaient que plusieurs disques durs bas de gamme (de PC) connectés entre eux pouvaient battre, en matière de performance, le disque dur d’un ordinateur central. Et bien que l’utilisation de nombreux disques durs augmente le taux de défaillance, il est possible de les configurer pour la redondance afin que la fiabilité de cet ensemble dépasse largement celle du seul disque dur d’un ordinateur central quel qu’il soit, affirmaient-ils. Le RAID est par conséquent l’exact opposé de ce que l’on appelle le SLED (Single Large Expensive Disk) d’un ordinateur central.

Le RAID expliqué

Pour faire simple : le RAID est basé sur le concept que les données se propagent ou se reproduisent à travers plusieurs lecteurs peu coûteux ou indépendants. Les lecteurs à l’intérieur du système sont configurés afin que les données puissent être séparées ou reproduites sur deux lecteurs ou plus, pour une distribution des charges, ou pour permettre la récupération des données si un lecteur tombe en panne. Il existe deux moyens techniques pour y parvenir : soit avec une solution matérielle, un contrôleur RAID dédié, soit avec une solution logicielle, qui est déjà intégrée dans la plupart des systèmes d’exploitation modernes. Les systèmes matériels gèrent le RAID indépendamment du PC hôte à l’aide d’un contrôleur RAID, ainsi le système d’exploitation n’est pas conscient des fonctionnements techniques du RAID et considère l’ensemble du système de stockage comme s’il s’agissait d’un seul volume connecté au PC hôte.

Outre ces implémentations techniques, le concept RAID est basé sur ces trois principes fondamentaux :

La parité est un moyen de distribuer les informations à travers un système RAID qui permet aux données d’être restaurées en cas de panne d’un lecteur,
La redondance est la duplication des composants essentiels dans l’architecture du système pour augmenter la fiabilité et faire office de dispositif de sécurité. Fondamentalement, cela autorise la défaillance de plusieurs composants avant une panne complète du système, et dans le cas des systèmes RAID, les composants sont les disques durs,
La mise en miroir, c’est lorsque les mêmes données sont dupliquées d’un disque à l’autre. Le striping est une autre méthode où les données sont écrites sur plusieurs disques. Les différentes configurations RAID utilisent l’une de ces techniques au moins, en fonction des exigences en matière de système.

Selon ces principes, ces niveaux RAID standards ont été développés :

Le RAID 0 utilise le striping et est le niveau RAID le plus basique. Il n’offre aucune redondance, mais la performance est augmentée. Les données sont réparties sur au moins deux disques, et avec chaque disque ajouté, la performance en lecture/écriture et la capacité de stockage sont augmentées sur un seul lecteur. Si un lecteur tombe en panne, le contrôleur RAID est dans l’incapacité de le reconstruire,
Le RAID 1 utilise la mise en miroir, qui, comme le nom le suggère, met en miroir les mêmes données sur deux disques, par conséquence, il fournit le niveau le plus bas de redondance RAID. Le RAID 1 peut doubler la performance en lecture sur un seul lecteur, mais la vitesse d’écriture n’est pas augmentée. Ce niveau autorise la défaillance d’un lecteur,
Le RAID 5 est une configuration courante qui offre un bon compromis entre fiabilité et performance. Il fournit un gain en vitesses de lecture, mais la performance en écriture reste la même. Le RAID 5 introduit la parité, ce qui prend l’espace d’un disque au total. Ce niveau peut supporter la défaillance d’un disque. Si votre 5^e lecteur est un disque hot spare, celui-ci peut faire office de lecteur inactif dans le système, sans qu’aucune donnée n’y soit stockée. Si un disque subit une défaillance, les données peuvent être reconstruites vers le hot spare à l’aide des données de la parité sur les autres lecteurs. Une fois que la reconstruction des données est terminée, vous pouvez retirer le lecteur défaillant et le remplacer par un nouveau lecteur, lequel devient alors le nouveau hot spare,
Le RAID 6 reprend le concept du RAID 5 avec davantage de redondance grâce à la double parité. Ceci permet aux données d’être recréées même si deux disques de l’ensemble subissent une panne. La double parité est répartie sur l’ensemble des disques et prend l’espace de deux lecteurs.

Au cours des 30 dernières années, de nombreux autres niveaux RAID ont été développés, principalement par des fabricants de systèmes RAID. Aujourd’hui, nous avons des niveaux RAID pouvant aller du RAID 0 jusqu’au RAID 61 et même au-delà, et certaines sociétés importantes créent des niveaux RAID sur mesure pouvant prendre en charge leurs différentes exigences en ce qui concerne les applications et les infrastructures.

Que faire en cas de panne d’un disque et les dangers du RAID…

Si un disque subit une panne dans un RAID 1 ou dans un RAID 5, l’utilisateur ne doit pas le remplacer par un nouveau disque avant d’être sûr que toutes les données des disques restants sont sauvegardées. Dans de nombreux cas, en particulier lorsqu’une solution utilise des disques provenant de la même chaîne de production, la probabilité qu’un autre disque subisse une panne à son tour est très importante. Et c’est là où le danger de ce concept se situe :

Même avec tous les avantages offerts par le RAID (une performance accrue ainsi qu’une sécurité des données plus grande), ce que de nombreux utilisateurs (en particulier domestiques) oublient, et ce que tout le monde devrait garder à l’esprit, c’est que le RAID n’est pas une solution de sauvegarde !

Le RAID peut être utilisé en association avec une solution de sauvegarde et ainsi rendre l’ensemble du système de stockage beaucoup plus sécurisé, mais un serveur RAID ne doit jamais être utilisé à la place d’une solution de sauvegarde. Bien au contraire, lorsqu’un système RAID subit une panne – par exemple à cause d’un contrôleur RAID matériel défectueux, ou un nombre de disques supérieur à ce que peut prendre en charge le niveau RAID, il est beaucoup plus compliqué à la fois de remettre le système en état de marche et de récupérer les données RAID perdues lorsqu’un tel incident se produit.

En particulier, depuis que les systèmes NAS sont devenus de plus en plus accessibles aux utilisateurs domestiques, ceux-ci utilisent les possibilités RAID intégrées en association avec d’autres technologies de stockage avancées telles que la déduplication afin d’obtenir autant d’espace que possible de leur système. Mais ceci a un coût : dans de nombreux cas, ces systèmes sont mal configurés et lorsqu’une défaillance survient, le système complet tombe en panne. Les experts en récupération des données tels que les ingénieurs de chez Ontrack doivent alors reconstruire plusieurs couches de données à partir des nombreuses technologies mises en place par l’utilisateur jusqu’à ce que les données originales soient de nouveau disponibles et puissent être récupérées.

Avant de configurer un ensemble RAID, l’utilisateur (indépendamment du fait qu’il soit un particulier ou un administrateur informatique en entreprise) doit considérer attentivement si le RAID est réellement la meilleure solution, et si oui, quel niveau RAID correspond le mieux à ses besoins. N’oubliez pas : la négligence dès le départ peut entraîner de sérieux soucis, des coûts élevés, et une possible perte de données par la suite !

Avec ces conseils en tête, il est fort probable que le RAID ait encore de beaux jours devant lui. Les besoins en stockage de données sont de plus en plus importants et d’autres concepts de stockage prendront sans doute le dessus à terme, par exemple le concept créé par EMC pour son Isilon basé sur un immense « lac de données » avec mesures de sécurité intégrées contre la perte de données. Le RAID sera encore présent pendant de nombreuses années.

Vous avez perdu des données ? Demandez une évaluation gratuite de votre support de stockage :
0 800 10 12 13 Evaluation gratuite