Monday, January 09, 2012

Les fondamentaux du stockage secondaire

Le stockage secondaire représente un des axes qui va tirer le marché du stockage et je ne serai pas surpris de voir de nouvelles entreprises se lancer sur ce segment très prometteur.

Qu'entend-on par stockage secondaire? il se définit simplement comme une nature de stockage destinée à recevoir les copies de données quelque soit la méthode de création de ces copies: backup, copie mirror, réplication, DR, archive... contrairement au stockage primaire qui contient des données de production créées sur ce support.

L'autre angle réside dans le rôle de ce stockage: le stockage primaire supporte le business autrement dit l'activité de l'entreprise alors que le stockage secondaire supporte l'IT c'est-à-dire l'informatique pour que celle-ci soit "toujours" opérationnelle.

Les volumes de données explosent notamment grâce à la convergence digitale que nous vivons au quotidien et à la conservation des données par les entreprises pour des besoins analytics, data-warehouse ou de conformité. Et c'est d'autant plus le cas que le stockage secondaire ajoute une dimension temporelle avec une conservation des données sur des temps variables et peut-être longs, une redondance de l'information et une multiplication des versions.

Fort des efforts et développements technologiques de l'industrie depuis plusieurs années, il apparaît que certaines fonctions liées au stockage ou à la gestion de données soient fondamentale ici.

La première fonction est bien sûr la Réduction de Données qui regroupe à la foi la compression et la déduplication. Des acteurs comme Data Domain (acquis par EMC en 2009 pour $2.4B), Avamar (acquis par EMC en 2006 pour $165M), Diligent (acquit par IBM en 2008 pour $210M), Quantum avec la solution DXi d'origine Rocksoft acquise en 2006, ou des acteurs comme FalconStor, Sepaton ou Permabit pour n'en lister que quelques uns. Prenons l'exemple d'un simple cas de 1PB avec un pourcentage normal de modifications quotidiennes à backuper avec une politique classique, le tout conservé sur 4 semaines, sans technologie particulière on arrive entre 4 et 7PB . On comprend le souci et le défi pour éviter de stocker toujours les mêmes données et réduire ce volume qui se traduit par TCO qui flambe. Si en final, on peut stockage le 1PB initial et seules les modifications au niveau bloc de données, on peut arriver sensiblement entre 1.2 et 1.5PB ce qui fait une sacré différence.

La seconde fonction est plus subtile puisqu'elle fait appel à des approches plutôt récentes pour la protection de données. Au lieu de considérer plusieurs copies de données qui malgré la réduction précédente génèrent un surcoût matériel, la technique dite Erasure Coding (EC) ou code à effacement ou code correcteur, utilise un sur-échantillonnage des données auquel est ajouté plusieurs code de contrôle ou parité. Le modèle le plus populaire de cette famille est le RAID avec plusieurs niveaux comme le RAID 5 ou 7 avec parité simple circulaire pour le premier et parité double pour le second. Pour addresser les grands volumes de données, le modèle RAID est étendu aux machines et non limité aux disques, on parle alors de RAIN. L'EC est parfaitement adapté aux gros fichiers et aux gros volumes de données. Je vous renvoie d'ailleurs au post que j'avais écrit en 2006 à ce sujet. On trouve des modèles plus sophistiqués basés sur le code Reed-Solomon ou la Transformée Mojette inventée à l'université de Nantes PolyTech en 1995. On parle alors de N+K avec N le nombre de données sources et K le nombre de parité supplémentaire autrement dit on écrit N+K segments au total avec un surcout N+K/N offrant une très bonne durabilité pour un coût matériel excellent. Pour continuer 2 familles de code existent: les codes systématiques tels Reed-Solomon où seuls les segments d'origine sont conservés auxquels on ajoute des segments de parités supplémentaires et les codes non-systématiques où l'ensemble des segments de données sont encodés offrant un effet de chiffrement.

La troisième et dernière fonction clef repose sur le contrôle de la partie énergétique. On parle ici de stockage froid et le sujet est chaud avec le volonté de ne pas laisser "allumé" une batterie d'armoires de disques pendant 10 ans. Je vous laisse faire le calcul. On sait depuis longtemps que le média le plus propice à ce type d'utilisation est la bande où seuls les lecteurs et le contrôle robotique sont alimentés alors que les cartouches sont des passives et inertes. L'arrivée du disque couplé à la réduction de données s'est imposé dans le backup, cette approche offre des avantages certains et notamment l'accès aléatoire et concurrent contrairement à la bande qui est un média séquentielle à accès exclusif. A noter aussi que les bandes gagnent en capacité avec un coût toujours en baisse ce qui rend attractif leur usage mais produit une difficulté sur leur protection avec seulement le multi-copie disponible. Certains fournisseurs ont certes développer des approches NAS à base de LTFS et cache disque qui se rapproche de l'idéal mais il est en autres très difficile de rendre efficace une méthode EC directe sur bandes. L'idée est donc de réduire ou supprimer l'alimentation des disques en fonction bien sûr de la rétention des données. Ainsi avec un bon placement de données et une bonne indexation, l'alimentation des disques peuvent être réduite voire arrêtée et ainsi contribuer à la réduction du TCO du stockage secondaire. L'industrie a produit plusieurs approches, on parlait de MAID pour Massive Array of Idle Disk, avec plusieurs niveaux disponibles, d'autres acteurs ont introduit une approche Spin Down ou Cold Storage évolué.

On comprend donc que la considération des 3 fonctions simultanément confère aux stockage secondaire un différentiateur fort et j'invite les lecteurs et les fournisseurs à considerer ces 3 éléments permettant une sélection et une définition plus facile des solutions du marché. Plusieurs produits fournissent la première fonction, d'autres la seconde sans la première et pareil pour la troisième mais aucune à ce jour n'existe sérieusement couplant les 3 fonctions. C'est le graal du stockage secondaire, si un fournisseur réussit à développer Réduction + EC + Cold, son business va exploser.
Share:

0 commentaires: