• Cloud
  • Data
  • show/hide menu
  • Cloud
  • Data
  • Cloud Data Dossiers

    Explosion des volumes de données : de nouvelles architectures s’imposent

    0

    L’explosion des données n’est pas un phénomène nouveau. Elle s’est juste accélérée d’une manière incroyable et comporte un nombre exponentiel de challenges techniques et applicatifs ainsi que d’opportunités business. De nouvelles technologies comme les SSD, le tiering, les grilles ou le traitement in-memory sont nécessaires pour répondre à l’explosion des volumes de données qu’il s’agit de stocker mais aussi de rendre accessibles et d’analyser.

    « Les volumes de données vont augmenter d’un facteur trente d’ici à 2020 pour atteindre 35 zettaoctets au niveau mondial », affirme Sébastien Verger, directeur technique chez EMC, citant une étude réalisée avec IDC. Ce chiffre impressionnant masque des évolutions encore plus importantes. Tout d’abord, les données non structurées croîtront cinq fois plus vite que les données structurées. De plus, au-delà du stockage, les défis se concentreront sur la capacité à traiter ces données et à les mettre à disposition des utilisateurs.

    Tiering et caching boostent les baies de stockage classiques

    Les applications classiques pourront encore se contenter de baies de stockage traditionnelles abritant des grappes de disques attachées à un contrôleur. Mais depuis un à deux ans, les constructeurs optimisent leurs performances grâce à des technologies de « tiering » qui consistent à automatiser le déplacement des données en fonction de contraintes business et applicatives – criticité, volumétrie ou temps d’accès.

    Le tiering opère au sein d’une même baie, en transférant les données entre des disques lents et capacitifs, des disques rapides et des SSD très rapides. « Il s’agit maintenant d’étendre ces mécanismes à un ensemble de systèmes de stockage distribués voire hétérogènes », explique Sébastien Verger. Toujours pour rapprocher les données des serveurs de traitement ou des utilisateurs, des mémoires caches de type SSD seront réparties entre les baies, les serveurs et des appliances judicieusement insérés sur le réseau.

    Des architectures en grilles et massivement parallèles

    Le tiering ou les caches SSD ne suffisent pas à répondre aux contraintes des applications de type Big Data, qui imposent le traitement rapide de très grands volumes de données. Plus modulaire, les systèmes de stockage en grilles apportent une première réponse. Adaptés aux données non structurées, les NAS de la gamme Isilon d’EMC sont ainsi composés de nombreux nœuds intégrant chacun des disques et un contrôleur. La capacité peut alors atteindre 15 Po contre 4 Po pour les plus grosses baies EMC classiques.

    Des architectures encore plus efficaces répartissent les données sur des grilles de serveurs exécutant des algorithmes parallélisés, comme Hadoop. Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent de telles machines, basées sur des serveurs standards dont les configurations sont optimisées.

    Ils sont concurrencés par des éditeurs comme SAP et plus récemment Microsoft. « Nous allons lancer au premier semestre 2013, en partenariat avec des constructeurs, des appliances basés sur SQL-Server 2012 Parallel Data Warehouse, annonce ainsi Damien Cudel, responsable des produits SQL Server chez Microsoft. Ceci permettra de bénéficier de technologies éprouvées et standards, donc moins coûteuses pour, par exemple, traiter des données non structurées comme les documents, images, feuilles de calculs, fichiers vidéo et audio ou encore les messages électroniques… »

    Les moteurs de bases de données en pleine mutation

    Les moteurs de bases de données d’Oracle ou Microsoft apportent également leur pierre à l’édifice, notamment grâce à des technologies de traitement en mémoire (in-memory). SQL Server 2012 a ainsi introduit plusieurs mécanismes de ce type. « Grâce à la compression des colonnes, les requêtes sont accélérées d’un facteur 10 à 100 et l’espace de stockage est réduit de 70 % », affirme Damien Cudel.

    Autre voie d’évolution : le modèle relationnel est concurrencé par des modèles dits noSQL, qui supportent de grands volumes de données non structurées et dont les performances évoluent linéairement en fonction du nombre de serveurs. L’offre comprend des logiciels open source comme MongoDB et Cassandra, ou des services Cloud comme Microsoft SQL Azure (qui intègre un conteneur noSQL).

    articles liés

    Comment faire face à l'explosion du volume de données? [infographie]

    Comment faire face à l'explosion du volume de données? [infographie]

    Les nouveaux serveurs physiques, briques centrales d’un datacenter industrialisé

    Les nouveaux serveurs physiques, briques centrales d’un datacenter industrialisé

    Du cloud privé au cloud hybride

    Du cloud privé au cloud hybride