Le Big Data commence quand les traitements ne peuvent pas être réalisés par des serveurs classiques. En dessous de 100 Go de mémoire vive, de 1 noeud de base de données pour réaliser des transactions de 1 seconde, et de 1 To de données sur disque, ce n’est pas du Big Data.
« Le Big Data c’est tout ce qui est suffisamment grand pour être difficile à traiter par des systèmes traditionnels » affirme Olivier Grisel, ingénieur informaticien à l’INRIA, l’Institut National de la Recherche en Informatique et en Automatique. « En se basant sur cette définition, on peut déjà dire tout de suite ce qui n’est pas du Big Data. Par exemple, tout ce qui tient dans une feuille Excel, ce n’en est pas » illustre-t-il.
L’expression Big Data est trop souvent utilisée à tort. Elle a perdu de son sens originel pour de nombreuses personnes. Olivier Grisel a détaillé les trois conditions de volume et de performances pour commencer à avoir du Big Data, le 16 Juin à Paris, lors de l’événement USI organisé par Octo Technology .
Pas de Big Data en dessous de 100 Go de mémoire vive
Dès lors que des données tiennent en mémoire, il est en général possible de faire des traitements rapides ne nécessitant pas l’utilisation d’un système compliqué. « De nos jours, on trouve facilement des machines de plus de 100 Giga octets de mémoire vive, donc tout ce qui est en dessous de 100 Go de Ram, c’est difficile d’appeler ça du Big Data » poursuit-il.
De même, « tout ce qui tient sur une base de données traditionnelle sur un seul nœud de type Oracle ou PostgreSQL et pour lesquels on est capable de faire une requête qui s’exécute en moins d’une seconde, ce n’est clairement pas du Big Data non plus » insiste-t-il.
La frontière du Big Data
« Un disque dur, quand ce n’est pas du SSD [NDLR : Solid State Drive, ou disque rapide à base de mémoire], ce qui est globalement le cas sur les serveurs aujourd’hui, sa vitesse est au maximum de l’ordre de 100 Mo par seconde. De nos jour, sur un serveur les disques sont de l’ordre de 1 To », rappelle-t-il. Ce qui signifie que pour lire le contenu complet d’un disque dur, « il faut au moins deux heures et trois quarts d’heure« , souligne l’ingénieur.
« Donc là on commence à sentir que clairement, on ne peut plus faire des opérations rapidement qui mettent en cause 1 To de données » pointe-t-il. Olivier Grisel illustre cette frontière avec le cas de Google. « Quant Google au début des années 2000 a voulu indexer tout le contenu textuel d’internet, ils ont mis en jeu le concept de Big Data. Pour faire ça, il faut manipuler de l’ordre de 2 milliards de pages html .»
Ces pages html sont équivalentes à 100 To de données. « A l’aide d’un système traditionnel, il faudrait plus de 10 jours, juste pour les lire. On est donc dans un cas de Big Data » conclut-il.
Photo: Olivier Grisel, ingénieur logiciel de l’INRIA, le 16 Juin à l’USI, à Paris.
Olivier Grisel, un ingénieur en informatique qui participe à la recherche sur le cerveau
Olivier Grisel travaille à l’INRIA dans une équipe qui réalise de la recherche sur le cerveau. L’équipe utilise des IRM (Imagerie à résonnance magnétique) afin de comprendre le fonctionnement du cerveau. Dans le cadre de cette activité, les chercheurs ont besoin d’outils de modélisation statistique. C’est dans ce cadre qu’un ingénieur comme Olivier Grisel travaille sur le projet Open Source, Scikit-Learn. Le projet est développé en langage de programmation Python afin de réaliser une modélisation statistique et du Machine Learning.
Morgane Mons
Morgane Mons est journaliste spécialisée dans les nouvelles technologies et la transformation numérique des entreprises. Esprit Geek, passionnée de multimédia, retrouvez ses actualités sur son fil twitter.