L’incroyable expansion du numérique a pour corollaire l’explosion du volume de données récoltées. Ces volumes énormes de données, posent un problème de stockage. C’est de cette problématique qu’est né le concept de BIG DATA.
Le BIG DATA, un défi technologique à relever
Comment stocker et exploiter ces données ? Tel est le défi technologique à relever. Les outils développés jusque-là pour construire et exploiter les bases de données se sont révélés dépassés par les volumes à traiter. Il a donc fallu travailler selon de nouvelles optiques et inventer de nouvelles façons d’envisager le stockage et le traitement de ces données.
En matière d’analyse de données, les algorithmes font désormais partie intégrante de la vie quotidienne. Ils permettent d’analyser des données et de les restituer suivant des critères de choix préalablement définis. On citera les algorithmes développés pour l’application Parcoursup qui permettent de mettre en relation les choix des étudiants avec une proposition de formation.
Qu’est-ce qu’un Data Lake ?
Le stockage des données est, quant à lui, moins connu. Il en existe deux grands systèmes : le Data Lake, littéralement « lac de données » et le Data Warehouse, « entrepôt de données ». Si l’on conserve la métaphore de l’eau, dans un Data Lake l’on stocke tout le volume d’eau tel quel comme dans un lac, tandis que dans le Data Warehouse, l’on stocke des bouteilles ou des packs contenant de l’eau comme dans un entrepôt. Ces deux solutions d’architecture de base de données opposent donc le stockage de données brutes au stockage de données transformées.
L’une et l’autre solution ont leurs atouts même si le Data Lake reste la solution « reine ». Le choix de s’orienter vers une solution de type Data Lake relève donc du besoin de l’entreprise. Prenons, l’exemple de l’Institut National de l’Audiovisuel, L’INA. Une de ses missions est de « collecter, documenter et conserver les émissions de télévision et de radio diffusées en France, afin de pouvoir les rendre accessibles aux chercheurs. ». Le volume de données numériques collectées chaque jour multiplié par le nombre de jours de collecte représente un impressionnant volume de data à stocker. Au moment de repenser l’architecture de sa base de données, la problématique était de remplir sa mission pour les nouvelles données mais aussi de rassembler les différents silos d’information antérieurs, divers et dispersés. La multiplicité de ces données et leur nombre a décidé L’INA à se focaliser non pas sur la fonction mais sur la donnée elle-même ce qui est exactement la vocation d’un Data Lake.
La conception d’un Data Lake nécessite des compétences nouvelles et spécifiques. La formation « Réservoir de Données » du MBA Sciences des Données à ESA MANAGEMENT lui est spécifiquement consacrée. Ce bloc qui peut être suivi de façon indépendante du MBA, permet aux étudiants d’acquérir une certification « Accompagnement à la mise en place d’un réservoir de données métiers ». Cette certification fera d’eux des professionnels compétents pour la mise en œuvre d’un Data Lake.