Gestion de la donnée (Data Engineering)

Le Big Data aujourd’hui

Après avoir pris une place essentielle dans le monde du Web et du e-commerce, le Big Data devient la clef de voûte des systèmes IoT industriels. Avec l’exploitation et l’analyse massive des données collectées, il permet d’offrir des services plus efficaces, pertinents et novateurs et, à terme, de transformer le modèle économique de l’entreprise. Pour concrétiser cette vision, le BigData aujourd’hui offre une gamme complète d’outils, notamment avec les projets Apache les plus populaires tels que Kafka, Spark, Hadoop, Cassandra … Chacun de ces outils répond de façon efficace à une problématique spécifique et leur intégration permet de mettre en place une solution globale (de la collecte des données jusqu’à une analyse prédictive fine et un traitement en flux continue des alarmes).

 



Une complexité d’intégration souvent méconnue

Notre expérience dans ce domaine montre que la principale difficulté rencontrée par les DSI et les équipes projets porte sur l’intégration entre les différents solutions Big Data. Dans les faits, une solution globale est construite autour d’une demi-douzaine de ces solutions, chacune avec ses spécificités et ses contraintes. Outre le fait que leur mise en œuvre demande un grand panel de compétences, leur intégration en un tout cohérent, aligné avec les besoins du projet, demande des développements complexes. Trop souvent, les efforts ne sont plus tournés vers les objectifs métiers mais plus sur des problématiques d’infrastructure (interdépendance des programmes, cohérence des données, performance, disponibilité). Par exemple, pour pouvoir manipuler une donnée avec des finalités différentes (à la volé en temps réel, en interaction avec un système opérationnelle ou sous forme archivée pour analyse), il est nécessaire de dupliquer cette donnée entre les outils, avec tous les problèmes potentiels que cela engendre en phase de développement (développements redondants avec des interfaces différentes, maintenance complexe…) et en phase d’exploitation (incohérence des données, pannes en cascade).

 

Notre réponse : une approche unifiée

Notre volonté est d’apporter une solution simple et unifiée à la mise en place d’une chaîne Big Data globale et cohérente. Pour cela, notre réponse est de regrouper en un seul outil les fonctions de collecte, de stockage, de traitement en temps réel et d’analyse sur le long terme. Nous nous appuyons pour cela sur les techniques les plus en pointes pour allier en un seul cadre les différents aspects du stockage et du traitement des données. Cette architecture permet à la logique des programmes de ne pas être remise en cause, ni par une réorganisation du stockage, ni par un ordonnancement différent des calculs. On peut alors optimiser la chaîne Big Data d’une manière globale et répondre à des contraintes de performance et de volume, sans être contraint d’intégrer des solutions indépendantes, certes performantes mais spécifiques et partielles. Cette solution unifiée apporte une simplification des développements et une meilleur maîtrise de la cohérence des données et des programmes ; tout en éliminant les pertes de performance et de robustesse inhérentes à l’intégration de solutions disparates.

Cookies
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies utilisés pour réaliser des statistiques de visites.