Article

BI ou Big Data ?

Adil LAKHDAR, Data Scientist chez Aquila Consulting, nous explique les principaux avantages du Big Data, notamment en comparaison de la BI.

Comment définirais-tu le Big Data ?

Il existe beaucoup de définitions du Big Data, certains parlent des 3V d’autres des 5V. Le plus simple à dire est que le Big Data permet d’analyser de gros volumes de données hétérogènes en garantissant un temps de traitement rapide. Il offre également une sécurité du stockage des données, et une disponibilité constante des machines.

Pourquoi une entreprise utiliserait-elle des technologies Big Data ?

Une entreprise a besoin du Big Data pour analyser, stocker et rendre disponibles de gros volumes de données qu’ils soient hétérogènes ou non, dans le seul objectif de créer de la valeur. En exploitant la force de la Data Science qui allie les statistiques avancées et l’informatique, une entreprise a de fortes chances de mieux maîtriser les données, qu’elles soient internes ou externes (réseaux, mobilité, objets). Par ailleurs, elle peut générer des innovations en sortant de son approche traditionnelle en silos / métiers.

Est-ce un effet de mode ?

Il y a beaucoup de disccussions qui portent sur des entreprises qui ont utilisé le Big Data et révolutionné leur secteur (les GAFA, mais aussi Uber, Airb’nb). Mais, pour parler concrètement, on ne pourra pas nier que le volume de données produites explose et que les traitements classiques ne sont plus adaptés : temps de traitement longs (parfois sur plus de 24 heures), difficulté à traiter les données au fil de l’eau et à les agréger en dehors des bases de données relationnelles, nombreuses mises en production pour corriger des pannes, nombreux incidents. Tous cela impacte le business, le SI et les utilisateurs. Le Big Data n’est donc pas forcément un effet de mode mais bien une solution à ces problèmes.

Concrètement, qu’est que cela apporte ?

Le Big Data apporte une capacité de calcul énorme, parce qu’un cluster Big data propose un ensemble de calculateurs interconnectés où sont répartis les traitements afin de répartir les charges et améliorer la disponibilité. Cela apporte également du stockage à moindre coût.

Aujourd’hui, il est devenu possible de traiter d’importants volumes de données en un temps limité : le Big Data est près de 50 fois plus rapide comparé aux précédentes technologies, et s’adapte, je le répète, à tous types de données, qu’elles soient structurées ou non.

Ce simple avantage a un impact réel sur le business.

Et que devient la BI ?

La BI continue de jouer son rôle. C’est particulièrement le cas sur la partie transactionnelle. Il n’y a pas forcement besoin de tout repeindre en Big Data. En revanche, si l’entreprise cherche à améliorer ses services internes (réactivité, exhaustivité) et externes (innovation, connaissance des clients), le Big Data est un atout précieux.

Est-ce que je dois abandonner ma BI ?

Non, la BI reste toujours d’usage. Son effet structurant est déterminant dans beaucoup de domaines : finance, ventes, incidents, production..

Simplement, n’oublions pas que la BI a des limites, car de nouveaux usages ne peuvent pas être satisfaits, en particulier le travail sur les nouvelles sources ignorées par les datawarhouses et les gros volumes de données.

A quel coût ?

Le principal écueil que nous rencontrons auprès de nos clients est de vouloir à tout prix déterminer des ROI en amont des projets quand ces derniers portent sur des stratégies d’innovation. Dans ce cas, il faut raisonner en termes d’investissement direct, au même titre que n’importe quel investissement en R & D.

Cela dit, on peut aussi strictement raisonner par comparaison avec la BI, et dans ce cas, le Big Data peut facilement se révéler moins cher pour les 3 raisons suivantes :

  • Les serveurs utilisés pour les Data Nodes sont « simples ». Ce sont les calculs parallèles qui rendent l’ensemble puissant.
  • Le système de clusteurs garantit un facteur de réplication de 3, ce qui signifie que deux serveurs sur 3 peuvent tomber en panne sans que les données ne soient touchées, ce qui coûte évidemment moins cher qu’une réplication de l’infrastructure pour un PRA (plan de redémarrage d’activité).
  • Une grande majorité des outils Big data sont Open source et sous licence GNU, ce qui les rend bien moins onéreux que les licences des outils de BI.

Quelle équipe faut-il mettre en place ?

Une entreprise peut très bien commencer par mettre en place une équipe interne capable d’installer la plateforme (y compris en mode POC / Cloud), collecter des données et les analyser pour réaliser un cas d’usage métier. L’entreprise a toujours fait des statistiques, elle a toujours mis en place de l’infrastructure et a toujours su manager des équipes. Les compétences existent et peuvent s’adapter. Sur deux fonctions précises, elle aura cependant besoin de développer son savoir faire :

– Data Scientist pour des analyses de prédiction, de machine learning, et de datamining

– Développeur Big Data pour les cas d’usage à réaliser et qui doivent être industrialisés afin de récolter des résultats en temps réel

Des sociétés de conseil comme Aquila sont là pour aider à réaliser cette transition.

Est-ce que l’on doit externaliser ou garder l’activité en interne ?

Chaque entreprise dispose de sa logique. Nous voyons des entreprises préférer garder la main sur les savoir-faire et les données, pour des raisons de confidentialité. Nous en voyons d’autres assumant une délégation complète des activités Big Data pour se concentrer sur les besoins de ses clients. Au final, il s’agit moins d’une question liée au Big Data que de la façon dont est appréhendée l’innovation.

Est-ce que les technologies Big Data sont pérennes ?

Le Big Data est perenne au niveau des usages et, même si les derniers Frameworks sont appelés à évoluer, ils couvrent aujourd’hui de vastes besoins dont le temps réel. Le Big Data est aussi pérenne au niveau de la fiabilité de l’infrastructure car il limite l’impact des incidents et des pannes. Il est enfin pérenne au niveau de l’écosystème qui est aujourd’hui installé et peut accompagner sur les montées de version et les outils simplifiant l’utilisation des plateformes. Si les entreprises ont en face la volonté d’instaurer une véritable gouvernance Big Data, il n’y a aucune raison pour que ces technologies disparaissent.

Quelles sont les technos que tu vois émerger rapidement ?

Spark et Flink, qui sont tous les deux compatibles avec Hadoop et qui remplacent MapReduce. Ces deux technologies sont capables de traiter des données en temps réél et en micro batch et favorisent les traitements en mémoire. Ils sont plus rapides que MapReduce.