reseaux-neurones-intelligence-artificielle

Intelligence artificielle : Introduction aux réseaux de neurones (1/3)

Par Christophe Gosset, Data Scientist.

Dans cette nouvelle série d’articles, nous nous intéresserons aux capacités des réseaux de neurones pour la résolution de problèmes d’Intelligence Artificielle (IA). Ce premier volet aborde sous un angle historique les fondements théoriques des réseaux de neurones, aujourd’hui largement présents dans l’industrie. Il sera suivi d’un deuxième volet sur leur implémentation informatique et d’un troisième sur les cas d’usage.

1. Le contexte de l’intelligence artificielle

Après plusieurs décennies de recherche, l’intelligence artificielle est entrée brutalement dans de nombreuses applications industrielles : lecture automatique de caractères manuscrits, reconnaissance de visages… En moins de 10 ans, ces applications techniques relevant de l’Intelligence Artificielle sont vastes, et restent pour le grand public, comme pour les professionnels non spécialistes, un domaine rempli d’images d’Épinal.

S’il est clair que l’Intelligence Artificielle est intimement liée au concept de « cognition », ce qui n’est pas clairement démystifié, aujourd’hui, est la nature des fonctions cognitives humaines et animales pouvant être assurée par cette discipline. En effet, ces capacités recouvrent une grande diversité de tâches allant des processus de traitement de l’information de haut niveau comme la mémoire, la prise de décision, le raisonnement, aux processus plus élémentaires et/ou de plus bas niveau comme la perception, la motricité et même l’émotion — l’émotion étant un facteur déterminant lors de la prise de décision.

L’évolution technologique observée depuis le début des années 2010 dans le domaine des composants électroniques (processeurs, cartes graphiques, composants numériques programmables) a permis de mettre en lumière la capacité de l’IA à traiter ces problématiques complexes dans un contexte industriel. Nombre d’applications professionnelles et grand-publics partagent maintenant ces avancées impressionnantes, mais restent essentiellement cantonnées au champ de la perception visuelle et sonore, comme la reconnaissance de forme et de la parole .

Même si ces résultats sont impressionnants, l’état de la recherche mathématique et de la technologie ne permettront pas à court terme de reproduire des capacités cognitives plus complexes, comme celles de ressentir, d’élaborer et d’inventer. C’est souvent cette deuxième forme d’intelligence que le grand public associe au concept d’« intelligence artificielle ». Il est clair que ces avancées n’entrent pas dans le cadre de ces capacités actuelles. Ces limitations relèvent à la fois d’aspects mathématiques fondamentaux, mais également d’éléments technologiques liés à la capacité de traiter rapidement un très gros volume d’informations.

2. Du neurone biologique aux réseaux de neurones formels

Une partie des techniques de l’Intelligence Artificielle repose sur l’utilisation de neurones artificiels, également appelé neurones formels, dont le fonctionnement très simplifié est inspiré de celui des neurones biologiques. La constitution d’un neurone biologique est très complexe. On montre sur la figure 1a une vue fonctionnelle simplifiée. Sensible à des sollicitations de diverses natures, un neurone capte ces signaux incidents par l’intermédiaire de filaments appelés dendrites. Ceux sont les portes d’entrée « neuronales » de l’information. Chaque dendrite est connectée à une synapse par qui l’information incidente est amenée, en provenance d’un autre neurone ou d’une cellule. Le noyau est chargé de déterminer le signal d’activation produit en fonction de l’état des signaux incidents. Le signal d’activation produit (unique pour chaque neurone) est alors transmis par l’axone à d’autres cellules ou neurones. L’axone est le prolongement du neurone et permet son interconnexion avec d’autres neurones ou cellules grâce à une liaison synaptique. La figure 1b montre une vue d’artiste de deux neurones biologiques connectés par une synapse.

figure 1a
Figure 1a – Représentation d’un neurone biologique

figure 1b

Figure 1b – Illustration de deux neurones connectés par une synapse

Le premier neurone formel est proposé en 1943 par McCulloch et Pitts, dont le schéma présenté sur la figure 2 est une évolution. Chaque neurone est composé de N entrées connectées à l’information extérieure (équivalent aux boutons synaptiques des dendrites) et reliées à une fonction chargée de « combiner » les signaux incidents. Il s’agit en général d’une somme pondérée, dont le résultat contrôle l’intensité du signal d’activation produit à la sortie du neurone.

figure2 - articlev4
Figure 2 – Schéma d’un neurone formel

3. Les réseaux de neurones pour l’extraction et le stockage de l’information

La puissance de calcul et d’interprétation du cerveau d’un être vivant est le résultat de l’interconnexion d’un grand nombre de ces neurones, de l’ordre de plusieurs milliards, appelé réseau de neurones. Dans les années 1950, Franck Rosenblatt propose un premier concept de réseau appelé « perceptron » [1], qui s’avère être le plus simple des réseaux. Minsky et Papert, fondateurs du laboratoire d’intelligence artificiel du MIT, montrent dans leur ouvrage Perceptron paru en 1969 [2], les lacunes de ce premier modèle. Ce qui a entraîné la mise en sommeil des études sur les réseaux de neurones durant les années 1970.

Il faut attendre 1982 et les travaux de Hopfield [3] pour donner une impulsion nouvelle à cette discipline, en jetant les ponts entre la physique statistique et les réseaux de neurones. Ce résultat constitue le prélude de 20 années de recherche qui déboucheront sur l’avènement industriel des techniques liées à l’apprentissage profond [4], [5], à travers la découverte de procédures d’apprentissage efficaces et industrialisables.

La figure 3 illustre ces avancées à travers trois réseaux agencés de manières différentes. Les neurones sont représentés par les cercles blancs et les liaisons synaptiques par les traits pleins. L’apport de l’apprentissage non-supervisé sur la compréhension de ces structures a été mis en évidence.
La figure 3a, illustrant le cas où les neurones sont tous interconnectés, représente un réseau de Hopfield. Aucune hiérarchie n’apparaît dans ce système car aucune distinction n’est faite entre les neurones (exemple d’application : mémoire adressable par son contenu). Le réseau illustré sur la figure 3b est également un réseau entièrement connecté dans lequel a été introduite une partition des neurones en deux groupes : visibles et invisibles. Les neurones visibles sont connectés directement au signal incident, alors que la couche de neurones cachés est chargée « d’enregistrer » une forme synthétique au fur et à mesure de l’observation d’exemples. Ces réseaux portent le nom de machine de Boltzmann et ont été découvert en 1985 par Hinton et Sejnonwski [5], et ouvrent la voie de l’apprentissage neuronal non-supervisé, c’est-à-dire sans exemple préalablement annoté.

L’on ne perçoit pas encore la structure en couches du réseau, qui sera introduite par Hinton en 2002 avec les machines de Boltzmann restreintes (RBM, Restricted Boltzmann Machine), illustré sur la figure 3c. Cette structure est très intéressante car elle permet une procédure d’apprentissage non-supervisé efficace [6], fournissant une hiérarchie des caractéristiques intrinsèques d’un jeu de données complexes, comme un ensemble d’images. Dans ce schéma, les liaisons synaptiques entre neurones de même nature sont supprimées, donnant lieu à une structure en couches des neurones visibles et cachés.

 

figure3 v4 - net evol

a) Hopfield (1982)    b) Machine de Boltzmann (1986)   c) Machine de Boltzmann restreinte (2002)
Figure 3. Évolution des réseaux de neurones : un chemin vers l’apprentissage non-supervisé

C’est notamment grâce aux propriétés fondamentales de cette structure proposée en 2002 par Hinton, et des réseaux structurés spécifiquement pour l’analyse d’images (CNN, Convolutional Neural Network) [7], que l’on observe aujourd’hui de nombreuses applications industrielles du deep learning.

Références :
[1] F. Rosenblatt (1958). « The Perceptron : a Probabilistic Model for Information Storage and Organisation in the brain », Psychological Review, vol. 65 (1958).
[2] M. Minsky, S. Papert, « Perceptrons », MIT press (1969).
[3] J. J. Hopfield, « Neural networks and physical systems with emergent collective computational abilities », Proc. Natl. Acad Sci., vol. 79, p. 2554 (1982).
[4] Y. Le Cun, Y. Bengio, G. Hinton « Deep Learning », Nature, vol. 521, p. 436 (2015).
[5] D. H. Ackley, G. E. Hinton, T. J. A. Sejnowski, « Learning Algorithm for Boltzmann Machines », Cognitive Science, vol. 9, p. 147 (1985).
[6] G. Mayraz, G.E. Hinton, «  Recognizing Handwritten Digits Using Hierarchical Products of Experts », IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, p. 189 (2002).
[7] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, « Gradient-based learning applied to document recognition », Proc. IEEE, vol. 86, p. 2278 (1998).

aquila_cloud big data compatibilité

Cloud & Big Data : Potes pour la vie ?

Le Cloud Computing et le Big Data sont considérés comme les deux principaux vecteurs d’innovation informatique de ces cinq dernières années. Le Cloud Computing, en accompagnant la mobilité et l’agilité. Le Big Data, en augmentant la capacité d’analyse.

Le Cloud a généré un nombre croissant de données hétérogènes comme les logs, la géolocalisation et tant d’autres. Historiquement, c’est un peu le « père » du Big Data, une technologie mise au point pour traiter efficacement ces nouveau flux de données « anarchiques ».

Mais dans cette photo de famille, il existe une confusion qui voudrait faire croire que l’un n’existe pas sans l’autre. Elle est aujourd’hui renforcée par des offres de fournisseurs de Cloud proposant du Big Data As a Service. Il convient pourtant et simplement de différencier trois approches pour distancer cette idée reçue.

Première approche : SaaS & Analytique

De plus en plus de solutions reposent sur de l’analytique et du Big Data en SaaS. C’est le cas, très majoritairement pour les DMP (Data Management Platform) et les différents outils de Data Visualisation / Text Mining. L’arrivée des réseaux IOT (Llora et Sigfox pour citer les plus connus) ne se borne pour l’instant qu’à fournir un service de capture des données issus des objets et de les restituer de manière plus ou moins brute. Il semble évident que l’étape suivante sera de proposer des services d’analyse de ces données. Un éco-système d’acteurs spécialisés par secteur d’activités ou par typologie de traitement va logiquement voir le jour.

De la même façon qu’aucune entreprise ne s’amuserait aujourd’hui à développer un ERP et utiliserait même volontiers SalesForce, le Big Data se verra normalisé sur un certain nombre d’usages. Notamment grâce à des fournisseurs capables d’offrir un service maîtrisé, tant au niveau du retour d’expérience, de la connaissance métier que du paiement à l’usage en fonction du résultat.

C’est un aspect certes encore marginal du Big Data, mais c’est aussi l’un des plus prometteurs.

Deuxième approche : Big Data as a Service (PaaS)

Le Big Data as a Service est un terme en vogue. Que ce soit en Cloud Public (AWS, Google, Azure, IBM) ou en mode Cloud privé « packagé » en interne, il doit pourtant être envisagé avec un minimum de recul et ce pour les raisons suivantes :

  • Couverture fonctionnelle — Les solutions « clefs en main » ne peuvent pas tout offrir. C’est pourquoi, elles s’appuient sur des spécificités et ne proposent pas tous les outils (notamment la Data Visualisation). Quelques exemples : IBM et Watson orientés Data Science, AWS et sa profusion d’outils, Azure et ses ponts naturels vers Power BI et Excel, etc.
  • Mise en production — Au delà de la sécurité, des développements spécifiques à mener, des compétences à mettre en oeuvre ou encore des déploiements d’ETL, c’est la politique de tarification qui devra être surveillée de près, de façon à ne pas perdre l’avantage Cloud (pics d’usage).

En résumé, le Big Data As a Service est sans doute un outil efficace pour déployer des projets en mode POC, mais il devient plus discutable pour de la production.

Troisième approche : Infrastructure Big Data en IaaS

Si l’on ne devait parler que d’infrastructures (y compris en mode PaaS) se rajouteraient les deux contraintes suivantes :

  • Puissance — La virtualisation des clusters aboutit naturellement à une perte de puissance de l’ordre de 10%.
  • Latence — Transférer 1 PO de données par le Web est une démarche compliquée. Une forte latence est évidemment une contrainte (y compris au niveau du calcul et de l’ordonnancement des paquets), notamment lorsqu’il s’agit de faire du temps réel.

Pour remédier à ces problèmes, les fournisseurs de Cloud proposent du Bare Metal. Ce qui revient, peu ou prou, à relativiser les économies d’échelle de la virtualisation (surtout au niveau des tarifs).

Beaucoup d’entreprises utilisant du Big Data dans leur cœur de métier comme Critéo ou Netflix ont d’ailleurs choisi — ou fini par choisir, de privilégier des solutions physiques et internes.

Ceci dit, comme il ne faut pas jeter le bébé avec l’eau du bain, il existe bien évidemment des vertus au Big Data en mode Cloud :

  • Montée en charge maîtrisée / scalabilité / coûts limités en phase de POC et développement
  • Mode « go fast and fail quick » à savoir la possibilité de traiter des jeux de données et voir rapidement l’intérêt à déployer des solutions plus lourdes.
  • Urbanisation SI, consistant à faire transiter des offres packagées par le biais d’un portail permettra de les agréger plus facilement par la suite. Ce n’est pas le cas aujourd’hui et les DSI se retrouvent souvent à devoir intégrer de nombreux projets Big Data ayant utilisé des technologies complètement différentes. C’est aussi l’innovation qui est favorisée à travers ces offres.
  • Mode collaboratif pour impliquer plus facilement différentes filiales (surtout si elles sont très éloignées les unes des autres), par  une mise à disposition de plateforme en mode Cloud. Les Data Lake sont aussi mieux appréhendés — au moins techniquement par ce biais.

Comment aborder le Big Data en mode Cloud ?

  • Regarder d’abord tout ce qui peut être réalisé par le biais d’outils en SaaS. Ils vont se développer et constitueront, de plus en plus, une alternative à l’approche « forgeron ».
  • Passer par des POC en IaaS / PaaS à la condition de les avoir normalisé en interne.
  • Les déployer en production à condition qu’ils répondent à un périmètre défini (pics d’usage, pas ou peu de contraintes de temps réel, intégration faible, nécessité d’ouverture de la plateforme). Dans le cas contraire (puissance de calcul importante, temps réel avec un fort volume de données, utilisation continue, sécurisation forte), privilégier les serveurs physiques en interne.

S’y greffent bien sûr des questions de sécurité, de gouvernance, de localisation des données, et, plus généralement de déploiement de plateformes personnalisées, d’analyse des données et de machine learning pour lesquelles les consultants d’Aquila Consulting vous accompagneront volontiers.

10ans AQUILA CONSULTING

Aquila Consulting fête ses 10 ans

Le 25 janvier dernier, Aquila Consulting fêtait ses 10 ans d’existence. Une date à marquer d’une pierre blanche dans notre histoire.

Le mot de Stéphane George, directeur général d’Aquila Consulting :

Nous partîmes 56 ; et après une belle soirée,
Nous nous vîmes 56 en revenant au quai.

C’était un bon moment, ces 10 ans fêtés comme il se doit, en embarquant à bord d’une péniche pour un tour de Seine. L’occasion de me remémorer les débuts de cette aventure. Nos premiers clients nous suivent encore et nous sommes aujourd’hui 60, avec une activité Big Data et Cloud qui prend de l’ampleur. L’occasion aussi de dresser des perspectives heureuses, tant sur nos métiers historiques que sur nos nouvelles activités et nos nouveaux clients. C’est un chemin que nous avons parcouru tous ensemble, et je vous en suis très reconnaissant.

Je me souviens qu’il y a eu du champagne, des petits fours, qu’on est parti de la Tour Eiffel et qu’on est passé devant les plus beaux monuments. Je me souviens d’avoir été pris en photo en indien, mais je ne suis pas le seul.. Et ceux qui ont échappé aux costumes ont pu se faire tirer le portrait par un caricaturiste. Un moment très convivial et très joyeux pour se retrouver et se voir en dehors des bureaux !

Je tiens à remercier chaleureusement tous les participants : les personnes qui travaillent actuellement chez Aquila, mais aussi tous les anciens qui ont eu la gentillesse de venir et nous rappeler qu’ils avaient apprécié leur ambiance de travail. Et les clients, aussi, dont la plupart se connaissaient (que le monde est petit) et qui ont eu l’occasion d’échanger sur leurs « petits soucis » souvent identiques, et drôles (avec le recul…)

À très bientôt pour une autre fête !

Stéphane

 

Revivez avec nous la soirée en images :

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Anniversaire 10 ans - AQUILA CONSULTING

Aquila Consulting au Salon Big Data de Paris les 6 & 7 mars 2017

Aquila Consulting au Salon Big Data 2017

AQ_Visuel_Salon-BigData-Paris

Cette année encore, l’équipe d’Aquila Consulting sera présente au Salon Big Data. Rendez-vous au stand 410 !

Une occasion pour nous de présenter aux 12 000 participants attendus sur l’évènement — professionnels du secteur & grand public :

  • Notre vision du Big Data
  • Notre offre d’accompagnement
  • Nos retours d’expérience acquises au fil des missions

Au cours de nos 10 années d’existence, nous avons en effet accompagné de nombreuses directions informatiques et directions métiers sur des enjeux propres à leurs secteurs d’activité variés : banque, transport, jeux en ligne, énergie, robotique, agro-alimentaire, institution internationale etc.

Venez nous rencontrer et échanger avec notre équipe lors des tables rondes organisées sur notre stand !

Au programme sur le stand d’Aquila Consulting

Gwénael Maillard, directeur de la BU Big Data d’Aquila Consulting, expliquera à partir de cas d’usage, les contributions du machine learning et de l’intelligence artificielle aux enjeux business d’aujourd’hui : analyse du churn, de la fraude bancaire, les avancées des modèles prédictifs etc. Il abordera également les enjeux et les solutions technologiques existantes du Big Data dans le cloud, les best practices à adopter pour une mise en œuvre réussie d’un Data Lake et les pièges à éviter.

Les informations pratiques

AQ_Plan_Stand410_SalonBigData

En attendant le jour J, découvrez dès à présent le détail de nos différents domaines de compétences. Si vous avez des questions, n’hésitez pas à nous contacter à l’adresse contact@aquila-consulting.fr ou par téléphone au 01 46 67 10 66 : nous serons ravis d’y répondre.

tftf

Ville intelligente ? par Kenza Squalli

Smart city, ville numérique, green city, connected city, éco-cité, ou encore ville durable. Tous ces termes pour désigner la ville intelligente. Qu’est-ce qu’une ville intelligente ?

Les villes intelligentes et durables, diminuent l’impact environnemental, mais, également, repensent en profondeur les modèles d’accès aux ressources, les transports, la gestion des déchets, la climatisation des édifices et surtout la gestion de l’énergie (production, acheminement, etc.). Les villes intelligentes sont avant tout des villes centrées sur l’individu. Elles reposent sur l’infrastructure des TIC, sur un développement urbain permanent et prennent systématiquement en compte la viabilité environnementale et économique, en respectant les besoins des générations actuelles et futures.

Les caractéristiques d’une ville intelligente sont,

  1. Une économie intelligente.
  2. Une mobilité intelligente.
  3. Un environnement intelligent.
  4. Des habitants intelligents.
  5. Un mode de vie intelligent.
  6. Une administration intelligente.

 

Une économie intelligente : c’est l’ensemble des activités coordonnées de collecte, de traitement et de diffusion de l’information utile aux acteurs économiques, en vue de son exploitation. On peut y ajouter les actions d’influence et de notoriété ainsi que celles liées à la protection de l’information. Par exemple, la géolocalisation peut permettre à des consommateurs d’accéder aux biens les plus proches, et ainsi minimiser les parcours.

Une mobilité intelligente : c’est l’accessibilité des citoyens aux nouvelles technologies  visant à réduire les embouteillages et à encourager des options de transport plus rapides, plus écologiques et plus économiques. Dans la plupart des cas, les systèmes de mobilité intelligente exploitent les données relatives aux habitudes de déplacement obtenues de sources diverses dans le but d’améliorer les conditions de circulation dans leur ensemble. Ces systèmes recouvrent aussi bien des réseaux de transport en commun que des modes de déplacement individuel tels que le vélo en libre-service, le covoiturage, le partage de véhicules et, plus récemment, le transport à la demande (par exemple, le système de vélos en libre-service de São Paulo a fait diminuer les émissions de dioxyde de carbone de 570 tonnes).

Un environnement intelligent : c’est un environnement dans lequel des détecteurs et actionneurs ont été intégrés, pour réagir à des évènements et s’adapter aux personnes présentes. Une maison intelligente peut adapter la température et l’éclairage en fonction de la santé, de l’humeur et des préférences des personnes à l’intérieur de chaque pièce.

Des habitants intelligents : la volonté d’améliorer le quotidien des citoyens ne peut se faire sans la contribution de ces derniers. En effet, l’introduction des nouvelles technologies, seules, dans les 6 villes qui se distinguent par leur niveau de maturité le plus élevé telles que Amsterdam, Barcelone, Copenhague, Helsinki, Manchester et Vienne n’auraient pas pu faire d’elles des smart cities sans la prise de conscience des habitants tant au niveau de leur degré de qualification ou d’éducation, que de leur capacité à s’ouvrir au monde « extérieur ». Participer au tri des emballages ménagers exige de l’implication des habitants..

Un mode de vie intelligent : c’est un mode de vie où les différents systèmes de la santé, sécurité, logement, tourisme sont organisés de manière à tous interagir efficacement, ce qui peut améliorer l’efficacité énergétique, limiter le gaspillage et optimiser la consommation, aux fins du bon fonctionnement des locaux et de la satisfaction de leurs occupants.

Une administration intelligente : comprend les aspects de la participation politique et active, services aux citoyens, ainsi que le fonctionnement intelligent de l´e-Administration. Souvent aussi on entend l´utilisation de nouveaux canaux de communication, tels que par exemple, l´administration en ligne ou « e-démocratie ».

 

A fin de mesurer et classer les villes intelligente, la commission « Industrie, recherche et énergie » du Parlement européen  a définit quatre niveau de maturité des villes intelligentes :

  • Niveau 1 : la ville dispose d’une politique ou d’une stratégie de ville intelligente, ce qui suffit selon le rapport à la classer comme ville intelligente ;
  • Niveau 2 : en plus du niveau 1, la ville s’appuie pour sa politique ou sa stratégie sur une planification ou une vision ;
  • Niveau 3 : en plus des niveaux précédents, des initiatives-pilotes de ville intelligente sont implémentées ;
  • Niveau 4 : en plus des niveaux précédents, une initiative de ville intelligente au moins a été complètement lancée ou implémentée.

Grace à ce classement la commission « Industrie, recherche et énergie », 240 villes européennes de 100 000 habitants ou plus atteignent le niveau 1 et sont donc identifiées comme villes intelligentes. Premier d’entre eux, avec 38 villes intelligentes sur les 240 répertoriées, le Royaume-Uni s’impose comme le pays le mieux représenté, devant l’Italie 35 et l’Espagne 34. Vient ensuite la France forte de 18 villes intelligentes sachant que la moyenne des pays engagés est de 9,6 villes intelligentes.

Concernant Paris la ville cherche à tripler les énergies renouvelables dans le mix énergétique de la ville, pour parvenir à 100 000 m² de végétalisation des toits et terrasses, et fixer un objectif zéro déchet, zéro carbone dans les nouveaux quartiers, à comparer à San Francisco qui a elle réussi à recycler 80 % de ses déchets. Paris devrait pouvoir passer de 15 % aujourd’hui à 65 % en 2020

Actuellement 120 villes intelligentes existe déjà dans le mode et ceci en grande partie en USA, Inde, Singapour. Selon l’ONU, près de 70% de la population vivra dans les villes d’ici 2050 ce qui demande des pays de s’investir encore plus dans cette dynamisme de smart city afin de résoudre les problématiques de pollution, embouteillage et pour que chaque citoyen puisse avoir une vie digne et contribuer positivement au développement de son entourage et de sa ville.

 

Article

BI ou Big Data ?

Adil LAKHDAR, Data Scientist chez Aquila Consulting, nous explique les principaux avantages du Big Data, notamment en comparaison de la BI.

Comment définirais-tu le Big Data ?

Il existe beaucoup de définitions du Big Data, certains parlent des 3V d’autres des 5V. Le plus simple à dire est que le Big Data permet d’analyser de gros volumes de données hétérogènes en garantissant un temps de traitement rapide. Il offre également une sécurité du stockage des données, et une disponibilité constante des machines.

Pourquoi une entreprise utiliserait-elle des technologies Big Data ?

Une entreprise a besoin du Big Data pour analyser, stocker et rendre disponibles de gros volumes de données qu’ils soient hétérogènes ou non, dans le seul objectif de créer de la valeur. En exploitant la force de la Data Science qui allie les statistiques avancées et l’informatique, une entreprise a de fortes chances de mieux maîtriser les données, qu’elles soient internes ou externes (réseaux, mobilité, objets). Par ailleurs, elle peut générer des innovations en sortant de son approche traditionnelle en silos / métiers.

Est-ce un effet de mode ?

Il y a beaucoup de disccussions qui portent sur des entreprises qui ont utilisé le Big Data et révolutionné leur secteur (les GAFA, mais aussi Uber, Airb’nb). Mais, pour parler concrètement, on ne pourra pas nier que le volume de données produites explose et que les traitements classiques ne sont plus adaptés : temps de traitement longs (parfois sur plus de 24 heures), difficulté à traiter les données au fil de l’eau et à les agréger en dehors des bases de données relationnelles, nombreuses mises en production pour corriger des pannes, nombreux incidents. Tous cela impacte le business, le SI et les utilisateurs. Le Big Data n’est donc pas forcément un effet de mode mais bien une solution à ces problèmes.

Concrètement, qu’est que cela apporte ?

Le Big Data apporte une capacité de calcul énorme, parce qu’un cluster Big data propose un ensemble de calculateurs interconnectés où sont répartis les traitements afin de répartir les charges et améliorer la disponibilité. Cela apporte également du stockage à moindre coût.

Aujourd’hui, il est devenu possible de traiter d’importants volumes de données en un temps limité : le Big Data est près de 50 fois plus rapide comparé aux précédentes technologies, et s’adapte, je le répète, à tous types de données, qu’elles soient structurées ou non.

Ce simple avantage a un impact réel sur le business.

Et que devient la BI ?

La BI continue de jouer son rôle. C’est particulièrement le cas sur la partie transactionnelle. Il n’y a pas forcement besoin de tout repeindre en Big Data. En revanche, si l’entreprise cherche à améliorer ses services internes (réactivité, exhaustivité) et externes (innovation, connaissance des clients), le Big Data est un atout précieux.

Est-ce que je dois abandonner ma BI ?

Non, la BI reste toujours d’usage. Son effet structurant est déterminant dans beaucoup de domaines : finance, ventes, incidents, production..

Simplement, n’oublions pas que la BI a des limites, car de nouveaux usages ne peuvent pas être satisfaits, en particulier le travail sur les nouvelles sources ignorées par les datawarhouses et les gros volumes de données.

A quel coût ?

Le principal écueil que nous rencontrons auprès de nos clients est de vouloir à tout prix déterminer des ROI en amont des projets quand ces derniers portent sur des stratégies d’innovation. Dans ce cas, il faut raisonner en termes d’investissement direct, au même titre que n’importe quel investissement en R & D.

Cela dit, on peut aussi strictement raisonner par comparaison avec la BI, et dans ce cas, le Big Data peut facilement se révéler moins cher pour les 3 raisons suivantes :

  • Les serveurs utilisés pour les Data Nodes sont « simples ». Ce sont les calculs parallèles qui rendent l’ensemble puissant.
  • Le système de clusteurs garantit un facteur de réplication de 3, ce qui signifie que deux serveurs sur 3 peuvent tomber en panne sans que les données ne soient touchées, ce qui coûte évidemment moins cher qu’une réplication de l’infrastructure pour un PRA (plan de redémarrage d’activité).
  • Une grande majorité des outils Big data sont Open source et sous licence GNU, ce qui les rend bien moins onéreux que les licences des outils de BI.

Quelle équipe faut-il mettre en place ?

Une entreprise peut très bien commencer par mettre en place une équipe interne capable d’installer la plateforme (y compris en mode POC / Cloud), collecter des données et les analyser pour réaliser un cas d’usage métier. L’entreprise a toujours fait des statistiques, elle a toujours mis en place de l’infrastructure et a toujours su manager des équipes. Les compétences existent et peuvent s’adapter. Sur deux fonctions précises, elle aura cependant besoin de développer son savoir faire :

– Data Scientist pour des analyses de prédiction, de machine learning, et de datamining

– Développeur Big Data pour les cas d’usage à réaliser et qui doivent être industrialisés afin de récolter des résultats en temps réel

Des sociétés de conseil comme Aquila sont là pour aider à réaliser cette transition.

Est-ce que l’on doit externaliser ou garder l’activité en interne ?

Chaque entreprise dispose de sa logique. Nous voyons des entreprises préférer garder la main sur les savoir-faire et les données, pour des raisons de confidentialité. Nous en voyons d’autres assumant une délégation complète des activités Big Data pour se concentrer sur les besoins de ses clients. Au final, il s’agit moins d’une question liée au Big Data que de la façon dont est appréhendée l’innovation.

Est-ce que les technologies Big Data sont pérennes ?

Le Big Data est perenne au niveau des usages et, même si les derniers Frameworks sont appelés à évoluer, ils couvrent aujourd’hui de vastes besoins dont le temps réel. Le Big Data est aussi pérenne au niveau de la fiabilité de l’infrastructure car il limite l’impact des incidents et des pannes. Il est enfin pérenne au niveau de l’écosystème qui est aujourd’hui installé et peut accompagner sur les montées de version et les outils simplifiant l’utilisation des plateformes. Si les entreprises ont en face la volonté d’instaurer une véritable gouvernance Big Data, il n’y a aucune raison pour que ces technologies disparaissent.

Quelles sont les technos que tu vois émerger rapidement ?

Spark et Flink, qui sont tous les deux compatibles avec Hadoop et qui remplacent MapReduce. Ces deux technologies sont capables de traiter des données en temps réél et en micro batch et favorisent les traitements en mémoire. Ils sont plus rapides que MapReduce.

AC-voeux2016-1

Qu’est-ce qui pourrait sauver l’amour ?

Sean Rad, le patron de Tinder, a révélé qu’un algorithme de « désirabilité » était en oeuvre pour favoriser les rencontres entre ses membres, En soi, le principe ne surprend ni ne choque. À terme, on pourrait même aller plus loin : toutes les données que peuvent émettre des couples (géolocalisation, habitudes de consommation, voyages, cercles relationnels, travail..) pourraient alimenter des plateformes de machine learning, et fournir des modèles prédictifs : « Vous allez vous marier au mois de juillet 2017 », « Il vous reste 1 an de vie en commun »,, « Micheline n’est pas la femme de votre vie », « C’est Jean-Jacques ».. Quand on sait qu’un fournisseur de système de paiement bancaire a récemment découvert que des signaux faibles lui permettaient de prédire les divorces, on se dit que le chemin qui mènera à enfin fiabiliser l’amour n’est plus si loin.

Certains s’en réjouiront, et trouveront sympathiques d’être en interaction avec leur temps. Un sociologue comparait d’ailleurs notre extension numérique à un avatar, qui serait capable de nous connaître et de nous aider au gré de nos envies. Un ami très serviable, en somme. D’autres, moins optimistes, s’inquiètent d’une dangereuse normalisation des comportements et d’une possible surveillance généralisée, sans parler d’un scénario catastrophe où les objets, qui font déjà des transactions à notre place, seraient aussi capables de s’organiser à notre détriment.

Etonnemment, c’est au sein même des acteurs de l’informatique qu’un mouvement d’opposition semble naître. Plusieurs signes  en ce début d’année nous en donnent le sentiment :

  • 2015 a vu une part exponentielle de la population chercher à être autonome vis à vis des bandeaux publicitaires en ligne. Les « Ad Blockers » sont maintenant utilisés par plus de 200 millions de personnes dans le monde, représentant 22 milliards de dollars de pertes de revenus pour les annonceurs.
  • Brendan Eich, inventeur du Javascript et de Mozilla vient de lancer Brave, un navigateur capable de bloquer les publicités qu’il juge intrusives, mais pour les remplacer par d’autres contenus publicitaires donnant lieu à une rémunération partagée avec les utilisateurs.
  • Tim Cook a annoncé qu’Apple allait se retirer en juin du marché de la publicité en ligne, taclant au passage ses concurrents : « Nous pensons que le client doit pouvoir contrôler ses propres informations », et réitérant son souhait de ne pas communiquer des données de géolocalisation (le cryptage des Iphone 6 avait déjà passablement énervé le FBI).

Il y a, bien sûr, des visées commerciales derrière ces démarches, mais on peut à minima leur reconnaître le mérite d’élever le niveau de conscience et d’autonomie des utilisateurs. Les lois sur   la « République Numérique » actuellement en discussion à l’assemblée nationale portent, pour une large part, sur la protection des utilisateurs (portabilité des données, transparence des plateformes, processus de validation des avis consommateurs, « Privacy by Design », secret des correspondances numériques..). Il est probable qu’émergent de plus en plus de nouveaux business fondés sur l’éthique et le partage de valeur autour des données. Il est aussi probable que les stratégies de marques ne puissent plus uniquement se contenter d’agréger autour de plateformes monopolistiques, ou de commercialiser des données à l’insu des utilisateurs : qu’elles doivent, plus que jamais, faire valoir un positionnement fort qui aille au delà de la maîtrise du trafic on line. Que l’informatique reste ce qu’il a toujours été : un outil au service du plus grand nombre.

Récemment lu sur un forum, ce cri du coeur d’un codeur : « je ne veux pas devenir une pute à clic » résume avec poésie ce sursaut où il semble à nouveau possible de sauver l’amour.

Toute l’équipe d’Aquila vous souhaite une bonne année 2016 !