vendredi 7 février 2014

Le Big Data ou le monde digital en chiffres

Qu'est ce que le "Big Data" mis à part un terme aujourd'hui à la mode et une grande inconnue pour beaucoup de personnes, y compris d'informaticiens ? Essayons de dissiper quelques pans de ce brouillard sans pour autant prétendre atteindre l'illumination en un seul article.

La face humaine du Big Data. Document Against All Odds Productions/Rick Smolan.
Quand on évoque le concept de Big Data, on pense naturellement à la gestion de gros volumes de données.
Au cours d'une conférence sur la "Technonomie" qui s'est tenue en 2010, Eric Schmidt, CEO de Google avait déclaré : "Nous avons créé 5 exabytes d'informations depuis l'aube de la civilisation jusqu'en 2003. Nous en créons autant tous les deux jours et ce taux augmente."
La question qui est sur toutes les lèvres est comment faire face à de telles quantités de données ?
Faute d'information, pour la majorité des décideurs d'entreprises, c'est encore une inconnue ou le synonyme de problème à résoudre, de problème d'analyse, de problème de stockage et de nouveaux "problèmes". Bref, pour beaucoup c'est une excuse pour ne pas relever le défi.

*

La plupart des décideurs n'imaginent pas encore qu'une bonne gestion du Big Data peut apporter des solutions et offrir des opportunités, est synonyme de simplification, de précision, de rapidité, bref d'optimisation et d'amélioration.
Définition
Comme le disait Paul Doscher, CEO de LucidWorks, une société experte en solutions analytiques : "Le Big data ce n'est pas un plus grand data warehouse". Autrement dit, exploiter le Big Data ne consiste pas à construire des data centers toujours plus grands pour stocker toujours plus de données.
Le Big Data c'est bien plus que de la volumétrie. Pour être précis un "Big Data" est tout critère ou attribut qui défie les contraintes de capacité d'un système ou d'un besoin métier et qui va donc au-delà de ce qu'on peut normalement gérer ou réaliser.
En 2001, Doug Laney du groupe META (futur Gartner) définit les attributs du Big Data par les fameux "3 V" : volume, vitesse et variété. IBM ajouta la véracité. Par la suite, quatre nouvelles dimensions pertinentes furent ajoutées, pour aboutir aujourd'hui à un modèle multi-dimensionnel à 8 dimensions ou attributs.
Concrètement par Big Data on considère des volumes importants de données stockées ou présentes à un instant donné et qu'il faut capturer.
Cela concerne également la vitesse de traitement qui est généralement très élevée (les superordinateurs ont une vitesse de calcul qui s’exprime en petaFLOPS soit des millions de milliards d'opérations par seconde).


C'est aussi la variété des données et des structures de données. Celles-ci proviennent de différentes sources, internes et/ou externes, se présentent sur des supports et des formats variés. Ces données structurées, semi-structurées ou non structurées doivent pouvoir être exploitées dans leur format natif.
Ce sont les valeurs que représentent ces données, l'analyse donnant du sens aux informations individuelles et prises collectivement.
La véracité des données, c'est-à-dire leur fiabilité et leur qualité. Il est stratégique pour la pérennité et la réputation de l'entreprise que les données proviennent de sources fiables. Comme la rumeur propage de fausses informations, de fausses données génèrent de faux résultats.
La visibilité, des données à travers des tableaux récapitulatifs ou dashboards.
Disposer de données mais ne pas pouvoir s'en servir ou les visualiser est une perte de temps et d'argent. Il est nécessaire que les informations soient factuelles, disponibles et visuellement présentables (par ex. CaptainDash).
La datavisualisation concerne la représentation des données sous formes intelligentes, pratiques et interactives. Le Big Data s'adapte parfaitement à l'expression "une image vaut mille mots".
L'utilisation d'interfaces simples, interactifs et intuitifs permettant d'accéder rapidement à des images, des cartes, des infographies, etc. (par ex. Webmasters) donne un sens global aux données, révèlent les points forts et les détails.
Enfin, en complément, le Big Data offre des opportunités par la gestion de ces données en terme d'économie d'échelle (financièrement) et de métier. Tirer avantage des opportunités peut faire évoluer la stratégie de l'entreprise, augmenter sa compétitivité et améliorer sa réputation.

Exploitation du Big Data en marketing. Document Webmarketing Referencement.

Le monde digital en chiffres
Au début des années 1990, quand nous effectuions une recherche sur Internet, nous étions ravis quand nous trouvions une bribe d'information. Aujourd'hui nous sommes étonnés quand nous ne trouvons pas au moins une page d'hyperliens et surpris quand il n'y a aucune image !
Dans un article publié en 2009 dans le Times et repris par Google, on apprenait que les internautes avaient effectué 100 milliards de recherches sur Internet (ce qui engendrait par ailleurs 8400 tonnes d'émission de gaz à effet de serre chaque une année !).
Début 2013, on a dépassé le nombre de 200 milliards de requêtes par mois, ce qui représente plus de 77000 requêtes par seconde !


En 2012, Google gérait 20 milliards de pages web et 24 petabytes soit 24 milliards de mégabytes de données chaque jour.
Pour gérer ce flux astronomique de données, Google a installé 36 data centers à travers le monde, chaque site comprenant plusieurs centaines de serveurs et des dizaines de milliers de disques durs disposés dans des racks que l'on peut remplacer à chaud (hot swappable). Ici le "Big data" prend tout leur sens !
Selon Alexa, en 2014 Google demeure le site web le plus fréquenté dans le monde.

Le data center de Google installé dans le comté de Douglas en Géorgie,
l'un des 36 data centers du géant d'Internet qui nous permet notamment
de lancer des requêtes sur Internet et de travailler via le Cloud.
Google n'est bien sûr pas la seule entreprise à disposer de data centers. Des constructeurs, des centres de recherches, des sociétés d'assurances et des sociétés de service disposent de data centers offrant une sécurité de niveau Tier 3 (redondance des systèmes informatique) ou Tier 4 (le plus élevé, redondance des systèmes IT et des systèmes d'alimentation électrique); ces infrastructures sont devenues indispensables pour gérer les millions de documents et les milliards d'informations qu'ils traitent quotidiennement.
A l'échelle mondiale, en 2009, Internet contenait 500 exabytes soit 0.5 zettabytes de données, l'équivalent de 60 fois la quantité d'information qu'on peut enregistrer sur tous les disques durs produits en un an dans le monde !

Internet en chiffres. Ces valeurs calculées en juin 2012
peuvent déjà être multipliée par 1.2 début 2014 ! Document Mashable.
En 2012, nous avions créé dans le monde (sur le web, dans les entreprises, dans les centres de recherches, etc) 2.8 zettabytes de données et nous devrions produire 40 zettabytes de données en 2020.
Le Big Data en science
Dans le domaine scientifique, les centres de recherches accumulent également quotidiennement des volumes gigantesques de données sans pour autant atteindre les volumes d'entreprises privées comme Google.
Ainsi, en 2013 le JPL, leader de la robotique spatiale, a archivé 700 TB de données chaque jour provenant des sondes spatiales et des hauts-lieux de l'astronomie.
Le Very Large Telescope (VLT) installé au Chili et constitué de quatre télescopes de 8.20 m diamètre équipés de caméras CCD collecte 30 TB de données brutes chaque nuit qui sont transmises à l'ESO pour traitement.

Panorama des télescopes du VLT installés au sommet du mont Paranal au Chili.
En physique des particules, le CERN est aussi concerné par le Big Data. En fait, c'est l'organisation scientifique civile la plus exigeante et la mieux équipée en ce domaine.
Lors d'une collision entre protons, la caméra de 100 megapixels du LHC enregistre 40 millions de photographies par seconde, générant 1 petabyte de données par seconde !
Le CERN génère 35 petabytes de données chaque année qui devraient doubler après son upgrade à 14 TeV vers 2015 !

Les serveurs du Tier 0 du CERN sont constitués de 88000 coeurs de processeurs.
Ils enregistrent une copie des données brutes du LHC et les distribuent
via Internet aux 11 sites Tier 1 distribués à travers le monde. Document CERN.
Aucun superordinateur ne pouvant gérer seul la totalité des données du LHC, le CERN a mis en place un réseau de 260 sites informatiques distribués à travers le monde, le WorldWide LHC Computing Grid, dont le coeur ou Tier 0 est à Meyrin (Genève).
Le Tier 0 exploite un data center constitué de 88000 coeurs de processeurs. Il stocke en ligne 30 petabytes de données sur disques durs et 70 petabytes sur tapes. Depuis 2014, le data center de Budapest en Hongrie dispose de 300 000 coeurs de processeurs.

Le superordinateur Curie de 2 PFLOPS installé au CEA dans le cadre du projet européen PRACE
Le Big Data selon la NSA
Ainsi que nous l'avons expliqué dans l'article consacré à l'espionnage et l'affaire PRISM dévoilée en 2013, pour la NSA (agence civile), la NGA (agence militaire) et autre DGHQ, le Big Data prend une envergure cosmique tout comme le secret qui l'entoure !

La NSA exploite un superordinateur Cray XC30 de plus de 100 petaFLOPS.
Elle devrait franchir la barre de l'exaFLOPS vers 2018 !
A défaut de cibler ses objectifs et de connaître le motus operandi de ces suspects, la NSA est obligée de ratisser large et donc d'espionner ses ressortissants (ainsi que certaines personnalités étrangères) en mettant "sur écoute" tous les moyens de communications, y compris Internet à travers les lignes Wi-Fi, GPS, les messageries publiques, les réseaux sociaux et autres forums.
Selon la NSA, son nouveau data center installé à Bluffdale en Utah serait capable de contenir jusqu'à 1 yottabyte de données soit 1 million de milliards de gigabytes ! Ce data center pourra stocker plusieurs années complètes de trafic Internet (estimé à 996 exabytes en 2015) !

Vue générale du data center de la NSA installé à Bluffdale dans l'Utah qui fut inauguré fin 2013.
Il coûta deux milliards de dollars. Sa capacité est estimée à 1 yottabytes soit 1000 milliards de terrabytes.
Le site est situé dans un endroit isolé, peu fréquenté par les civils, juste en face du camp militaire de Camp Williams. Document AP/Rick Powmer.
Trafic sur les réseaux numériques
Pour satisfaire les utilisateurs de ces data centers et des clients, vous et moi, qui utilisons de plus en plus Internet, notamment les services multimédias qui exigent une large bande passante et un haut débit et les services du "Cloud", l'infrastructure des télécommunications a dû être adaptée aux nouvelles technologies.
Les lignes coaxiales par exemple ont été remplacées par de la fibre optique, les modems asynchrones par des routers et les ordinateurs monoprocesseurs par des systèmes multi-coeurs équipés de cartes graphiques accélératrices.
Ce progrès étant continu, on constate que la bande passante d'Internet (le débit des transferts de données) augmente de manière exponentielle chaque année.

Vue globale du volume de données numériques transitant à travers le monde par fibre optique fin 2007. Ces données ont de la valeur pour les entreprises, non seulement dans le cadre de leur métier, mais aussi sur le plan marketing et du ciblage des nouveaux clients. Elles en ont encore plus pour... les services de renseignements. Documents TeleGeography.
Sur les câbles de télécommunications en fibre optique installés à travers le monde, le débit des données est actuellement (2012) de l'ordre 125 terabits par seconde (Tbits/s ou Tbps) dont 82.4% concernent le trafic Internet, 17.4% les réseaux privés (notamment d'entreprises) et 0.2% le téléphone.
Dans ce flux de 125 Tbits/s, 12.6 Tbits/s soit 10% sont destinés à l'Europe. Ce flux de données représente chaque seconde le volume d'un disque dur de 1575 GB ou 25 clés USB de 64 GB ou 200 livres de 350 pages au format A5 !
L'informatique au service du métier
Le slogan "trop d'infos tue l'info" s'applique au Big Data plus qu'à toute autre technologie. Dans toute cette volumétrie ou tout ce flux de données, il faut pouvoir trier l'essentiel du superflu, faire la synthèse des informations collectées et trouver le meilleur moyen de les présenter au risque de rendre le contenu inintelligible, indigeste et finalement non productif.
C'est particulièrement vrai dans le commerce et une question cruciale pour les sociétés de marketing (qui furent par ailleurs les premières utilisatrices du Big Data).
Si les consommateurs sont friands d'informations et se disent bien informés, devant la pléthore d'informations, une personne sur deux avoue qu'il devient difficile de faire les bons choix.
Les besoins du métier ont donc poussé les informaticiens à élaborer de nouveaux outils pour exploiter intelligemment ces informations.

Structure d'Internet obtenue par data mining. Le coeur du web se compose d'un réseau dense d'environ 80 noeuds (tels que les fournisseurs de service). 5000 noeuds secondaires y sont connectés et 15000 noeuds au troisième niveau. Si tous les noeuds centraux tombaient, 70% des noeuds restant pourraient assurer la continuité du service. Document MIT Technology Review.
Gérer le Big Data comme un service
L'infrastructure informatique moderne nous propose de nombreuses solutions complémentaires pour gérer à la fois le Big Data, le débit élevé d'information et établir des corrélations entre des données parfois très variées.
Le cahier des charges comprend deux volets : hardware et software. Il nous faut de préférence des clusters HPC, les noeuds pouvant être des serveurs à haute performance ou des superordinateurs massivement parallèles.
Les plates-formes comme les réseaux peuvent être variés allant du réseau câblé à Internet en passant par une virtualisation dans le Cloud.
Enfin, cette partie matérielle doit être combinée à des outils de gestion et d'analyse de données.

La plate-forme d'analyse et de visualisation BigInsights d'IBM alimentée par la plate-forme Hadoop (à la fois système d'exploitation et logiciels de traitement de données non structurées) et intégrée à la gestion de données de l'entreprise.
Le data mining
Lorsque la partie matérielle est opérationnelle, que le système d'exploitation est installé et les sources de données identifiées, il faut à présent les combiner à des outils de gestion, d'analyse et de visualisation de données, ce qu'on appelle une application de "data mining".
Le "data mining" représente toutes les technologies susceptibles de rechercher et d'analyser les informations contenues dans les bases de données. On appelle également ce processus l'analytique.
C'est un outil de prospection visant à trouver des structures originales et des corrélations informelles entre des données. Le but est de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables, d'extraire l'exception ou l'individu de la moyenne.

Les liens entre les blogs de trois tendances politiques et les mass médias.
Document Datamining.
 
Cette spécialité fait appel à des technologies à la croisée de la gestion des bases de données, de l'intelligence artificielle, des systèmes experts et des statistiques. Parmi les méthodes utilisées citons la classification, les réseaux neuronaux, l'arbre de décision, SEMMA, Six Sigma, etc.
Voilà qui prend du sens et rend obsolète toutes nos bonnes vieilles méthodes statistiques et nos anciennes technologies !
Hadoop
Quand on aborde la question des logiciels gérant le Big Data, s'il y a une plate-forme que connaissent bien tous les spécialistes, c'est "Hadoop".
Développé en 2005 par deux ingénieurs de Yahoo, Hadoop est aujourd'hui géré par la fondation Apache, déjà propriétaire de plus d'une centaine de projets ou applications open-source dont le fameux serveur web Apache HTTP server.
Hadoop est un système d'exploitation écrit en Java qui permet de piloter des machines et de créer des applications distribuées et scalables adaptées à la gestion du Big Data.

Implémentation d'Hadoop au sein d'une entreprise. Document T.Lombry.
Il supporte donc le traitement en parallèle de très importants volumes de données de différents formats (non structurés), ce que ne peuvent pas réaliser les logiciels classiques.
A titre d'exemple, Hadoop est capable de gérer des fichiers de 500 millions d'enregistrements d'appels quotidiens, de transformer les 10 TB de Tweets créés chaque jour en données d'analyses visuelles ou de convertir 100 milliards de relevés annuels de compteurs d'électricité en tendances pour mieux prédire la consommation d'énergie.
Hadoop comprend quatre principaux composants :
- Common : une bibliothèque et des utilitaires utilisés par les autres modules
- HDFS : un file system distribué dérivé du GFS inventé par Google
- YARN : une plate-forme de gestion des ressources des clusters
- MapReduce : un modèle de programmation qui transforme les données indépendamment de leur échelle, les cartographie, les rassemble et met les résultats à disposition du HDFS.
Hadoop étant ouvert et gratuit, de nombreux développeurs ont créé des modules complémentaires dont InfoWorld a dressé une liste de 18 outils essentiels parmi lesquels HBaseMahoutNoSQL, etc.
Hadoop a été adopté par tous les majeurs de l'informatique dont Google, Amazon, Facebook, IBM, etc.

Schéma "high level" du paysage Big Data d'un point de vue logiciel (plate-forme), comprenant les systèmes d'exploitations, les logiciels de gestion et de visualisation conçus pour le Big Data. On note en particulier la présence de produits open-source (Hadoop, Hive, etc.) qui ouvrent les technologies à la concurrence et sont capables de gérer des données non structurées. Document Bloomberg Ventures.
Ceci dit, Hadoop n'est qu'une plate-forme logicielle parmi d'autres et certaines sont aujourd'hui plus performantes. Son avantage est sa gratuité, un facteur vital pour les entreprises, dans un marché où le prix des plates-formes propriétaires s'affiche généralement en cinq ou six chiffrent devant la virgule.
Parmi les logiciels de data mining et de visualisation citons : BigQuery, GreenplumCloudera, NetezzaSAS Enterprise MinerRapidMiner, Synthesio, Tableau Software, CaptainDash ou encore Webmasters.
Cette technologie s'applique à tous les secteurs intéressés par l'analyse quantitative où les enjeux dépendent notamment du nombre de paramètres analysés (par ex. l'espionnage, les forces armées, le contrôle du trafic, le marketing, les sondages, les analyses du web, l'agriculture, la finance, la bioinformatique et de nombreux domaines scientifiques).

Le Big Data au service de la sémantique.
Big Data, un changement de paradigme
Le Big Data offre potentiellement aux entreprises les moyens d'aller au-delà de la simple information, elles deviennent une source d'innovations potentielles.
C'est une révolution en soi car on ne travaille plus sur de petits volumes de données et un résultat en différé, mais sur des volumes gigantesques représentant la totalité des données récoltées, tout en pouvant travailler en mode interactif voire en temps réel.
Sur le plan de la méthodologie, les anciennes méthodes marketing et les anciennes technologies ne sont plus valables, rendant toute la logique du marketing direct par exemple et les systèmes d'information de l'ancienne génération obsolètes car on change de paradigme en termes conceptuel, d'architecture et de traitement. C'est une révolution !

Le Hype Cycle des technologies émergentes définit leur maturité en fonction de leur visibilité (l'expérience).
Selon les analystes du Gartner Group, les technologies Big Data ont atteint le pic des attentes fin 2013
et vont plonger vers le creux de désillusion. D'ici environ 5 ans, elles devraient se situer sur la pente
de révélation avant d'atteindre le plateau de productivité.
Hype Cycle des composantes du Big Data
Enfin, dans le cadre du modèle SAO (Service Oriented Architecture) nous assistons à l'émergence de fournisseurs de données qui offrent l'opportunité aux entreprises et aux particuliers d'accéder plus facilement aux informations (y compris celles du secteur public grâce à l'Open Data) qui deviennent également plus abordables et plus simples à gérer puisque la complexité du système est transparente pour le client.
Le Big Data change également notre façon d'analyser les données et donc de voir la réalité. Plutôt que d'introduire des données dans un processus pour obtenir un résultat, avec le Big Data, c'est le processus inverse : ce sont les données qui nous interpellent et nous apprennent quelque chose.
Une priorité des gouvernements
Les gouvernements ont bien compris l'intérêt du Big Data et la révolution qu'elles représentent dont on ne voit encore aujourd'hui que la partie émergée.
L'Union européenne en a fait une priorité. Pour la période 2014-2020, dans le cadre de son programme Horizon 2020, l'Europe dispose d'un budget global de 80 milliards d'euros dédiés à la recherche et à l'innovation (un nouveau portail web est en cours de construction).

Les données représentent une valeur stratégique pour les entreprises au point qu'en analyse de risque elles sont considérées comme un bien de valeur primaire aussi important qu'un processus ou une fonction. Les données sont le nouvel "Or noir" du Big Data. Document Nigel Holmes.
Un appel d'offre a par exemple été lancé d'un montant de 658.5 millions d'euros (ICT-15-2014, deadline 23/04/2014) dans le cadre du Big Data et Open Data.
La France consacre 25 millions d'euros aux Big data dont 700000€ pour le programme Mastodons du CNRS démarré en 2012 et qui comprend plus de 16 projets.
Enfin, en 2011, le président Barack Obama proposa son "Big data plan" assorti d'un budget de 200 millions de dollars pour la recherche et le développement.
Le Big Data est à notre portée. A présent il faut l'exploiter. Mais ceci est une autre histoire.


Pour plus d'informations
Information and networking days - Horizon 2020 Work Programme 2014-2015, C.E., 2014
Définition du Big data, IBM
Big data Revolution, CNRS, 2013
50 Great Examples of Data Visualization
Le Big Data et le data mining, Luxorion

Aucun commentaire :

Enregistrer un commentaire