Big Data. C’est la nouvelle expression à la mode, qui succède au cloud computing dans les dernières tendances high-tech à adopter sans tarder. C’est un ensemble de technologies et de méthodes consistant à analyser, à des fins généralement prédictives, le flot de données produites par les entreprises, les organisations et les individus, mais aussi les objets s’ils sont connectés, dans des volumes et à une vitesse sans précédent. Un concept un peu flou, apparu il y a deux, trois ans, qui englobe les mails, SMS, photos, vidéos, commentaires ou changements de statuts sur les réseaux sociaux, sessions de connexion, relevés d’étiquettes ou de capteurs électroniques, signaux de géolocalisation, etc., envoyés à foison chaque minute partout dans le monde.
La courbe est exponentielle et les chiffres sont vertigineux : on estime actuellement que le volume de données produites double tous les dix-huit à vingt-quatre mois ; le géant des équipements de réseaux mobiles, Ericsson, prédit qu’il y aura 50 milliards d’objets connectés (voitures, frigos, compteurs intelligents, etc.) dans le monde d’ici à 2020, contre une douzaine de milliards aujourd’hui. Le mouvement de libération des données publiques par les administrations (open data), très avancé aux États-Unis, constitue aussi un accélérateur du phénomène big data.
Ce déluge d’informations, qui se mesure en exaoctets, c’est-à-dire en milliards de gigaoctets (Go), et même en « zettaoctets » (milliers de milliards de gigas), serait le « nouveau pétrole », selon une expression attribuée à Clive Humby, le créateur des cartes de fidélité du distributeur britannique Tesco, très en pointe sur le sujet : une ressource brute qu’il faut extraire, raffiner, distribuer, etc., pour en tirer pr o fit. Pour Ginn i Rometty, la patronne d’IBM, cette « nouvelle ressource naturelle », qu’elle compare à « un tsunami d’informations », va tout changer, au point de prédire que « le réseau social sera la nouvelle ligne de production d’une entreprise ».
Volume, varité, vitesse et … valeur
Le big data sera « la nouvelle frontière de l’innovation, de la concurrence et de la productivité », selon le cabinet McKinsey, auteur d’un rapport fondateur sur le sujet en 2011. Ce volume et cette multitude de formats de données (texte, vidéo, son, transaction, etc.), dont la réalité est indiscutable, sont devenus impossibles à traiter, stocker et analyser avec les outils traditionnels de gestion de base de données et d’analytique décisionnelle, mais aussi à présenter de façon intelligible dans des graphiques classiques (naissance de la « datavisualisation »).
Volume, variété, vitesse, ce sont les trois critères définissant le phénomène big data. On y ajoute souvent la valeur ou la véracité, car toutes ces données n’ont pas la même importance et ne sont pas forcément fiables ni monnayables (elles peuvent contenir des erreurs ou doublonner, etc.). Selon le cabinet IDC, 23% des données numériques pourraient être utiles au big data si elles étaient bien marquées (« taguées ») et analysées, alors que seulement 3% le sont. Cela fait beaucoup d’informations et de contenus sans « valeur ». Que vaut en soi un tweet, un « j’aime », un commentaire sur un forum ou un billet de blog » ? Agrégées, filtrées, analysées, toutes ces données peuvent rapporter gros, selon les promoteurs de ce nouveau big bang.
« Le secteur informatique a tendance à inventer de nouveaux mots ou concepts tout le temps. Nous avons voulu savoir si ce n’était qu’une comète, qu’un effet de mode, et quantifier le potentiel de création de valeur pour l’économie mondiale, les différents secteurs et les individus aussi, qui est réel », explique à La Tribune l’un des experts du big data, Matteo Pacca, directeur associé de McKinsey en France. Il évoque des sommes se chiffrant en « centaine de milliards d’euros par secteur ».
Par exemple, le secteur public en Europe pourrait réduire ses coûts de 15 à 20 %, diminuer la fraude et améliorer la collecte des impôts pour un total de 250 milliards d’euros par an. Pour les groupes de la grande distribution, le recours au croisement des données pourrait se traduire par un potentiel d’amélioration de 60% de leur rentabilité opérationnelle. Plus généralement, « une meilleure utilisation des services de géolocalisation pourrait rapporter 100 milliards d’euros aux différents fournisseurs de services et 700 milliards d’euros aux consommateurs, qui bénéficieraient par exemple de la possibilité d’acheter un produit moins cher et plus près de chez eux », fait valoir Matteo Pacca.
Un ciblage marketing plus précis
Cette révolution, rendue possible par la forte baisse des coûts de stockage, selon la fameuse loi de Moore (sur l’évolution de la puissance des ordinateurs), et par de nouvelles méthodes de calcul en « parallélisme massif » (comme MapReduce, développé par Google, et la plate-forme Hadoop, sorte de librairie de calculs parallèles), devrait concerner tous les business, mais aussi tous les individus, les administrations et les services publics (transports, fisc, sécurité sociale et même police). La recherche médicale est l’un des domaines les plus concernés : des programmes big data existent déjà dans la génomique et l’imagerie, afin de traiter plus vite d’immenses jeux de données pour le séquençage à haut débit.
Cette nouvelle ressource encore peu exploitée que sont les données peut se traduire en immenses gains d’efficacité : meilleur suivi de l’activité ou de la chaîne logistique, détection des erreurs, maintenance prédictive, donc optimisation des processus opérationnels et réduction des coûts. C’est aussi la possibilité d’un meilleur ciblage marketing, donc une augmentation du chiffre d’affaires et une croissance des parts de marché. D’ailleurs, « dans un contexte économique morose, les entreprises sont très intéressées par les nouveaux axes de croissance que laisse espérer le big data, elles cherchent surtout à faire des ventes additionnelles : leurs demandes se concentrent donc sur la focalisation des offres et la segmentation marketing », indique l’expert de McKinsey.
Trois secteurs sont particulièrement concernés, selon lui : la distribution, du fait de grandes bases de clients et d’historiques d’achats qui recèlent un potentiel énorme, la santé (pharmacie et assurance santé), pour l’analyse de la performance des médicaments (avant leur mise sur le marché, en phase de test, et après, pour mesurer leur efficacité), et enfin la banque-assurance, pour mieux cibler les produits financiers et surtout l’analyse du risque, en corrélant avec la météo par exemple. Selon un rapport de Transparency Market Research, les services financiers, la santé et le secteur public ont représenté plus de 55% du marché du big data en 2012. De façon plus transversale, c’est le marketing qui sera le plus touché par cette rupture, passant des petits échantillons représentatifs des enquêtes de marché à des jeux de données de très grande ampleur, en flux ininterrompu.
De nouveaux métiers voient le jour, notamment celui de data scientist, « scientifique des données », pro des statistiques, capable d’interpréter et de croiser les données, et de chiefdata officer (CDO) ou « responsable de la qualité des données », au même niveau hiérarchique que le directeur marketing et le directeur informatique, chargé de faire lien entre les deux départements. L’Association française des éditeurs de logiciels (Afdel) a milité pour la mise en place d’un fonds de financement consacré au big data d’un montant de 300 millions d’euros, en partenariat public-privé, estimant que la création de valeur pourrait atteindre 2,8 milliards d’euros et 10000 emplois directs d’ici cinq ans.
La « feuille de route numérique » du gouvernement, adoptée lors d’un séminaire organisé par le Premier ministre le 28 février dernier, a identifié le big data comme l’une des cinq technologies stratégiques pour lesquelles Matignon va mobiliser 150 millions d’euros d’aides à la R&D, dans l’espoir de faire émerger des entreprises de rang mondial. Le cabinet américain Gartner estime que le big data créera 4,4 millions d’emplois dans le monde d’ici à 2015, dont 1,9 million aux Ét ats- Unis. En Europe, « il en faudra 2 millions dans les cinq à dix ans », considère de son côté l’expert de McKinsey. « 2013 sera l’année de l’adoption à grande échelle des technologies de big data », prédit d’ailleurs Gartner.
La « business intelligence » réinventée
En France, quelques pionniers se sont lancés dans l’expérience, notamment dans la banque et l’assurance, mais le pays est plutôt en retard. Selon une étude IDC de septembre dernier, seules 8% des entreprises françaises avaient mis en place des solutions big data. Le marché mondial, qui pesait déjà quelque 27,7 milliards de dollars en 2012, devrait doubler en quatre ans pour approcher 55 milliards de dollars en 2016. Le marché de l’analytique des réseaux sociaux va tripler et dépasser les 4,4 milliards, les investissements consacrés aux logiciels de big data vont plus que doubler (de 2,9 à 6,4 milliards de dollars en 2016) et 80 % des dépenses resteront concentrées sur les services IT (recrutement de spécialistes, conseil, etc.).
Pour autant, le traitement de données n’est pas une discipline nouvelle et certaines solutions ressemblent fort à de l’informatique décisionnelle réinventée, du data mining nouvelle génération en y ajoutant un peu de Facebook et de Twitter, sous les habits neufs du big data. « Bien sûr, c’est une nouvelle forme de business intelligence. Mais se demander ce qu’il y a de neufavec le big data, c’est un peu comme dire que voyager en avion ou en voiture, c’est la même chose », sourit Matteo Pacca, qui souligne la nouveauté du déferlement d’informations en temps réel qu’il faut traiter au plus vite pour en tirer parti. D’ailleurs, les poids lourds de ce marché naissant ne sont autres que les acteurs installés du stockage, du logiciel et de l’analytique, IBM, EMC, HP, Microsoft, Oracle, SAS et SAP, l’un des rares européens, sans parler des géants américains qui prospèrent grâce aux données personnelles : Google, Facebook, Amazon, etc. « Il y a plus de données sur les Français chez certaines organisations américaines qu’à l’Insee », relève l’expert de McKinsey.
Big data, meilleur ami de Big brother ?
Car l’autre versant de cette ruée vers l’or du big data, c’est le respect de la vie privée et des données personnelles, qui préoccupe à raison les gouvernements, la Commission européenne et les Cnil (commissions nationales de l’informatique et des libertés) de l’UE, qui travaillent sur des règles pour le respect de l’anonymat et sur des dispositifs d’autorisation préalable (opt-in).
Le cabinet IDC considère que le plus fort potentiel du big data réside dans les données issues des caméras de surveillance, pour faire diminuer la criminalité, endiguer les embouteillages, etc. La police de Memphis, dans le Tennessee, a réduit de 30 % le nombre de crimes grâce au logiciel analytique d’IBM qui a permis d’établir une corrélation entre les viols et la présence de cabines téléphoniques, qui ont depuis été installées en intérieur. On ne peut que s’en réjouir. Demain, essaiera-t-on de prédire les crimes et de neutraliser les criminels en puissance, comme dans le film Minority Report ou la récente série Person of Interest, avec toutes les dérives que l’on peut redouter ?
Le b.a-ba du « Big Data »
HADOOP
Le couteau suisse des données massives
Qui dit big data dit généralement Hadoop. Présentée comme le couteau suisse du XXIe siècle, c’est une plate-forme logicielle open source, écrite en Java, développée par un ingénieur de Yahoo mais désormais gérée par la fondation Apache, qui fonctionne un peu comme un système d’exploitation pilotant de nombreuses machines ou processeurs opérant en parallèle : elle sert à traiter des volumes très importants de données « non structurées », c’est-à-dire dans des formats très variés, ce que les outils de business intelligence et de gestion de base de données classiques ne peuvent faire. Hadoop a été adopté par quasiment tous les géants du big data (Yahoo, Facebook, Amazon, IBM, HP, SAP, etc.). Sa première version est sortie il y a quinze mois seulement, des alternatives émergent comme Cassandra, Isilon, etc.
DONNÉES PUBLIQUES
La mine d’or
L’ouverture des données publiques est un mouvement qui a précédé le phénomène du big data mais qui contribue à l’amplifier. Indicateurs démographiques, sociologiques ou médicaux, comptes publics, horaires, temps d’attente et trafic des transports publics : ces vastes jeux de données qu’il faut structurer permettent de créer des tableaux de bord et des cartographies (en comparant par exemple les dépenses des communes). Résultat : de plus grandes lisibilité et transparence de l’action publique mais aussi une flopée de nouveaux services innovants, utiles aux usagers et citoyens, lancés par des start-up. La réutilisation des données issues du secteur public pourrait générer un chiffre d’affaires de 27 milliards d’euros par an dans l’Union européenne, selon une évaluation de la Commission. Elle doit être gratuite, selon Bruxelles, qui considère que les contribuables ont déjà payé et qu’il faut « libérer cette mine d’or », selon l’expression de Neelie Kroes, commissaire européenne chargée de la Société numérique. Y compris les données issues de la recherche : toutes les études financées par l’Union devront être accessibles.
En France, le droit des citoyens à accéder aux documents publics remonte à la loi Cada (commission d’accès aux documents administratifs) de 1978. Mais la démarche d’ouverture est récente, avec la création, en 2011, d’Etalab, une mission qui a créé un portail unique national, data.gouv.fr, qui donne accès à plus de 355 000 informations publiques.
OPT-IN ET ANONYMAT
Le credo de la Cnil et de Bruxelles
L’utilisation massive des données issues d’actes d’achat, de géolocalisation ou des historiques de navigation sur Internet rend la question du respect de la vie privée plus aiguë, sans changer le fond d’un problème préexistant (marketing responsable, démarchage non agressif). Pour la commission nationale de l’informatique et des libertés (Cnil) et la Commission européenne, il s’agit de rester vigilant à l’égard de l’utilisation qui est faite de ces données et du respect de certaines règles, en particulier l’opt-in, l’acceptation préalable par le consommateur (par exemple, de livrer le lieu où il se trouve ou pour les cookies des sites Web) et surtout l’anonymisation des données, à des fins de profilage et de segmentation marketing. Bruxelles a préparé une directive sur les données à caractère personnel, qui peuvent être « un nom, une photo, une adresse de courriel, des coordonnées bancaires, des messages publiés sur des sites de socialisation, des renseignements médicaux ou l’adresse IP d’un ordinateur ». Le non-respect des règles de l’Union européenne est passible d’amendes pouvant atteindre 1 million d’euros ou 2 % du chiffre d’affaires annuel global d’une entreprise.
Source : latribune.fr