Après les attentes démesurées, les désillusions ? La vague du big data a peut être atteint un pic, en tout cas pour ceux qui suivent le Gartner Hype Cycle. En d’autres termes, certains professionnels commencent à douter des annonces marketing autour de l’analyse big data et à adopter un point de vue plus critique sur les limites des systèmes big data. Selon le credo, plus une entreprise collectait de données, plus elle pourrait en extraire des informations pointues et utiles. Un ingénieur de Google, qui a été gavé au big data plus que n’importe qui, a nommé cette notion « la déraisonnable efficacité des données ». Dans une série d’articles, le dernier numéro de Science News dresse dans le détail les limites des gros volumes de données, dont le plus récent s’intitule « Le Big data et les défis de la réplication ». Le problème, selon Science News, est loin d’être sans intérêt. Avec une telle quantité de données et autant d’outils différents pour les analyser, comment peut-on être sûr que les résultats sont corrects ? « Chaque fois qu’un scientifique préfère une application à une autre ou décide d’analyser une variable, plutôt qu’une autre, ce choix peut conduire à des conclusions très différentes », a écrit Tina Hesman Saey. Ce problème de la validité ne concerne pas seulement les grands consommateurs de données, mais toute la communauté scientifique dans son ensemble.
Impossible de reconduire les mêmes traitements ?
Dans un autre article, Science News aborde la question des résultats non reproductibles, ou celle de l’incapacité croissante des scientifiques à reproduire des résultats d’études publiées antérieurement. Or, un des principes de base de la science implique, dans des conditions initiales identiques, la possibilité pour n’importe qui, de reproduire l’expérience. Mais un nombre croissant de chercheurs a constaté que même les études les plus rigoureuses ne peuvent parfois pas être reproduites et donner les mêmes résultats. « La reproductibilité est une pierre angulaire de la science, et de nombreuses études ne répondent pas à cette exigence », a écrit Tina Hesman Saey. « On peut expliquer une science douteuse par une multitude de raisons (dont, la pression de publier pour les chercheurs), mais une mauvaise utilisation de l’analyse statistique, qui demande de la subtilité et qui est difficile à mener correctement, en est une », fait remarquer Tina Hesman Saey.
Lire l’intégralité de la retranscription de l’article de Joab Jackson, IDG NS
Adaptation par Jean Elyan
Source : www.lemondeinformatique.fr