[lemondeinformatique] Les data scientists ne plébiscitent pas toujours Hadoop

Les data scientists ne plébiscitent pas toujours Hadoop

Qui dit projet big data ne dit pas forcément Hadoop. La plateforme Open Source ne convient pas à tous les types d’analyse, notamment complexes avec des traitements peu parallélisables, souligne l’enquête Paradigm4Data Scientist qui montre que 35% des data scientists interrogés ayant testé Hadoop ou Spark les ont abandonnés.

Si le framework Hadoop est presque toujours cité dès qu’il est question de traiter des big data, l’attention dont il fait l’objet ne signifie pas qu’il convienne à tous les projets. De fait, son utilisation ne fait pas toujours l’unanimité dans les entreprises qui l’ont déjà mis à l’épreuve. Certes, sa disponibilité en Open Source réduit son coût d’adoption, mais sa mise en oeuvre peut malgré tout exiger beaucoup de ressources et de temps, notamment lorsqu’il s’agit d’associer les données gérées dans la plate-forme avec celles des systèmes existants. La technologie n’est parfois pas adaptée aux projets de trop grande ampleur, ainsi que l’évoque un article du WSJ.

Le plus souvent, elle n’est pas assez rapide pour répondre aux requêtes immédiates et travailler sur des données qui arrivent en temps réel. Les fonctionnalités liées à la sécurité et à la gouvernance posent aussi des problèmes. En outre, la plate-forme n’a pas toujours les faveurs des spécialistes de l’analyse de données. C’est notamment ce que montre l’enquête de Paradigm4 menée avec le cabinet indépendant Innovation Enterprise auprès d’une centaine de data scientists. Celle-ci fait apparaître que 76% des data scientists interrogés ont rencontré de sérieuses limitations en l’utilisant. En particulier, si Hadoop est naturellement bien adapté aux analyses de base nécessitant de recourir aux traitements parallèles (la business intelligence et le reporting qui travaillent sur des agrégats), en revanche, elle peine sur les analyses complexes à grande échelle qui recourent à des fonctions mathématiques telles que la covariance, au clustering, à l’apprentissage machine ou à l’analyse de graphe. A côté de l’approche parallélisée de MapReduce/Hadoop, certaines analyses requièrent de partager toutes les données en même temps et de disposer de résultats intermédiaires au sein des processus, souligne l’étude.

Trop d’efforts pour programmer Hadoop

Lire l’intégralité de l’article
Par Maryse Gros
Source : lemondeinformatique.fr

Laisser un commentaire