Le Big Data peut-il servir au SEO ? C’était le thème d’une conférence proposée ce 13 mars lors du SEO Camp’us, l’événement dédié à l’univers du référencement et dont le JDN est partenaire.
Le Big Data entretient en fait des liens historiques très étroits avec les moteurs de recherche : Hadoop, technologie-phare et constitutive du Big Data a par exemple été créée par un employé de Yahoo!, justement dans le but de mettre sur pied un moteur de recherche. Les ingénieurs du moteur de Google se sont, eux, illustrés dans des publications scientifiques abordant et popularisant MapReduce, autre technologie voisine d’Hadoop, et également souvent associée au Big Data.
Les moteurs de recherche ont donc contribué à développer des techniques et outils au cœur du Big Data, et s’en servent d’ailleurs souvent pour leur fonctionnement. « D’ailleurs, un filtre de pénalité comme Google Penguin repose sur des ‘jobs’ réalisés par des technologies Big Data très gourmandes en ressources, et c’est d’ailleurs pour cela que ce type de filtre n’est lancé que de temps en temps, et pas en continue », pense l’intervenant de cette conférence du SEO Camp’us, François Goube. Ce spécialiste du SEO, représentant français de l’outil d’analyse de backlinks MajesticSEO, est aussi CEO de Cogniteev, justement spécialisé dans le Big Data.
Des données et outils pour les SEO
Les SEO peuvent aussi être intéressés par le Big Data. Après tout, leur domaine peut vite générer énormément de données : web analytics, journaux d’activités pour suivre le parcours des robots de Google, outils d’analyse de backlinks, de crawls, de mots clés, de suivi de position… Les données ne manquent donc pas. « Il y a d’ailleurs de plus en plus de statisticiens en place ou recherchés dans les équipes en charge du webmarketing », a pu remarquer François Goube. Il pointe cependant du doigt le besoin, aujourd’hui, d’avoir de meilleurs outils sur le SMO, capables de fournir des données résultant d’une analyse plus poussée des réseaux sociaux (sur l’influence de chaque tweet, ou le niveau d’autorité d’un profil par exemple).
Quant aux technologies de Big Data, comme Hadoop, ou le système de gestion de base de données NoSQL MongoDB, également souvent utilisé pour des projets Big Data… elles sont presque toutes Open Source, et utilisables gratuitement. Un tandem 100% open source et Big Data dédié au SEO cité lors de la conférence pourrait par exemple être Logstach, pour analyser les logs, et ElasticSearch, pour pouvoir lancer facilement des requête d’analyse.
Big data et SEO : un exemple concret d’utilisation
Mais, concrètement, comment le Big Data, et l’exploitation de toutes ces données de différentes sources peuvent améliorer le SEO ? Un exemple parlant a été cité lors de la conférence. Il concerne l’analyse de logs couplée à l’étude des pages d’un site recevant du trafic organique de Google. Dans un cas réel, celui d’un site médias, croiser ces données a permis de se rendre compte que ce trafic organique était concentré sur à peine 20% des pages du site, en fait les seules à être indexées par Google.
La cause a pu être révélée suite à un « crawl » du site, avec un outil dédié qui imite un peu les crawls réalisés par Google : l’architecture même du site enfouissait parfois son contenu à 25 niveaux de profondeur. « Il fallait donc que le robot suive 25 liens pour l’atteindre… autant dire que Google n’y allait jamais », analyse François Goube. « Une fois ce problème résolu, le site a gagné 30% de trafic en quelques mois ».
Des entrepôts de données dédiés au SEO
Certes, il est tentant de réserver le Big Data à de « gros » sites : plus le site a de l’envergure, plus il va en effet générer de données difficiles à gérer, « mais il n’est pas obligatoire d’avoir des centaines de milliers de lignes de données pour que ces dernières commencent à avoir du sens », fait remarquer François Goude, laissant entendre que les techniques de Big Data ne sont pas réservées aux sites qui caracolent en tête des classements Médiamétrie.
« Chez des pure players, on voit apparaître une volonté de faire converger et réunir les données issues des outils d’analyse de positions, de web analytics, d’analyse de backlinks, etc. au sein d’un entrepôt de données, qui servira de plateforme pour réaliser un reporting plus complet », rapporte le dirigeant de Cogniteev. D’ailleurs, son entreprise, bordelaise, travaille dans cette voie. Associé à AT Internet, éditeur également bordelais connu pour son outil de web analytics Xiti, Cogniteev met au point une solution open source qui devra permettre d’agréger au sein d’un dashboard toutes ces données issues d’outils tiers, via des connecteurs. La livraison de l’outil est prévue pour novembre prochain.
Par Virgile Juhan
Source : journaldunet.com