[Le Monde – M Economie] Kaggle, le site qui transforme le « big data » en or

Matthieu Scordia a présenté, mercredi 11 décembre à Paris, ses « trucs » pour gagner. L’actuel numéro un français sur Kaggle, un site de concours de « big data » (de traitement de gros volumes de données, en français), expliquera à ses collègues comment il compte améliorer Yandex, le Google russe, en « tunant » des algorithmes récupérés sur une librairie participative.
Pour ce concours, organisé par Yandex lui-même ainsi que d’autres moteurs de recherche (Yahoo! et Bing), 104 équipes de toutes nationalités sont déjà inscrites, avec deux mois pour réfléchir et un prix de 9 000 dollars (6523 euros) à la clé.« Nous transformons la science des données en sport », clame Kaggle. Sur le site de la start-up californienne, on parle Python, Ruby, Matlab, autant de langages de modélisation, de programmation et de visualisation. L’entreprise californienne, créée par l’économiste australien Anthony Goldbloom en 2010, présente le traitement des données scientifiques et la modélisation prédictive comme la promesse « de fortune, de gloire et de plaisir ».

En réalité, c’est autant un loisir de « nerd » que du temps gagné pour les entreprises en recherche et développement, voire en recrutement lorsque les besoins de « data scientists » se font sentir.

Et si les universités et laboratoires de recherche sont aussi présents sur Kaggle et promeuvent l’émulation née de l’affrontement sur les problèmes soumis, ils n’offrent le plus souvent qu’une intervention à un colloque, tandis que certains des concours les plus intéressants (financièrement) sont proposés par les entreprises et réservés aux candidats mieux classés.

DE GENERAL ELECTRIC À TESCO ET LA NASA

Comment fonctionne Kaggle ? Institutions et entreprises viennent déposer sur le site les données et l’énoncé de leur problème, en sciences, finances, énergie ou commerce. Matheux et statisticiens du monde entier se battent ensuite pour les résoudre. De General Electric à Tesco, en passant par Microsoft ou la Nasa, les entreprises sollicitent les milliers de doctorants et chercheurs en sciences quantitatives inscrits sur la plateforme.

Les compétitions sont de différents types : certaines, gratuites dans leur démarche, sont liées à des passions ou de l’ordre de l’humour geek, comme la prévision des survivants sur le Titanic, la modélisation de la distinction entre les chats et les chiens ou l’anticipation de conditions climatiques grâce au réseau social Twitter.

D’autres sont directement liées à l’économie réelle, avec d’importantes sommes d’argent en jeu. En avril 2013, deux ans après le lancement du concours, le site a récompensé avec trois millions de dollars un lauréat pouvant prédire à partir des données de santé la probabilité qu’une personne entre à l’hôpital, un concours sponsorisé par The Heritage Foundation, proche des républicains américains, afin d’optimiser le système d’assurance-maladie.

DONNÉES SENSIBLES

La récompense peut consister aussi en un emploi, comme l’ont offert le réseau social Facebook ou le moteur de recherche Yelp. Matthieu Scordia admet avoir obtenu son premier emploi – dans une entreprise spécialisée dans le « data mining » – grâce aux travaux entrepris lors de l’un des concours.

« J’étais en stage après un master d’intelligence artificielle et je me suis investi dans un gros travail sur des systèmes d’enchères pour les bulldozers », raconte-t-il, précisant ne pas participer à ces compétitions par appât du gain, les chances de gagner étant, de son propre aveu, très minimes. « Finir vingtième à ce concours était déjà très gratifiant, et je pense que ce résultat a encouragé mon employeur à me proposer un CDI », ajoute-t-il.

A la fin, en effet, les candidats sont classés selon le niveau de résolution des problèmes et leur nombre de participations à des compétitions. Et celui qui a lancé la compétition « paie le prix en échange de la propriété intellectuelle sur laquelle repose le modèle gagnant », précise le site. Qui touche de son côté une participation de la part du concepteur du problème, participation étalonnée selon l’importance de la récompense et la lourdeur de l’organisation du concours.

Car, du côté des entreprises, il s’agit aussi de protéger ses données : la solution est rendue publique (dans un post sur le blog de Kaggle le plus souvent), mais pas le code source du modèle utilisé. Ainsi seuls les meilleurs du classement sont invités à des tournois privés, où les entreprises livrent des données sensibles, comme dans le cas de MasterCard et Pfizer.

CURIOSITÉ POUR LE MARKETING ET LA SOCIOLOGIE

S’il n’y a pas encore de cursus dédié au « big data » (outre la filière Data Science ouverte en octobre par l’ENSAE), le secteur offre de nouvelles possibilités de carrière. Le data scientist serait un être hybride, doté d’une solide formation en mathématiques et en statistiques, mais ayant également une forte appétence pour les technologies et une curiosité pour le marketing et la sociologie…

« En fait, ces profils d’analystes de données existaient déjà dans la grande distribution ou dans les industries comme l’aéronautique, qui exploitent beaucoup de données en provenance de capteurs, expliquait en octobre dernier Yannick Lejeune, directeur Internet de Ionis, groupe d’écoles d’ingénieurs en informatique et en nouvelles technologies. Mais, aujourd’hui, toutes les entreprises, dans tous les secteurs, ont d’énormes volumes de données. Elles ont donc besoin de concepteurs d’utilisation de ces données. »

En 2011, des investisseurs se sont rappochés de Kaggle, et ont offert 11 millions de dollars. Parmi eux, le fondateur de PayPal.

Par Mathilde Damgé
Source : lemonde.fr

Laisser un commentaire