Pourquoi les DSI ne doivent pas freiner le traitement analytique
‘Le traitement analytique de grands volumes de données doit-il s’appuyer sur une infrastructure autonome dédiée, distincte du département informatique ? C’est ce qu’a choisi de mettre en place une grande banque écossaise.’
La Royal Bank of Scotland (RBS), qui génère de copieux volumes de données avec plus de 400 transactions d’agences par seconde pour les entreprises, vient de déployer un entrepôt de données parallèle exclusivement dédié au Big data. Les équipes chargées du traitement analytique ont besoin de cette infrastructure dédiée, sous peine d’être freinées par leur propre département informatique, prévient le responsable de l’analyse des données de RBS.
« Les fonctions technologiques ont encore du mal à suivre le rythme des demandes des entreprises. En tant qu’acteur et responsable du traitement analytique, je ne peux pas permettre qu’il en soit ainsi », déclare Alan Grogan, responsable du traitement analytique pour la division Customer Solutions Group de RBS.
« Je ne peux pas me tourner vers mon PDG ou vers mes clients et leur dire que je suis désolé, mais que nous n’avons pas l’évolutivité, la flexibilité ou le contrôle suffisants dans ce domaine. »
Il y a plus de quatre ans, quand Alan Grogan a quitté Barclays pour rejoindre RBS, il avait souligné la nécessité d’une infrastructure de traitement analytique spécialisée. « Je ne voulais pas me retrouver dans une position (je l’ai vu dans d’autres entreprises) où l’équipe en charge du traitement analytique est trop avancée pour la fonction technologique, ou bien ne peut pas suivre le rythme », se remémore-t-il.
Une technologie propre pour le traitement analytique
« Je crois fermement que le traitement analytique doit exécuter sa propre technologie. C’est pourquoi j’implique rarement la technologie de ma division RBS dans la gestion de mon écosystème. »
Après des discussions avec un certain nombre d’éditeurs pour une démonstration de faisabilité en vue d’un nouveau système de traitement analytique dédié, y compris des environnements flexibles tels que MongoDB et Teradata Aster, RBS a opté l’an dernier pour Microsoft SQL Server 2012 Parallel Data Warehouse (PDW) sur HP AppSystem.
« Comme son nom l’indique, il s’agit d’un entrepôt de données parallèle. Il calcule plus vite que tous les autres systèmes auxquels j’ai accès à la banque », souligne Alan Grogan. « Il commence à 75 To pour un quart d’armoire sur deux nœuds, soit un espace initial assez convenable, mais nous songeons déjà à l’étendre. »
Il décrit PDW, que la banque a commencé à tester en novembre dernier, comme la dernière version de SQL Server, optimisée pour traiter le Big data. « Aussi efficace soit-il, SQL Server présente des problèmes de capacité que nous avons rencontrés sur un volume important de téraoctets. Il nous fallait quelque chose de beaucoup plus évolutif et stratégique, qui pouvait théoriquement aussi fonctionner dans le cloud », raconte Alan Grogan.
Avant PDW, le traitement analytique de la banque s’exécutait en grande partie sur ses systèmes Teradata, Oracle et SQL Server.
Toutes les données regroupées dans Parallel Data Warehouse (PDW)
« Ce qu’il faut éviter, ce sont les informations en silos ou les informations disséminées à travers les partitions ou l’infrastructure », prévient Alan Grogan. « Nous regroupons donc tout dans PDW, pour avoir tout au même endroit, au lieu d’exécuter un écosystème qui traverse les entrepôts et les piles logicielles. »
« Bien évidemment, nous devons y intégrer des flux avec les systèmes hérités. Nous devons aussi intégrer des flux pour travailler sur les technologies futures de la banque. Nous sommes donc toujours en phase d’implémentation, mais nous prenons des décisions à ce sujet beaucoup plus vite qu’avant. »
Son objectif pour cette année est que PDW soit étendu et optimisé avec toutes les informations dans un seul et même entrepôt, loin des systèmes hérités.
« Certaines banques essaient de faire du traitement analytique sur les entrepôts de données d’entreprise. Si nous faisions de même, avec les tonnes de traitement analytique que nous faisons, nous risquerions la paralysie à cause de la puissance de calcul ainsi monopolisée. Nous sommes donc très prudents en la matière », ajoute Alan Grogan.
Démocratisation du traitement analytique via un portail sécurisé
« Quand je dis que nous gérons notre propre infrastructure de traitement analytique, c’est très précisément ce que nous faisons. Nous gérons une pure infrastructure cérébrale qui n’est utilisée que pour le traitement analytique et les processus analytiques. »
Toutefois, cette indépendance du traitement n’empêche pas Alan Grogan de militer pour que l’accès au traitement analytique soit étendu via un portail en libre-service géré et sécurisé, sur lequel le personnel peut faire des recherches dans les données économiques et de portefeuilles. « C’est l’une des premières stratégies que j’ai mises en œuvre. Je suis à 100 % pour la démocratisation, mais elle doit être accomplie de façon adéquate et sécurisée, et toutes les données sans exception doivent être concernées », soutient-il.
« Le problème, c’est qu’à chaque fois que vous répondez à une question, cela en soulève quantité d’autres. Quand vous démocratisez, vous devez vous assurer que les individus restent sur la bonne voie. »
RBS, qui compte 141 000 employés et plus de 24 millions de clients à travers le monde, a déjà constaté des gains de productivité avec le système PDW de Microsoft. « Il y a des gains d’efficience, dans le sens où vous n’avez plus besoin d’attendre que des processus viennent à terme. C’en est fini aussi des processus interrompus à cause d’une surcharge du réseau ou autre dans mon secteur », souligne Alan Grogan.
Une infrastructure autonome pour des gains de productivité
« Nous avions ce problème avant. Un jour, de façon inattendue, quatre membres de mon équipe ont adressé des requêtes en masse et l’infrastructure s’est paralysée. Avant PDW, nous avions une infrastructure qui n’était pas complètement évolutive, qui n’était pas stratégique sur le plan analytique et qui n’était pas pleinement rentable. »
L’équipe de scientifiques des données et d’administrateurs de bases de données d’Alan Grogan fournit aux dirigeants de la banque et à ses équipes en interaction avec les clients des perspectives issues de trois domaines fondamentaux :
‘Le premier est le traitement analytique des produits, dérivé de millions de transactions ;
‘Le deuxième est le traitement analytique des clients, qui englobe le parcours des clients, leur défense, leurs perspectives, leurs points de contact et leurs combinaisons de produits détenus ;
‘Le troisième domaine est le traitement analytique des marchés, couvrant la macroéconomie et l’économétrie.
« Nous sommes assis sur une mine de données économiques et relatives au Royaume-Uni. Alors en reliant toutes les entreprises avec lesquelles nous traitons au Royaume-Uni, ce qui recouvre en réalité toutes les entreprises sans exception, notre objectif est de leur offrir à tout le moins la possibilité de mieux comprendre les risques », déclare-t-il.
Analyser pour comprendre les risques économiques
Ces risques peuvent être économiques, mais ils pourraient tout aussi bien être politiques, lorsque les entreprises gèrent des opérations dans des pays en état de crise. « L’Ukraine est un bon exemple. Lorsque la situation a commencé à s’envenimer, nous exécutions le traitement analytique : quelle est votre exposition ? Quels clients pourraient être affectés par la situation en Ukraine ? Dans le secteur secondaire, avons-nous des matières premières en provenance d’Ukraine ? », raconte Alan Grogan.
« Ce sont des informations que nous pouvons transmettre aux entreprises. Elles ignorent parfois qu’elles sont en relation avec l’Ukraine (un fabricant moyen compte autour de 160 fournisseurs), mais elles le sauront après quelques semaines ou mois, quand les marchandises commenceront à s’épuiser. Pour certaines entreprises, c’est catastrophique. »
Alan Grogan explique que le partenariat entre RBS et ses clients professionnels génère tellement de données de qualité qu’il sera un jour possible de prédire le produit intérieur brut avec précision. « Plus je peux vous donner de données en tant que client, plus vous allez faire affaires avec moi, car vous savez que les décisions dont je vous fais part sont plus empiriques et plus correctes », raisonne-t-il.
« Les banques veulent juste prêter de l’argent et le récupérer. Trop souvent, nous prêtons de l’argent mais ne le récupérons pas. Donc, en théorie, plus nous savons de choses sur nos entreprises, plus nous savons que nous allons récupérer notre argent lorsque nous le prêtons. Si nous aidons nos clients à comprendre leurs risques, leurs risques diminuent et la banque est fondamentalement plus sereine. »
S’appuyer sur Hadoop pour des données non structurées
Alan Grogan prévoit de travailler avec des données non structurées à l’aide de la structure de calcul distribué Hadoop. « Nous n’avons pas encore migré totalement vers Hadoop. Nous n’avons pas exploité pleinement les capacités Hadoop de PDW, mais nous l’avons acheté en sachant que nous pourrions exploiter Hadoop dans le cloud via Azure », explique-t-il.
« Nous avons largement assez de données ; nous avons des pétaoctets de données pour l’alimenter en interne et en externe. Ce sont vraiment les flux numériques externes qui nous intéressaient avant tout.
Beaucoup de ces fournisseurs de données sont déjà dans le cloud computing et nous pourrions tout aussi bien les rencontrer dans le cloud. Mes stratèges en technologie pourraient toutefois s’inquiéter si je commence à faire des déclarations comme celles-là. »
Cet article est une traduction de « Big data: Why IT departments mustn’t be a drag on analytics » publié sur ZDNet.com par Toby Wolpe
Source : zdnet.fr