LMi MAG 10 Nov 2021 - Flipbook - Page 39
depuis trois ans. Parmi les autres bénéfices, des gains
pour les métiers ressortent également. Même si l’application est complexe, les métiers vont pouvoir accéder
plus rapidement aux calculs des coûts énergétiques, qui
passent de six heures auparavant à environ une heure et
demie. Jusqu’alors, l’outil de management de l’énergie
utilisait un cluster Databricks couplé au datastore Hive
pour alimenter Qlik, mais des évolutions ont été pensées
afin que ce dernier se charge beaucoup plus rapidement.
Comment ? Via des nouveaux clusters SQL Analytics optimisés pour la partie BI afin de faire face aux futures
croissances des usages de la plateforme.
Avant d’atteindre un tel niveau de maturité, des efforts ont
été déployés et des difficultés ont dû être surmontées. « Un
premier point de complexité était lié à la transformation
numérique, qui en était à ses débuts sur ce point. De plus,
le groupe SNCF travaillait avec des technologies Microsoft
Azure et big data nécessitant une montée en compétence
sur les métiers de data engineering. Les dix-huit premiers
mois du projet, nous avons fait face à des difficultés en
étant collectivement en phase d’apprentissage », se rappelle Benoît Muller. Un exemple ? Lors de l’installation de
la plateforme Azure, un premier flux de données a été mis
en place pour être connecté au SI source ce qui n’était pas
industrialisé à l’époque, et cela a nécessité plusieurs mois
avec notamment des problèmes de sécurité à résoudre.
« Le fait d’avoir des data engineers qui comprennent bien
les métiers de l’énergie est important, car il ne s’agit pas
seulement de croiser des données, mais de bien dialoguer
avec eux. Ce n’était pas gagné d’avance et cela a mis du
temps à se mettre en place », conclut Benoît Muller.
© Itnovem/SNCF
Le groupe
a pu mettre un
terme à une double
facturation en
termes de stockage,
à la fois sur le
datalake et sur la
base de données BI,
et faire baisser
la facture.
« On a choisi Databricks avec comme gros avantage d’enlever HD Insight
pour migrer tout le code en Scala et utiliser le metastore Hive intégré
sur lequel Qlik peut se connecter et lire directement les données pour
accéder au datalake », Alexandre Bergère, data architect chez Itnovem.
APPROFONDIR
ÉCOUTER EN LIGNE
Podcast
pod-sncf-depenses-energ
LIRE EN LIGNE
Article
cutt.ly/art-sncf-depenses-energ
39