LMi MAG 10 Nov 2021 - Flipbook - Page 40
© Carlos Castilla - iStock
RETOUR D’EXPÉRIENCE
Big data
LinkedIn teste l’évolutivité
des clusters Hadoop Yarn
de 10 000 nœuds
Confrontée à des ralentissements à l’approche des 10 000 nœuds sur un cluster Hadoop
Yarn, l’équipe IT de LinkedIn a développé un outil de simulation pour l’aider à prévoir
les performances de son gestionnaire de ressources. Le framework DynoYarn est accessible
sur GitHub pour la communauté Yarn.
P
Maryse Gros
our gérer ses big data et l’apprentisformances de clusters Yarn de taille arbitraire. Cet outil
vient d’être mis en open source.
sage machine, LinkedIn s’appuie sur
Hadoop. Or, face à la croissance exponentielle du volume de données à
Tel que décrit sur GitHub, DynoYarn fournit un framework
traiter d’année en année, le réseau
pour faire monter en puissance un cluster Yarn à la desocial professionnel a dû doubler
mande et exécuter des charges de travail Yarn simulées
la taille de ses clusters. Son plus
pour tester le passage à l’échelle. L’outil « peut simuler
grand cluster avoisine maintenant
la performance d’un cluster Yarn de 10 000 nœuds sur
les 10 000 nœuds et le passage à l’échelle d’Hadoop Yarn
un cluster Hadoop de 100 nœuds », est-il précisé. Le
était devenu l’une de tâches les plus difficiles à gérer sur
framework a été créé, d’une part, pour évaluer les mises
son infrastructure, explique le réseau social dans un bilà jour des fonctionnalités Yarn et des versions d’Hadoop
sur les performances du gestionnaire de ressources, et,
let daté du 8 septembre 2021. Une équipe d’ingénieurs IT
d’autre part, pour prévoir les performances du gestionde LinkedIn y expose en détail le contexte des ralentissements qu’elle a observés à l’approche des 10 000 nœuds,
naire de ressources sur les grands clusters Yarn.
ainsi que les solutions qui ont été développées pour tenter d’y remédier. Par ailleurs,
Dans leur message, les ingénieurs de LinkedIn
BIG DATA
l’un des éléments importants pour évaluer la
expliquent que DynoYarn est similaire à DynaAPPLIANCES BI
scalability de Yarn est la capacité à prévoir les
mometer, l’outil de test écrit par l’équipe techCahier des charges
performances du gestionnaire de ressources.
nique du réseau social pour évaluer les perPour surveiller de manière proactive les déformances futures de NameNode dans HDFS.
DynoYarn comporte deux composantes :
gradations de performances susceptibles
un driver pour faire monter un cluster Yarn
de survenir, LinkedIn a donc développé un
simulé et une charge de travail à rejouer sur
outil baptisé DynoYarn qui, assure-t-il dans
ce cluster. Les deux sont mis en œuvre sous
son billet, prévoit de manière fiable les percutt.ly/BigData-Appli
40 / novembre 2021