Modèle de coût algorithmique intégrant des mécanismes de tolérance aux pannes et expérimentations

 Authors

Samir JAFAR, Thierry GAUTIER et Jean-Louis ROCH

Abstract

Les grilles et les clusters sont des architectures de plus en plus utilisées dans le domaine du calcul scientifique distribué. Le nombre important de constituants (processeurs, mémoire, interconnexion) dans ces architectures font que le risque de défaillance est très important. Comptetenu de la durée considérable de l’exécution d’une application distribuée, ce risque de défaillance doit être contrôlé par l’utilisation de technique de tolérance aux pannes. Dans cet article, nous présentons deux mécanismes de tolérance aux pannes basés sur une sauvegarde de l’état du futur de l’exécution représenté par un graphe de flot de données. Nous présentons leurs modèles de coût algorithmique intégrant le temps nécessaire pour la sauvegarde de l’état des processus. Nous montrons que pour la classe des programmes considérée et les mécanismes de tolérance aux pannes, les accélérations asymptotiques sont linéaires en fonction du nombre de processeurs. Un prototype existe et des expérimentations montrent que le surcoût à l’exécution peut être amorti, permettant d’envisager des exécutions tolérantes aux pannes qui passent à l’échelle. Des comparaisons expérimentales sur une grappe d’environ 200 processeurs complè- tent les analyses théoriques 

Keywords

Tolérance aux pannes. Graphe de flot de données. Application à très grande échelle. Grille
 

الملفات المرفقة

Syrian Private University - Scentafic Research @ 2024 by Syrian Monster - Web Service Provider | All Rights Reserved