Calcul sur les données volumineuses et stockage distribué à grande échelle

12 juil 2023

Gil Utard (équipe SDMA) soutient son HDR le mercredi 12 juillet à 10h, dans l’amphithéâtre Parmentier de l’UFR des Sciences de l’Université de Picardie Jules Verne.

Le jury est composé de :

M. Gilles Dequen, examinateur, MIS, Université de Picardie Jules Verne
M. Chu Min Li, examinateur, MIS, Université de Picardie Jules Verne
M. Pierre Sens, rapporteur, LIP6, Sorbonne Université
M. François Taiani, rapporteur, IRISA, Université de Rennes
M. Gaël Thomas, rapporteur, PDS, Télécom SudParis.

Résumé

Ce mémoire décrit mon activité de recherche depuis mon affectation à l'UPJV en 1998. Celle-ci peut se découper sur deux périodes. La première dans le domaine du HPC, et plus particulièrement sur le traitement de données de grande taille. La seconde qui concerne le problème du stockage et d'archivage distribué des données à grande échelle.

La première partie de ce mémoire décrit les travaux que j’ai réalisés du point de vue architectural, système et algorithmique pour le calcul intensif sur des données volumineuses sur cluster. En particulier, l'étude d'un mécanisme d'E/S direct sur les disques distants dans les clusters ; l'étude de mécanismes de gestion de la pagination au niveau applicatif ; l'étude d'algorithmes de calcul numérique dans le cas out-of-core.

La seconde partie décrit les travaux réalisés sur les systèmes de stockage distribué pair à pair. Dans ces travaux, j'ai étudié d’une part l'efficacité des mécanismes de redondance pour la garantie de pérennité des données. D'autre part, j'ai étudié aussi le coût qu'induisent ces mécanismes et proposé des solutions pour réduire leur impact sur les pairs, notamment par des distributions spécifiques.

Abstract

This report describes my research activity since my assignment to the UPJV in 1998. It can be divided into two periods. The first in the field of HPC, and more particularly on the processing of big data processing. The second period concerns the problem of large-scale distributed data storage and archiving.

The first part of this dissertation describes the work I have done from an architectural, system and algorithmic point of view for intensive computing on big data on a cluster. In particular, the study of a direct I/O mechanism on remote disks in clusters; the study of paging management mechanisms at the application level; the study of numerical calculation algorithms in the out-of-core case.

The second part describes the work done on peer-to-peer distributed storage systems. In this work, I studied, on the one hand, the efficiency of redundancy mechanisms for the guarantee of data continuity. On the other hand, I also studied the cost mechanisms and proposed solutions to reduce their impact on peers notably through specific distributions.

Réseaux et Données - REDO