Neues H2020 Projekt DAPHNE (Integrated Data Analysis Pipelines for Large-Scale Data Management, HPC, and Machine Learning)
Die Arbeitsgruppe Data Management Technologies ist Teil eines internationalen Konsortiums im Rahmen des H2020 DAPHNE Projekts mit dem Ziel Methoden für integrierte Datenanalysepipelines für datenintensives maschinelles Lernen zusammen mit Experten des Datenmanagements, des maschinellen Lernens, sowie des High-Performance Computings zu entwickeln. Der Forschungsfokus der Arbeitsgruppe Data Management technologies wird hierbei auf der Integration von neuartigen „Computational Storage“ Technologien im Rahmen von datenintensiven Machine Learning Workloads liegen.
Das DAPHNE Projekt hat zum Ziel eine offene und erweiterbare Systeminfrastruktur für integrierte Datenanalysepipelines zu entwickeln, inklusive Datenmanagement & -verarbeitung, High-Performance Computing, sowie Machine Learning (ML) training und scoring. Die Hauptbeobachtungen sind, dass (1) derartige Systeme häufig ähnliche Kompilations- und Laufzeittechniken nutzen, (2) vermehrt komplexe Datenanalysen mehrere dieser Systeme kombinieren und (3) die dafür eingesetzte heterogene Hardwareinfrastruktur sich auch ähnelt. Jedoch unterscheiden sich Programmierparadigmen, Cluster Ressourcenverwaltung, sowie Datenformate und Repräsentationen erheblich. Daher widmet sich DAPHNE der systematischen Untersuchung der notwendigen Systeminfrastruktur, Sprachabstraktionen, Kompilations- und Laufzeittechniken, sowie Systeme und Tools um die Produktivität bei der Entwicklung von komplexen Datenanalysepipelines zu erhöhen.
Weitere Informationen können auf der Projektwebseite abgerufen werden: https://daphne-eu.github.io/