Projekte

Laufende Projekte (9)
Abgeschlossene Projekte (4)

Laufende Projekte

Rekonstruktion räumlicher Klimavariabilitätsmuster mittels Bayesianischem Hierarchischem Lernen

Kontakt: Prof. Dr. Nadja Klein
Förderung: Helmholtz-Gemeinschaft

Laufzeit: 01.02.2025 - 31.01.2029

Ziel des Projekts ist es, räumliche Muster von zeitskalenabhängiger Klimavariabilität zu rekonstruieren. Zu diesem Zweck wird ein Bayesianisches hierarchisches Modell entwickelt, das eine Vielzahl von Proxy-Daten unter Berücksichtigung von Proxy-Prozessen und Rauschen einbezieht. Es zielt darauf ab, Grenzen und Unsicherheiten abgeleiteter Klimavariabilitätsrekonstruktionen zu quantifizieren, die mit der verwendeten Kovarianzstruktur und der Sparsamkeit, der räumlichen Heterogenität und dem Rauschen der Beobachtungsdaten durch Posterior-Verteilungen zusammenhängen. Wir nutzen Klimakarten, um regionale Muster der niederfrequenten Variabilität und die entsprechenden Implikationen z. B. für die Bandbreite möglicher zukünftiger Klimatrends in der natürlichen Variabilität und der Häufigkeit von Extremereignissen zu untersuchen. Das Projekt wird von der Helmholtz Einstein International Berlin Research School in Data Science (HEIBRiDS) gefördert und von Prof. Dr. Thomas Laepple vom Alfred-Wegener-Institut (AWI) und Prof. Dr. Tobias Krüger von der Humboldt-Universität zu Berlin mitbetreut.

Strukturierte Erklärbarkeit von Interaktionen in Deep Learning Modellen mit Anwendung auf Pathogenitätsprädiktion

Kontakt: Prof. Dr. Nadja Klein
Förderung: DFG

Laufzeit: 01.01.2025 - 30.06.2029
Projektseite: gepris.dfg.de/gepris/projekt/498589566?language

Die Erklärung und das Verständnis der zugrundeliegenden Wechselwirkungen von Genomregionen sind entscheidend für eine angemessene Charakterisierung des Phänotyps von Krankheitserregern, z. B. für die Vorhersage der Virulenz eines Organismus oder der Resistenz gegen Medikamente. Bestehende Methoden zur Klassifizierung der zugrundeliegenden komplexen Datenmengen von Genomsequenzen stehen aufgrund der hohen Dimensionalität vor dem Problem der Erklärbarkeit, was die Visualisierung, die Intepretierbarkeit und die Rechtfertigung von Klassifizierungsentscheidungen erschwert. Dies gilt insbesondere für Interaktionen, wie z. B. bei genomischen Regionen. Um diese Herausforderungen zu bewältigen, werden wir Methoden zur Variablenselektion und strukturierten Erklärbarkeit entwickeln, die Interaktionen wichtiger Eingabevariablen erfassen: Genauer gesagt gehen wir diese Herausforderungen (i) im Rahmen eines tiefen gemischten Modells für binäre Ergebnisse an, das verallgemeinerte lineare gemischte Modelle und eine tiefe Variante strukturierter Prädiktoren vereint. Dabei kombinieren wir logistische Regressionsmodelle mit Deep Learning, um komplexe Interaktionen in genomischen Daten zu entschlüsseln. Wir ermöglichen insbesondere dann eine Schätzung, wenn keine explizit formulierten Einflussgrößen für die Modelle verfügbar sind, wie dies beispielsweise bei Genomdaten der Fall ist. Darüber hinaus werden wir (ii) Methoden zur besseren Erklärung von Interaktionen auf Klassifizierungsentscheidungen wie die Layerwise Relevance Propagation erweitern. Indem wir diese beiden komplementären Ansätze sowohl auf der Modell- als auch auf der Erklärbarkeitsebene untersuchen, ist es unser Hauptziel, strukturierte Erklärungen zu formulieren und zu postulieren, die nicht nur Erklärungen erster Ordnung für einzelne Variablen von Klassifizierungsentscheidungen liefern, sondern auch deren Interaktionen berücksichtigen. Obwohl unsere Methoden durch unsere genomischen Daten motiviert sind, können sie nützlich sein und auf andere Anwendungsbereiche ausgedehnt werden, in denen Interaktionen von Interesse sind.

Probabilistische Lernansätze für komplexe Krankheitsverläufe auf der Grundlage hochdimensionaler MRT-Daten

Kontakt: Prof. Dr. Nadja Klein
Förderung: DFG

Laufzeit: 01.01.2025 - 30.06.2029
Projektseite: https://gepris.dfg.de/gepris/projekt/498590773?language=en

In diesem Projekt werden wir Methoden an der Schnittstelle von Statistischem Lernen und Deep Learning (DL) entwickeln, um aktuelle und zukünftige Krankheitsverläufe auf der Grundlage von hochdimensionalen Neurobildgebungsdaten, die mit der Magnetresonanztomographie (MRT) erhoben werden, zu modellieren, zu verstehen und vorherzusagen. Um (1) die vollständigen Verteilungen relevanter Krankeitsindikatoren einzelner Patient:innen auf der Grundlage von MRT-Daten sowie weiteren Variablen (wie klinischen oder demografischen Variablen) bei gleichzeitiger Quantifizierung von Unsicherheit vorherzusagen und (2) die zeitliche Dynamik dieser Daten zu modellieren, werden wir DL-Methoden mit Bayesianischer Statistik kombinieren und weiterentickeln. In Bezug auf (1) werden wir tiefe Verteilungsregressionsmodelle für uni- und multivariate, nicht-normalverteilte Krankheitindikatoren (z. B. Symptomschwere) bedingt auf die vorhandenen MRT-Bilder sowie weitere klinische und demographische Variablen und Confounder entwickeln. In Bezug auf (2) werden wir DL-basierte Zustandsraummodelle entwickeln, um die komplexe zeitliche Entwicklung bei neurologischen Erkrankungen zu modellieren. Diese Modelle werden exemplarisch für zwei neurologische Krankheiten entwickelt und getestet, nämlich für die Alzheimer-Krankheit (AD) und Multiple Sklerose (MS), die durch unterschiedliche Verlaufsprofile charakterisiert sind.

Copula-basierte Verteilungsregression für Raum-Zeit Daten

Kontakt: Prof. Dr. Nadja Klein
Förderung: DFG

Laufzeit: 01.10.2024 - 30.06.2028
Projektseite: gepris.dfg.de/gepris/projekt/544966988

Copula-basierte Verteilungsregression für Raum-Zeit Daten entwickelt neue Modelle für multivariate raum-zeitliche Daten unter Verwendung von Verteilungsregression mittels Copulas. Von besonderem Interesse sind statistische Tests und die automatische Variablenauswahl mit Bayesianischen Variablenselektionsmethoden. Langfristig wird sich das Projekt mit der effizienten Modellierung nicht-stationärer Abhängigkeiten unter Verwendung stochastischer partieller Differentialgleichungen befassen.

DFG-priority program 2298 Theoretical Foundations of Deep Learning

Kontakt: Prof. Dr. Martin Frank, Dr. Jasmin Hörter
Förderung: DFG

Laufzeit: 01.09.2024 - 31.08.2027
Projektseite: https://www.foundationsofdl.de/

The goal of this project is to use deep neural networks as building blocks in a numerical method to solve the Boltzmann equation. This is a particularly challenging problem since the equation is a high-dimensional integro-differential equation, which at the same time possesses an intricate structure that a numerical method needs to preserve. Thus, artificial neural networks might be beneficial, but cannot be used out-of-the-box. We follow two main strategies to develop structure-preserving neural network-enhanced numerical methods for the Boltzmann equation. First, we target the moment approach, where a structure-preserving neural network will be employed to model the minimal entropy closure of the moment system. By enforcing convexity of the neural network, one can show, that the intrinsic structure of the moment system, such as hyperbolicity, entropy dissipation and positivity is preserved. Second, we develop a neural network approach to solve the Boltzmann equation directly at discrete particle velocity level. Here, a neural network is employed to model the difference between the full non-linear collision operator of the Boltzmann equation and the BGK model, which preserves the entropy dissipation principle. Furthermore, we will develop strategies to generate training data which fully sample the input space of the respective neural networks to ensure proper functioning models.

Bayesianisches maschinelles Lernen mit Quantifizierung von Unsicherheiten für die Erkennung von Unkraut in Ackerland aus Fernerkundung in geringer Höhe

Kontakt: Prof. Dr. Nadja Klein
Förderung: Helmholtz-Gemeinschaft

Laufzeit: seit 01.01.2022
Projektseite: www.heibrids.berlin/people/doctoral-students/

Unkraut ist eine der Hauptursachen für Ernteverluste. Daher setzen Landwirte verschiedene Methoden ein, um den Unkrautwuchs auf ihren Feldern zu kontrollieren, am häufigsten chemische Herbizide. Die Herbizide werden jedoch oft gleichmäßig auf dem gesamten Feld ausgebracht, was sich negativ auf Umwelt und Kosten auswirkt. Die standortspezifische Unkrautbekämpfung (site-specific weed management; SSWM) berücksichtigt die Variabilität auf dem Feld und lokalisiert die Behandlung. Die genaue Lokalisierung von Unkräutern ist daher der erste Schritt zum SSWM. Darüber hinaus sind Informationen über die Zuverlässigkeit der Vorhersage entscheidend für den Einsatz der Methoden in der Praxis. Dieses Projekt zielt darauf ab, Methoden für die Unkrautidentifizierung in Ackerflächen auf der Grundlage von UAV-Fernerkundungsbildern aus geringer Höhe und die Quantifizierung von Unsicherheiten mithilfe von Bayesianischem maschinellem Lernen zu entwickeln, um einen ganzheitlichen Ansatz für SSWM zu entwickeln. Das Projekt wird von der Helmholtz Einstein International Berlin Research School in Data Science (HEIBRiDS) unterstützt und von Prof. Dr. Martin Herold vom GFZ German Research Centre for Geosciences mitbetreut.

Jenseits der Mittelwertsregression - Eine Bayesianische Perspektive auf das Maschinelle Lernen

Kontakt: Prof. Dr. Nadja Klein
Förderung: DFG

Laufzeit: seit 01.11.2019
Projektseite: https://gepris.dfg.de/gepris/projekt/425212771?language=en

Im Zeitalter der Digitalisierung liegen vielen wissenschaftlichen Studien immer größere und komplexere Datenmengen zugrunde. Diese „Big Data“-Anwendungen bieten viele Ansatzpunkte für die Weiterentwicklung von statistischen Methoden, die insbesondere genauere und an deren Komplexität angepasste Modelle sowie die Entwicklung verbesserter Inferenzmethoden erfordern, um potentiellen Modellfehlspezifikationen, verzerrten Schätzern und fehlerhaften Folgerungen und Prognosen entgegenzuwirken. Das hier vorgeschlagene Projekt wird statistische Methoden für flexible univariate und multivariate Regressionsmodelle und deren genaue und effiziente Schätzung entwickeln. Genauer sollen durch einen probabilistischen Ansatz zu klassischen Verfahren des maschinellen Lernens effizientere und statistische Lernalgorithmen zur Schätzung von Modellen mit großen Datensätzen erarbeitet werden. Um die Modellierung der gesamten bedingten Verteilung der Zielgrößen zu ermöglichen, sollen darüber hinaus neuartige Verteilungsregressionsmodelle entwickelt werden, welche sowohl die Analyse univariater als auch multivariater Zielgrößen erlauben und gleichzeitig interpretiere Ergebnisse liefern. In all diesen Modellen sollen außerdem die wichtigen Fragen der Regularisierung und Variablenselektion betrachtet werden, um deren Anwendbarkeit auf Problemstellungen mit einer großen Anzahl an potentiellen Prädiktoren zu gewährleisten. Auch die Entwicklung frei verfügbarer Software sowie Anwendungen in den Natur- und Sozialwissenschaften (wie zum Beispiel zu Marketing, Wettervorhersagen, chronischen Krankheiten und anderen) stellen einen wichtigen Bestandteil des Projekts dar und unterstreichen dessen Potential, entscheidend zu wichtigen Aspekten der modernen Statistik und Datenwissenschaft beizutragen.

GRK 2450 - GRK 2450 (DFG)

Kontakt: Prof. Dr. Martin Frank (P1, P3), Prof. Dr. Alexander Schug (P4, P5)
Förderung: DFG

Laufzeit: 01.04.2019 - 31.03.2028
Projektseite: www.compnano.kit.edu

Im Graduiertenkolleg "Maßgeschneiderte Multiskalenmethoden für Computersimulationen von nanoskaligen Materialien" untersuchen wir Probleme, die mit einzelnen Standardwerkzeugen der Computational Chemistry nicht zu bewältigen sind. Die Forschung ist in sieben Projekte gegliedert. Fünf Projekte adressieren wissenschaftliche Herausforderungen wie Reibung, Materialalterung, Materialdesign und biologische Funktion. In zwei weiteren Projekten werden neue Methoden und Werkzeugen der Mathematik und der Informatik für die speziellen Anforderungen dieser Anwendungen entwickelt und bereitgestellt. Das SCC ist an den Projekten P4, P5 und P6 beteiligt.

Computational and Mathematical Modeling Program (CAMMP)

Kontakt: Prof. Dr. Martin Frank, Dr. Jasmin Hörter, Dr. Katharina Bata
Förderung: MWK

Laufzeit: seit 01.01.2015
Projektseite: forschung/CAMMP

CAMMP steht für Computational And Mathematical Modeling Program (Computergestütztes Mathematisches Modellierungsprogramm). Es ist ein außerschulisches Angebot des KIT für Schülerinnen und Schüler verschiedenen Alters. CAMMP will die gesellschaftliche Bedeutung von Mathematik und Simulationswissenschaften der Öffentlichkeit bewusst machen. Dazu steigen Schülerinnen und Schüler in verschiedenen Veranstaltungsformaten gemeinsam mit Lehrkräften aktiv in das Problemlösen mit Hilfe von mathematischer Modellierung und dem Einsatz von Computern ein und erforschen dabei reale Probleme aus Alltag, Industrie oder Forschung.

Abgeschlossene Projekte

Simulierte Welten (Phase IV)

Kontakt: Dr. Jasmin Hörter, Dr. Katharina Bata
Förderung: MWK

Laufzeit: 01.09.2021 - 31.03.2025
Projektseite: simulierte-welten.de

Das Projekt Simulierte Welten hat sich zum Ziel gesetzt, Schülerinnen und Schülern in Baden-Württemberg ein vertieftes kritisches Verständnis der Möglichkeiten und Grenzen von Computersimulationen zu vermitteln. Das Vorhaben wird gemeinsam vom Scientific Computing Center (SCC), dem Höchstleistungsrechenzentrum Stuttgart (HLRS) sowie der Universität Ulm getragen und arbeitet bereits mit mehreren Schulen in Baden-Württemberg zusammen.

Shallow priors und Deep Learning: Das Potenzial der Bayesianischen Statistik als Mittel für deep Gaussian mixture models

Kontakt: Prof. Dr. Nadja Klein
Förderung: Volkswagenstiftung

Laufzeit: 01.08.2021 - 28.02.2025
Projektseite: portal.volkswagenstiftung.de/search/projectDetails.do?siteLanguage=en&ref=96932

Trotz erheblicher Überschneidungen und Synergien haben sich das maschinelle Lernen und die statistische Wissenschaft weitgehend parallel entwickelt. Deep Gaussian mixture models, eine kürzlich eingeführte Modellklasse des maschinellen Lernens, befassen sich mit den unüberwachten Aufgaben der Dichteschätzung und hochdimensionalen Clusterbildung, die in vielen Anwendungsbereichen zur Mustererkennung verwendet werden. Um überparametrisierte Lösungen zu vermeiden, kann auf jeder Ebene der Architektur eine Dimensionsreduktion durch Faktormodelle vorgenommen werden. Die Wahl der Architekturen kann jedoch als Bayesianisches Modellwahlproblem interpretiert werden, was bedeutet, dass jedes mögliche Modell, das die Bedingungen erfüllt, angepasst wird. Die Autoren schlagen einen viel einfacheren Ansatz vor: Es muss nur ein einziges großes Modell trainiert werden, und überflüssige Komponenten werden weggelassen. Die Idee, dass Parametern a-priori-Verteilungen zugewiesen werden können, ist höchst unorthodox, aber extrem einfach und bringt zwei Wissenschaften zusammen, nämlich maschinelles Lernen und Bayesianische Statistik.

Boosting Copulas - Multivariate Verteilungsregression in der Digitalen Medizin

Kontakt: Prof. Dr. Nadja Klein
Förderung: DFG

Laufzeit: 01.09.2020 - 31.03.2025
Projektseite: gepris.dfg.de/gepris/projekt/428239776

Für moderne biomedizinische Fragestellungen liefern klassische Regressionsmodelle häufig eine zu sehr vereinfachte Sicht auf komplexe Zusammenhänge. Insbesondere sind mögliche Assoziationen zwischen multiplen klinischen Endpunkten, wie sie heutzutage meist erfasst werden, bei der Modellierung adäquat zu berücksichtigen. Die klassische separate Modellierung verschiedener Zielgrößen kann in vielen Fällen zu verzerrten Ergebnissen und falschen bzw. unvollständigen Schlussfolgerungen führen. Dieser Herausforderung möchten sich die beiden Projektpartner stellen und ihre komplementären Vorarbeiten nutzen, um neuartige Copula-Regressionsmodelle für hoch-dimensionale biomedizinische Fragestellungen zu etablieren. Die zu entwickelnden Methoden erlauben es, mehrere Studien-Endpunkte simultan zu modellieren und dabei die dafür nötigen Einflussgrößen und Risikofaktoren aus potentiell hoch-dimensionalen Daten über Algorithmen des statistischen Lernens zu selektieren. Die daraus resultierenden Modelle können sowohl für die Interpretation und Analyse komplexer Assoziationsstrukturen als auch für die Prognose-Inferenz (simultane Prognoseintervalle für mehrere Zielgrößen) verwendet werden. Zusätzliche Implementierung in frei verfügbarer Software und deren Anwendungen in verschiedenen Studien unterstreichen das Potential und den Beitrag dieses Projektes für die methodischen Herausforderungen des Zukunftsfeldes Digitale Medizin.

i2Batman - i2batman

Kontakt: Prof. Dr. Martin Frank
Förderung: Helmholtz-Gemeinschaft

Laufzeit: 01.08.2020 - 31.07.2023

Gemeinsam mit Partnern des Forschungszentrums Jülich und des Fritz-Haber-Instituts Berlin wollen wir ein neuartiges intelligentes Managementsystem für Elektrobatterien entwickeln, das auf Basis eines detaillierten Surrogatmodells ("digitaler Zwilling") der Batterie und künstlicher Intelligenz bessere Entscheidungen über die Ladezyklen treffen kann.