Copula-basierte Verteilungsregression für Raum-Zeit Daten entwickelt neue Modelle für multivariate raum-zeitliche Daten unter Verwendung von Verteilungsregression mittels Copulas. Von besonderem Interesse sind statistische Tests und die automatische Variablenauswahl mit Bayesianischen Variablenselektionsmethoden. Langfristig wird sich das Projekt mit der effizienten Modellierung nicht-stationärer Abhängigkeiten unter Verwendung stochastischer partieller Differentialgleichungen befassen.
The goal of this project is to use deep neural networks as building blocks in a numerical method to solve the Boltzmann equation. This is a particularly challenging problem since the equation is a high-dimensional integro-differential equation, which at the same time possesses an intricate structure that a numerical method needs to preserve. Thus, artificial neural networks might be beneficial, but cannot be used out-of-the-box. We follow two main strategies to develop structure-preserving neural network-enhanced numerical methods for the Boltzmann equation. First, we target the moment approach, where a structure-preserving neural network will be employed to model the minimal entropy closure of the moment system. By enforcing convexity of the neural network, one can show, that the intrinsic structure of the moment system, such as hyperbolicity, entropy dissipation and positivity is preserved. Second, we develop a neural network approach to solve the Boltzmann equation directly at discrete particle velocity level. Here, a neural network is employed to model the difference between the full non-linear collision operator of the Boltzmann equation and the BGK model, which preserves the entropy dissipation principle. Furthermore, we will develop strategies to generate training data which fully sample the input space of the respective neural networks to ensure proper functioning models.
Unkraut ist eine der Hauptursachen für Ernteverluste. Daher setzen Landwirte verschiedene Methoden ein, um den Unkrautwuchs auf ihren Feldern zu kontrollieren, am häufigsten chemische Herbizide. Die Herbizide werden jedoch oft gleichmäßig auf dem gesamten Feld ausgebracht, was sich negativ auf Umwelt und Kosten auswirkt. Die standortspezifische Unkrautbekämpfung (site-specific weed management; SSWM) berücksichtigt die Variabilität auf dem Feld und lokalisiert die Behandlung. Die genaue Lokalisierung von Unkräutern ist daher der erste Schritt zum SSWM. Darüber hinaus sind Informationen über die Zuverlässigkeit der Vorhersage entscheidend für den Einsatz der Methoden in der Praxis. Dieses Projekt zielt darauf ab, Methoden für die Unkrautidentifizierung in Ackerflächen auf der Grundlage von UAV-Fernerkundungsbildern aus geringer Höhe und die Quantifizierung von Unsicherheiten mithilfe von Bayesianischem maschinellem Lernen zu entwickeln, um einen ganzheitlichen Ansatz für SSWM zu entwickeln. Das Projekt wird von der Helmholtz Einstein International Berlin Research School in Data Science (HEIBRiDS) unterstützt und von Prof. Dr. Martin Herold vom GFZ German Research Centre for Geosciences mitbetreut.
Das Projekt Simulierte Welten hat sich zum Ziel gesetzt, Schülerinnen und Schülern in Baden-Württemberg ein vertieftes kritisches Verständnis der Möglichkeiten und Grenzen von Computersimulationen zu vermitteln. Das Vorhaben wird gemeinsam vom Scientific Computing Center (SCC), dem Höchstleistungsrechenzentrum Stuttgart (HLRS) sowie der Universität Ulm getragen und arbeitet bereits mit mehreren Schulen in Baden-Württemberg zusammen.
Trotz erheblicher Überschneidungen und Synergien haben sich das maschinelle Lernen und die statistische Wissenschaft weitgehend parallel entwickelt. Deep Gaussian mixture models, eine kürzlich eingeführte Modellklasse des maschinellen Lernens, befassen sich mit den unüberwachten Aufgaben der Dichteschätzung und hochdimensionalen Clusterbildung, die in vielen Anwendungsbereichen zur Mustererkennung verwendet werden. Um überparametrisierte Lösungen zu vermeiden, kann auf jeder Ebene der Architektur eine Dimensionsreduktion durch Faktormodelle vorgenommen werden. Die Wahl der Architekturen kann jedoch als Bayesianisches Modellwahlproblem interpretiert werden, was bedeutet, dass jedes mögliche Modell, das die Bedingungen erfüllt, angepasst wird. Die Autoren schlagen einen viel einfacheren Ansatz vor: Es muss nur ein einziges großes Modell trainiert werden, und überflüssige Komponenten werden weggelassen. Die Idee, dass Parametern a-priori-Verteilungen zugewiesen werden können, ist höchst unorthodox, aber extrem einfach und bringt zwei Wissenschaften zusammen, nämlich maschinelles Lernen und Bayesianische Statistik.
Für moderne biomedizinische Fragestellungen liefern klassische Regressionsmodelle häufig eine zu sehr vereinfachte Sicht auf komplexe Zusammenhänge. Insbesondere sind mögliche Assoziationen zwischen multiplen klinischen Endpunkten, wie sie heutzutage meist erfasst werden, bei der Modellierung adäquat zu berücksichtigen. Die klassische separate Modellierung verschiedener Zielgrößen kann in vielen Fällen zu verzerrten Ergebnissen und falschen bzw. unvollständigen Schlussfolgerungen führen. Dieser Herausforderung möchten sich die beiden Projektpartner stellen und ihre komplementären Vorarbeiten nutzen, um neuartige Copula-Regressionsmodelle für hoch-dimensionale biomedizinische Fragestellungen zu etablieren. Die zu entwickelnden Methoden erlauben es, mehrere Studien-Endpunkte simultan zu modellieren und dabei die dafür nötigen Einflussgrößen und Risikofaktoren aus potentiell hoch-dimensionalen Daten über Algorithmen des statistischen Lernens zu selektieren. Die daraus resultierenden Modelle können sowohl für die Interpretation und Analyse komplexer Assoziationsstrukturen als auch für die Prognose-Inferenz (simultane Prognoseintervalle für mehrere Zielgrößen) verwendet werden. Zusätzliche Implementierung in frei verfügbarer Software und deren Anwendungen in verschiedenen Studien unterstreichen das Potential und den Beitrag dieses Projektes für die methodischen Herausforderungen des Zukunftsfeldes Digitale Medizin.
Im Zeitalter der Digitalisierung liegen vielen wissenschaftlichen Studien immer größere und komplexere Datenmengen zugrunde. Diese „Big Data“-Anwendungen bieten viele Ansatzpunkte für die Weiterentwicklung von statistischen Methoden, die insbesondere genauere und an deren Komplexität angepasste Modelle sowie die Entwicklung verbesserter Inferenzmethoden erfordern, um potentiellen Modellfehlspezifikationen, verzerrten Schätzern und fehlerhaften Folgerungen und Prognosen entgegenzuwirken. Das hier vorgeschlagene Projekt wird statistische Methoden für flexible univariate und multivariate Regressionsmodelle und deren genaue und effiziente Schätzung entwickeln. Genauer sollen durch einen probabilistischen Ansatz zu klassischen Verfahren des maschinellen Lernens effizientere und statistische Lernalgorithmen zur Schätzung von Modellen mit großen Datensätzen erarbeitet werden. Um die Modellierung der gesamten bedingten Verteilung der Zielgrößen zu ermöglichen, sollen darüber hinaus neuartige Verteilungsregressionsmodelle entwickelt werden, welche sowohl die Analyse univariater als auch multivariater Zielgrößen erlauben und gleichzeitig interpretiere Ergebnisse liefern. In all diesen Modellen sollen außerdem die wichtigen Fragen der Regularisierung und Variablenselektion betrachtet werden, um deren Anwendbarkeit auf Problemstellungen mit einer großen Anzahl an potentiellen Prädiktoren zu gewährleisten. Auch die Entwicklung frei verfügbarer Software sowie Anwendungen in den Natur- und Sozialwissenschaften (wie zum Beispiel zu Marketing, Wettervorhersagen, chronischen Krankheiten und anderen) stellen einen wichtigen Bestandteil des Projekts dar und unterstreichen dessen Potential, entscheidend zu wichtigen Aspekten der modernen Statistik und Datenwissenschaft beizutragen.
Im Graduiertenkolleg "Maßgeschneiderte Multiskalenmethoden für Computersimulationen von nanoskaligen Materialien" untersuchen wir Probleme, die mit einzelnen Standardwerkzeugen der Computational Chemistry nicht zu bewältigen sind. Die Forschung ist in sieben Projekte gegliedert. Fünf Projekte adressieren wissenschaftliche Herausforderungen wie Reibung, Materialalterung, Materialdesign und biologische Funktion. In zwei weiteren Projekten werden neue Methoden und Werkzeugen der Mathematik und der Informatik für die speziellen Anforderungen dieser Anwendungen entwickelt und bereitgestellt. Das SCC ist an den Projekten P4, P5 und P6 beteiligt.
CAMMP steht für Computational And Mathematical Modeling Program (Computergestütztes Mathematisches Modellierungsprogramm). Es ist ein außerschulisches Angebot des KIT für Schülerinnen und Schüler verschiedenen Alters. CAMMP will die gesellschaftliche Bedeutung von Mathematik und Simulationswissenschaften der Öffentlichkeit bewusst machen. Dazu steigen Schülerinnen und Schüler in verschiedenen Veranstaltungsformaten gemeinsam mit Lehrkräften aktiv in das Problemlösen mit Hilfe von mathematischer Modellierung und dem Einsatz von Computern ein und erforschen dabei reale Probleme aus Alltag, Industrie oder Forschung.
Gemeinsam mit Partnern des Forschungszentrums Jülich und des Fritz-Haber-Instituts Berlin wollen wir ein neuartiges intelligentes Managementsystem für Elektrobatterien entwickeln, das auf Basis eines detaillierten Surrogatmodells ("digitaler Zwilling") der Batterie und künstlicher Intelligenz bessere Entscheidungen über die Ladezyklen treffen kann.