Algorithmen und Verfahren aus den Bereichen der Künstlichen Intelligenz und des Maschinellen Lernens (KI/ML) nehmen im modernen Wissenschaftsbetrieb eine zunehmend wichtigere Rolle ein. In der praktischen Anwendung wird ein sehr hohes Maß an Rechenleistung benötigt. Da die Leistung herkömmlicher Standardprozessoren meist nicht ausreicht, setzen Forschende und Betreiber wissenschaftlicher Rechenzentren häufig auf spezielle Beschleunigerprozessoren, welche die benötigten Rechenoperationen wie z.B. Matrixmultiplikationen sehr schnell ausführen können.
Bislang handelte es sich dabei fast ausschließlich um enge Verwandte jener Grafikprozessoren, welche auch in herkömmlichen PCs oder Spielekonsolen Verwendung finden. Deren interner Aufbau eignet sich zwar auch zur Beschleunigung wissenschaftlicher Anwendungen oder von Berechnungen im Bereich KI/ML, in Rechenzentren werden allerdings leistungsfähigere Modelle mit für den professionellen Einsatz nötigen Zusatzfunktionen benötigt. Das Scientific Computing Center (SCC) betreibt derzeit insgesamt mehr als 1.000 dieser Beschleunigerprozessoren, darunter fast 700 im neuen Hochleistungsrechner Karlsruhe (HoreKa) und mehr als 130 im bwUniCluster 2.0.
Die derzeit verwendeten Beschleuniger der Hersteller NVIDIA (Typen A100 und V100) und AMD (Typ MI100) erreichen eine etwa um den Faktor 10 höhere Rechenleistung und Energieeffizienz als herkömmliche Standardprozessoren. HoreKa schaffte es dank seiner A100-Beschleuniger auf Platz 13 auf der Liste der energieeffizientesten Rechner der Welt (Stand Juni 2021). Allerdings besteht im Bereich KI/ML noch ein großes Optimierungspotential.
Das 2016 gegründete Startup Graphcore aus Großbritannien arbeitet als eines von mehreren Unternehmen an entsprechenden Produkten. Graphcore bezeichnet seine Prozessoren als „Intelligent Processing Units“ (IPUs). Das aktuelle Modell GC200 gehört mit 59 Milliarden Transistoren zu den größten weltweit gefertigten Chips und trägt daher den Beinamen „Colossus“.
Im Gegensatz zu den Chips von NVIDIA und AMD, die die ganze Palette wissenschaftlicher Anwendungen unterstützen, beherrschen „Colossus“-Prozessoren vor allem die für KI/ML wichtigen Rechenoperationen mit Datentypen reduzierter Genauigkeit. Bis zu 250 Billionen dieser speziellen Rechenoperationen pro Sekunde (AI Floating Point Operations, AI-FLOPS) kann ein einzelner Chip ausführen. Das nun vom Nationalen Hochleistungsrechenzentrum NHR@KIT als Teil der sogenannten „Future Technologies Partition“ angebotene IPU-POD16 System verfügt über gleich 16 Colossus-Prozessoren. Es ist das erste System dieser Art in Deutschland.
Forschende mit Zugang zu HoreKa oder aus dem Verbund für das Nationale Hochleistungsrechnen (NHR-Verbund) erhalten auf Anfrage Zugang zur Future Technologies Partition. In diesem Hardware- und Software-Testbett für innovative und disruptive Technologien stehen neben den neuen Graphcore-Systemen auch Systeme mit AMD-Prozessoren, AMD-Beschleunigern, ARM-Prozessoren und anderer Ausstattung zur Verfügung.
Weitere Informationen zu den neuen Systemen sind in der Nutzerdokumentation von NHR@KIT abrufbar. Informationen zum Nationalen Hochleistungsrechnen am KIT finden sich auf der Webseite von NHR∂KIT.
Simon Raffeiner