KIT - SCC - Studium - Lehrveranstaltungen

Seminar Big Data Tools

Typ: Seminar (S)
Semester: WS 13/14
Ort: Gebäude 20.21 (SCC-Süd), Raum 314 (3. Stock)
Zeit: Montag, 15:45-17:15
Beginn: 21.10.2013
Dozent: Prof. Dr. Achim Streit
Parinaz Ameri
SWS: 2
LVNr.: 2400031

Beschreibung:

Alle reden von „Big Data“. Tatsächlich könnte das explosionsartige Wachstum großer Datenmengen das nächste Phänomen seit der Erfindung des Internets sein. In der heutigen Zeit kann man jederzeit und überall auf Informationen zugreifen und diese verarbeiten. Dabei produziert jeder von uns eine Vielzahl digitaler Daten wie Videos, Audio, Fotos, etc. Pro Minute werden beispielsweise 48 Stunden Videomaterial auf YouTube hochgeladen. Auch als Nutzer dieser digitalen Produkte stellen wir erhebliche Anforderungen: Wir setzen die Verfügbarkeit der Daten, schnelle und effiziente Analysen sowie eine schnelle Suche in großen Datenmengen voraus.

Der Begriff Big Data wird dabei durch die sogenannten vier „V“s geprägt. Jedes dieser „V“s drückt einen entscheidenden Aspekt großer Datenmengen aus, die die heutige Infrastruktur an ihre Grenzen bringt:

Volume: Das Speichern, Verteilen und Analysieren von Petabyte- oder sogar Zettabyteweise Daten
Variety: Das Verarbeiten einer Vielzahl unstrukturierter Daten unterschiedlichster Datenformate
Velocity: Der dramatische Anstieg der erzeugten Datenmenge
Veracity: Das Verarbeiten unbestimmter oder unpräziser Daten, z. B. Daten sozialer Medien

Die Herausforderungen, die im Umfeld großer Datenmengen entstehen, bieten die besten Möglichkeiten für Einzelpersonen, Forschungseinrichtungen sowie Unternehmen der Technologiebranche, sich zu engagieren, Lösungen zu entwickeln und die Welt zu verändern.

Im Seminar „Big Data Tools“ werden effiziente Methoden und Werkzeuge vorgestellt und diskutiert, die für den Umgang mit großen Datenmengen notwendig sind. Zu diesen gehören beispielsweise die folgenden:

Hadoop: verteilte Dateisysteme
MapReduce: Programmiermodell für die Datenverarbeitung in großen Clustern
Evaluation der Performance des Streamings von Hadoop
Parallele Dateisysteme
CernVM-FS: Verteilung wissenschaftlicher Software auf global verteilte Rechnerressourcen
dCache: ein hochtransparentes, fehlertolerantes Datenmanagementsystem
Verteilter Datenzugriff mit niedrigen Latenzzeiten mit xrootd
Analyse großer Datenmengen des Experimentes ALICE vom LHC
Ceph: ein durch Software definiertes Speichersystem
Zuverlässigkeit langfristiger Speicherung
Auswirkungen direkt adressierbarer Massenspeicher auf das Datenbankdesign
In-Memory Datenbank: Hana
MongoDB: dokumentenbasierte NoSQL Datenbanken
Die Nutzung von BOINC für verteilte Systeme
OpenStack Swift: objektbasierte Speichersysteme für unstrukturierte Daten in der Cloud

Bei Bedarf, können die Vorträge und Diskussionen auch in Englisch abgehalten werden.