Seminar Big Data Tools
- Typ: Seminar (S)
- Semester: WS 13/14
- Ort: Gebäude 20.21 (SCC-Süd), Raum 314 (3. Stock)
-
Zeit:
Montag, 15:45-17:15
- Beginn: 21.10.2013
-
Dozent:
Prof. Dr. Achim Streit
Parinaz Ameri - SWS: 2
- LVNr.: 2400031
Beschreibung:
Alle reden von „Big Data“. Tatsächlich könnte das explosionsartige Wachstum großer Datenmengen das nächste Phänomen seit der Erfindung des Internets sein. In der heutigen Zeit kann man jederzeit und überall auf Informationen zugreifen und diese verarbeiten. Dabei produziert jeder von uns eine Vielzahl digitaler Daten wie Videos, Audio, Fotos, etc. Pro Minute werden beispielsweise 48 Stunden Videomaterial auf YouTube hochgeladen. Auch als Nutzer dieser digitalen Produkte stellen wir erhebliche Anforderungen: Wir setzen die Verfügbarkeit der Daten, schnelle und effiziente Analysen sowie eine schnelle Suche in großen Datenmengen voraus.Der Begriff Big Data wird dabei durch die sogenannten vier „V“s geprägt. Jedes dieser „V“s drückt einen entscheidenden Aspekt großer Datenmengen aus, die die heutige Infrastruktur an ihre Grenzen bringt:
- Volume: Das Speichern, Verteilen und Analysieren von Petabyte- oder sogar Zettabyteweise Daten
- Variety: Das Verarbeiten einer Vielzahl unstrukturierter Daten unterschiedlichster Datenformate
- Velocity: Der dramatische Anstieg der erzeugten Datenmenge
- Veracity: Das Verarbeiten unbestimmter oder unpräziser Daten, z. B. Daten sozialer Medien
Die Herausforderungen, die im Umfeld großer Datenmengen entstehen, bieten die besten Möglichkeiten für Einzelpersonen, Forschungseinrichtungen sowie Unternehmen der Technologiebranche, sich zu engagieren, Lösungen zu entwickeln und die Welt zu verändern.
Im Seminar „Big Data Tools“ werden effiziente Methoden und Werkzeuge vorgestellt und diskutiert, die für den Umgang mit großen Datenmengen notwendig sind. Zu diesen gehören beispielsweise die folgenden:
- Hadoop: verteilte Dateisysteme
- MapReduce: Programmiermodell für die Datenverarbeitung in großen Clustern
- Evaluation der Performance des Streamings von Hadoop
- Parallele Dateisysteme
- CernVM-FS: Verteilung wissenschaftlicher Software auf global verteilte Rechnerressourcen
- dCache: ein hochtransparentes, fehlertolerantes Datenmanagementsystem
- Verteilter Datenzugriff mit niedrigen Latenzzeiten mit xrootd
- Analyse großer Datenmengen des Experimentes ALICE vom LHC
- Ceph: ein durch Software definiertes Speichersystem
- Zuverlässigkeit langfristiger Speicherung
- Auswirkungen direkt adressierbarer Massenspeicher auf das Datenbankdesign
- In-Memory Datenbank: Hana
- MongoDB: dokumentenbasierte NoSQL Datenbanken
- Die Nutzung von BOINC für verteilte Systeme
- OpenStack Swift: objektbasierte Speichersysteme für unstrukturierte Daten in der Cloud
Bei Bedarf, können die Vorträge und Diskussionen auch in Englisch abgehalten werden.