Seminar Big Data Tools

  • Typ: Seminar (S)
  • Semester: WS 13/14
  • Ort: Gebäude 20.21 (SCC-Süd), Raum 314 (3. Stock)
  • Zeit: Montag, 15:45-17:15
  • Beginn: 21.10.2013
  • Dozent: Prof. Dr. Achim Streit
    Parinaz Ameri
  • SWS: 2
  • LVNr.: 2400031

Beschreibung:

Alle reden von „Big Data“. Tatsächlich könnte das explosionsartige Wachstum großer Datenmengen das nächste Phänomen seit der Erfindung des Internets sein. In der heutigen Zeit kann man jederzeit und überall auf Informationen zugreifen und diese verarbeiten. Dabei produziert jeder von uns eine Vielzahl digitaler Daten wie Videos, Audio, Fotos, etc. Pro Minute werden beispielsweise 48 Stunden Videomaterial auf YouTube hochgeladen. Auch als Nutzer dieser digitalen Produkte stellen wir erhebliche Anforderungen: Wir setzen die Verfügbarkeit der Daten, schnelle und effiziente Analysen sowie eine schnelle Suche in großen Datenmengen voraus.

Der Begriff Big Data wird dabei durch die sogenannten vier „V“s geprägt. Jedes dieser „V“s drückt einen entscheidenden Aspekt großer Datenmengen aus, die die heutige Infrastruktur an ihre Grenzen bringt:

  • Volume: Das Speichern, Verteilen und Analysieren von Petabyte- oder sogar Zettabyteweise Daten
  • Variety: Das Verarbeiten einer Vielzahl unstrukturierter Daten unterschiedlichster Datenformate
  • Velocity: Der dramatische Anstieg der erzeugten Datenmenge
  • Veracity: Das Verarbeiten unbestimmter oder unpräziser Daten, z. B. Daten sozialer Medien

Die Herausforderungen, die im Umfeld großer Datenmengen entstehen, bieten die besten Möglichkeiten für Einzelpersonen, Forschungseinrichtungen sowie Unternehmen der Technologiebranche, sich zu engagieren, Lösungen zu entwickeln und die Welt zu verändern.

Im Seminar „Big Data Tools“ werden effiziente Methoden und Werkzeuge vorgestellt und diskutiert, die für den Umgang mit großen Datenmengen notwendig sind. Zu diesen gehören beispielsweise die folgenden:

  1. Hadoop: verteilte Dateisysteme
  2. MapReduce: Programmiermodell für die Datenverarbeitung in großen Clustern
  3. Evaluation der Performance des Streamings von Hadoop
  4. Parallele Dateisysteme
  5. CernVM-FS: Verteilung wissenschaftlicher Software auf global verteilte Rechnerressourcen
  6. dCache: ein hochtransparentes, fehlertolerantes Datenmanagementsystem
  7. Verteilter Datenzugriff mit niedrigen Latenzzeiten mit xrootd
  8. Analyse großer Datenmengen des Experimentes ALICE vom LHC
  9. Ceph: ein durch Software definiertes Speichersystem
  10. Zuverlässigkeit langfristiger Speicherung
  11. Auswirkungen direkt adressierbarer Massenspeicher auf das Datenbankdesign
  12. In-Memory Datenbank: Hana
  13. MongoDB: dokumentenbasierte NoSQL Datenbanken
  14. Die Nutzung von BOINC für verteilte Systeme
  15. OpenStack Swift: objektbasierte Speichersysteme für unstrukturierte Daten in der Cloud

Bei Bedarf, können die Vorträge und Diskussionen auch in Englisch abgehalten werden.