KIT - SCC - Study - Courses

Big Data Tools

type: Seminar (S)
semester: WS 16/17
place:
Gebäude 20.21 (SCC-Süd), Raum 314
time: Montag, 15:45-17:15
start: 24.10.2016
lecturer: Ugur Cayoglu
Prof. Dr. Achim Streit
sws: 2
lv-no.: 2400031
information:
Anmeldung und Themenvergabe im ersten Termin am 17.10.2016 - nicht 24.10.2016 wie ursprünglich angekündigt !

links

Bemerkungen

Zu Beginn der Veranstaltung (d.h. im ersten Termin am 17.10.2016 - nicht 24.10.2016 wie ursprünglich angekündigt) werden die Themen vergeben. Eine vorherige Themenreservierung ist nicht möglich.

Beschreibung

Alle reden von „Big Data“. Tatsächlich könnte das explosionsartige Wachstum großer Datenmengen das nächste große Phänomen seit der Erfindung des Internets sein. In der heutigen Zeit kann jeder von überall auf Informationen zugreifen und diese verarbeiten. Dabei produziert jeder von uns zusätzlich eine Vielzahl digitaler Daten wie Videos, Audio, Fotos, etc. Alleine auf YouTube werden jede Minute ca. 48 Stunden Videomaterial hochgeladen. Auch als Nutzer dieser digitalen Produkte stellen wir erhebliche Anforderungen an diese Plattformen: Wir setzen die Verfügbarkeit der Daten, schnelle und effiziente Analysen sowie eine schnelle Suche in großen Datenmengen voraus.

Der Begriff Big Data wird dabei durch die sogenannten fünf „V“s geprägt. Jedes dieser „V“s drückt einen entscheidenden Aspekt großer Datenmengen aus, welche die heutige Infrastruktur an ihre Grenzen bringt:

Volume: Das Speichern, Verteilen und Analysieren von Petabyte- oder sogar Zettabyteweise Daten
Variety: Das Verarbeiten einer Vielzahl unstrukturierter Daten unterschiedlichster Datenformate
Velocity: Der dramatische Anstieg der erzeugten Datenmenge
Veracity: Das Verarbeiten unbestimmter oder unpräziser Daten, z. B. Daten sozialer Medien
Value: Auch kleine Datenbestände können wertvoll sein und müssen z.B. archiviert werden, weil sie ggf. einmalig sind

Die Herausforderungen, welche im Umfeld von Big Data entstehen, bieten die besten Möglichkeiten für Einzelpersonen, Forschungseinrichtungen sowie Unternehmen der Technologiebranche, sich zu engagieren, Lösungen zu entwickeln und die Welt zu verändern.

Im Seminar „Big Data Tools“ werden effiziente Methoden und Werkzeuge vorgestellt und diskutiert, die für den Umgang mit großen Datenmengen notwendig sind. Zu diesen gehören voraussichtlich:

Moderne In-Memory Technologien für Big Data Analysen
CernVM-FS: Verteilung wissenschaftlicher Software auf global verteilte Rechnerressourcen
Analyse von Big Data Streams: Apache Flume, Hadoop und HDFS
MapReduce: Programmiermodell für die Datenverarbeitung in großen Clustern
Docker und Linux Container: Virtualisierung 2.0?
Dspace: Erfassung, Speicherung und Weiterverbreitung von digitalen Ressourcen
Selbst-verschlüsselnde Festplatten
Datenspeicherintegrität
MongoDB: dokumentenbasierte NoSQL Datenbanken
Verteilte Dateisysteme für Big Data Applikationen
Eine Rahmenstruktur für die Big Data Analyse auf verteilten Systemen
Handhabung der Big Data Anforderungen mit Open Source Programmen
Envelope-basierte Autorisierung von Datenzugriffen in XRootD
Optimierte Datenstrukturen für die platzsparende Hinterlegung von großen Datenmengen

Bei Bedarf, können die Vorträge und Diskussionen auch in Englisch abgehalten werden.

Die endgültige Themenliste wird zu Beginn des Seminars vorgestellt.