-
Transcribe AI - Transkription von Audio- und Videoaufzeichnungen
-
Der Service generiert Mitschriften aus Audio- oder Videodateien und liefert Dateien mit gesprochenem Text und Untertiteln. Die Transkription erfolgt auf KIT eigener Hardware und verlässt das KIT nicht.
Eine Übersetzung kann angefordert werden, diese erfolgt über den EU-Dienst eTranslation.
Transcribe AI steht allen Beschäftigten, sowie Gästen- und Partnern am KIT zur Verfügung.
- Kontakt:servicedesk@scc.kit.edu
- Links:
Allgemeines
Mit dem Transcribe-AI Service ist es möglich, das gesprochenen Wort aus einer Audio- oder Videodatei in Text zu wandeln. Die Aufzeichnung kann entweder hochgeladen oder mit dem Link zur Datei angegeben werden.
Das Ergebnis der Transkription wird als Textdatei zum Herunterladen bereitgestellt. Zusätzlich gibt es eine Untertitelung, d.h. die Ausgabe erfolgt in einem weiteren, speziellen Dateiformat (WebVTT), das die Untertitelung von Videos unterstützt. Hilfreich für ein gutes Transkriptionsergebnis ist die passende Angabe der Quellsprache.
Des weiteren kann eine Übersetzung angefordert werden. Dazu wird der Text über eine API-Schnittstelle an den EU-Dienst eTranslation weitergegeben und übersetzt. Die Zielsprachen müssen beim Start der Transkription angegeben werden. Für sehr kritische Inhalte, die das KIT nicht „verlassen“ dürfen, sollte auf die Übersetzung verzichtet werden.
Die Transkription erfolgt auf eigener Hardware innerhalb des KIT. Die Abarbeitung der hochgeladenen Dateien erfolgt nach Auftragseingang und kann je nach Auslastung einige Zeit dauern.
Dieser Dienst stellt keine Archivierungs- oder Backupfunktion für Audio- und Videodateien oder deren Ergebnisse bereit.
Die Ergebnisse, Transkriptionen & Untertitel-Dateien, stehen 7 Tage zum Download bereit und werden anschließend gelöscht.
Leistungen
Transcribe AI arbeitet mit OpenAI Whisper auf Inhouse Hardware und nutzt das Whisper Sprachmodell zur Textumwandlung. Die Übersetzung erfolgt unter Nutzung des EU Dienstes eTranslation, der außerhalb des KIT von der EU betrieben wird.
Da im Hintergrund das Tool FFMPEG zur Konvertierung von Audio- und Videodateien eingesetzt wird, werden zahlreiche Formate unterstützt, z.B. die gängigen Audioformate: MP3, OGG, WAV, AAC, M4A, OPUS oder die Videoformate: MP4, MPEG, MOV, AVI u.v.m.
Beachten Sie, dass bei der Angabe eines Links (URL) auf eine Datei keine Authentifizierung/Login durchgeführt werden kann. Somit können nur Aufzeichnungen per URL genutzt werden, deren Dateidownload ohne Authentifizierung möglich ist.
Verwendung der Untertitel
Viele Videoplayer unterstützen das VTT-Format und erlauben damit eine Untertitelung des Videos. Beispielsweise kann im VLC Media Player über den Menüpunkt „Untertitel“ -> „Untertitel hinzufügen“ die VTT Datei ausgewählt werden
Auch die Einbettung in HTML ist möglich:
Voraussetzungen und Einschränkungen
Das Erstellen von Transkriptionen ist nur für KIT-Mitarbeitende und Personen mit GuP-Konto möglich.
Der Zugang zu Transcribe AI ist nur aus dem KIT Netz möglich, für Remote-Zugriff ist eine VPN-Verbindung erforderlich.
In seltenen Fällen kann es zu "Halluzinationen" kommen. Dabei erfindet Whisper Text an Stellen, wo teilweise gar nichts gesprochen wurde oder „erkennt“ dort falschen Text. Bitte überprüfen Sie entsprechend das Transkriptionsergebnis auf Korrektheit.
Auf das Ergebnis der Übersetzung haben wir keinen Einfluss. Aus Datenschutzgründen werden hier die Texte an den EU GOV Dienst eTranslation weitergeben.