Forschung / Transfer

Das KI-basierte
Transkriptionstool
„Mittweida Scripter“

Bilyal KhassenovForschung / Transfer Leave a Comment

Das KI-basierte
Transkriptionstool
„Mittweida Scripter“

Kostenlos, datenschutzkonform und leistungsstark
Image
,
15. Mai 2024

In der Vergangenheit war die Durchführung qualitativer Forschung meistens mit dem zeitaufwendigen manuellen Prozess der Transkription von Interviews verbunden. Mittlerweile erleichtern uns spezialisierte Softwarelösungen diese Arbeit erheblich. Ein kritischer Punkt bleibt allerdings: Nicht jede Softwarelösung ist bedenkenlos nutzbar, insbesondere bei der Arbeit mit sensiblen Daten. Dieses Problem betraf auch Kolleginnen und Kollegen an der Hochschule Mittweida. Trotz der Vielfalt an Transkriptionssoftwareanbietern auf dem Markt, erfüllen viele nicht die Datenschutzvorgaben der Europäischen Union und sind somit keine Option. Die Alternativen, die diese Kriterien erfüllen, sind oftmals unerschwinglich teuer.

So entstand die Idee, eine eigene Transkriptionssoftware zu entwickeln, die nicht nur eine zuverlässige und schnelle Transkription ermöglicht, sondern auch auf den Hochschulservern läuft, um höchste Datenschutzstandards zu gewährleisten. Aus diesem Ansatz entstand das Transkriptionstool "Mittweida Scripter". In meinem Beitrag möchte ich den Entwicklungsprozess, die Funktionsweise, technische Einzelheiten und einen Ausblick auf zukünftige Entwicklungen dieses Tools vorstellen. Viel Spaß beim Lesen!

Entwicklungsprozess

Anwendungsfälle und Vorteile

Schlussfolgerung und Ausblick

Image
Entdecken Sie die Webseite des Mittweida Scripters unter: https://mws.hs-mittweida.de/. Geben Sie beim ersten Besuch die vollständige Adresse inklusive "https://" in die Adressleiste ein. Bei zukünftigen Besuchen können Sie einfach "mws.hs-mittweida.de" eingeben, da Ihr Browser die vollständige Adresse nach dem ersten Besuch speichern wird.

Entwicklungsprozess

Das NextGen Team benötigte ein Transkriptionstool, das den Datenschutzvorschriften entspricht. Aufgrund meiner Erfahrung mit digitalen Lösungen wurde ich mit der Aufgabe betraut. Zu Beginn des Entwicklungsprozesses stand ich also vor einer Herausforderung, die sich zwar einfach formulieren ließ, in der Praxis jedoch recht komplex war.

Eine Anschaffung entsprechender Software war organisatorisch auf kurze Sicht nicht machbar. Zudem entsprachen viele am Markt verfügbare Lösungen nicht unseren Datenschutzanforderungen. Nach einer Recherche stieß Franziska Stauche, eine Kollegin vom Projekt FioKo, auf NoScribe, eine Open-Source-Lösung, die sich lokal installieren lässt und mittels Open-Source-KI-Technologien Audiodateien vollständig offline und in hoher Qualität transkribiert.

Trotz der vielversprechenden Eigenschaften von NoScribe ergab sich eine Herausforderung: Für die Transkription einer einstündigen Audiodatei musste der Prozess typischerweise abends gestartet werden, sodass der Computer über Nacht arbeiten konnte, mit der Hoffnung, dass die Transkription bis zum nächsten Morgen abgeschlossen sei. Diese Lösung war stark abhängig von den Leistungsspezifikationen des verwendeten Computers, was sie für eine effiziente und ununterbrochene Nutzung ebenfalls weniger geeignet machte.

Image

GitHub-Seite von noScribe. 
GitHub ist eine Onlineplattform für Softwareentwicklung und Versionsverwaltung.

Bei der Untersuchung von NoScribe ergab sich, dass es auf dem Open-Source-Transkriptionsmodell Whisper von OpenAI basiert. "Open-Source" bedeutet, dass dieses bereits vortrainierte Modell von OpenAI allgemein zugänglich ist, sodass jeder es herunterladen und für eigene Projekte verwenden kann. Die einzigen Voraussetzungen waren Programmierkenntnisse in Python, Erfahrung im Umgang mit Servern sowie die notwendige Hardware, um das Programm an der Hochschule betreiben zu können.

Dank meiner Vorkenntnisse in Python konnte ich relativ schnell einen ersten Entwurf des Programms erstellen. Dieser Entwurf umfasste ein Transkriptionsprogramm, das auf Whisper basierte und Audio- sowie Videodateien sequenziell transkribierte. Zudem entwickelte ich auf Basis von Streamlit eine einfache Web-Oberfläche für den Datei-Upload.

Whisper

ist ein vielseitiges Spracherkennungsmodell, das auf einem umfangreichen Datensatz diverser Audiomaterialien trainiert wurde. Es ist in der Lage, Audiodateien in mehr als 50 Sprachen zuverlässig und mit hoher Qualität zu transkribieren.

Streamlit

ist ein Open-Source-Framework für Python, das es ermöglicht, interaktive Apps und Websites innerhalb von Minuten zu erstellen.
Die größere Herausforderung stellte die Serververwaltung dar. Hier benötigte ich Unterstützung, die man an unserer Hochschule glücklicherweise schnell findet. Ich bat meinen Kollegen Marcel Gansera, Systemadministrator der Fakultät Angewandte Computer‐ und Biowissenschaften der Hochschule Mittweida, um Hilfe, um die erste Version des Programms sowie der Webseite auf einem der Hochschulserver zu installieren. Dank Marcel erhielt ich auch eine schnelle Einführung in die Verwaltung von Linux-Servern mittels des Programms PuTTY.
Image
Überwachung der Serverauslastung während der Transkription mittels des 'htop'-Befehls in PuTTY
Nach einem erfolgreichen Proof of Concept führte ich Optimierungen am Transkriptionsmodell durch, um Multiprocessing zu ermöglichen. Dadurch war das Transkriptionstool in der Lage, mehrere Daemon-Transkriptionsprozesse gleichzeitig zu starten, sodass die hochgeladenen Dateien parallel im Hintergrund verarbeitet werden konnten. Die Weiterentwicklung des Tools wurde durch ein von Marcel Gansera auf dem hochschulinternen Git eingerichtetes und vorbereitetes Git-Repository ermöglicht, das ortsunabhängiges und flexibles Arbeiten erlaubte. Dies trug wesentlich zum Erfolg des Projekts bei.

Anwendungsfälle und Vorteile

Der Mittweida Scripter ermöglicht die Transkription von Audio- und Videodateien aller Art. Er eignet sich hervorragend für die Transkription von persönlichen Audionotizen, aufgezeichneten Dialogen sowie Interviews mit mehreren Beteiligten und zeichnet sich durch Schnelligkeit und hohe Qualität aus.
Image
Dieses Bild zeigt ein Beispiel einer abgeschlossenen Transkription eines Filmausschnitts aus „The Shawshank Redemption“. Wie deutlich wird, stößt das Transkriptionstool bei der Erkennung von Orts- und Eigennamen (Zihuatanejo als Zuatun erkannt) auf Schwierigkeiten. Abgesehen davon ist die Qualität der Transkription jedoch sehr gut.
Dank der Integration des PyAnnote-Packages ermöglicht das Tool nicht nur die Texttranskription der hochgeladenen Dateien, sondern ordnet auch Sprecherinnen und Sprecher den entsprechenden Textpassagen zu. Zudem ist es möglich, Videodateien direkt zu transkribieren, ohne sie vorher in ein Audioformat umwandeln zu müssen – Nutzer:innen laden einfach ihre Datei hoch, und das Tool übernimmt die gesamte Verarbeitung.

Vorteile

Maximaler Datenschutz

Das Transkriptionstool ist speziell so konzipiert, dass es höchste Sicherheit der Daten gewährleistet. Unmittelbar nach Fertigstellung der Transkription werden alle hochgeladenen und verarbeiteten Daten – einschließlich Audio- bzw. Videodateien sowie die daraus generierten Word-Dokumente mit Transkriptionsergebnissen – vollständig gelöscht.

Einfache Handhabung und schnelle Ergebnisse

Anwender:innen müssen lediglich ihre Datei hochladen. Nach der Transkription erhalten sie die Ergebnisse per E-Mail. Dies erspart mühsames Warten und ermöglicht, dass der Computer in der Zwischenzeit für andere Aktivitäten frei bleibt.

Hohe Leistungsfähigkeit

Das Tool ist auf einem hochleistungsfähigen Server installiert, was eine schnelle Verarbeitung ermöglicht. Eine einstündige Aufnahme wird durchschnittlich in nur 20 Minuten transkribiert.

Umfassende Sprachunterstützung

Mit dem Einsatz des Whisper-Transkriptionsmodells ist es möglich, Inhalte in mehr als 50 Sprachen zu transkribieren. Obwohl die Transkriptionsqualität je nach Sprache variieren kann, wird generell ein sehr hohes Qualitätsniveau erreicht.
Whisper ist in der Lage, Dateien in einer Vielzahl von Sprachen zu transkribieren, darunter: Afrikaans, Arabisch, Armenisch, Aserbaidschanisch, Bosnisch, Bulgarisch, Chinesisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Galizisch, Griechisch, Hebräisch, Hindi, Indonesisch, Isländisch, Italienisch, Japanisch, Kannada, Kasachisch, Katalanisch, Koreanisch, Kroatisch, Lettisch, Litauisch, Malaiisch, Maori, Marathi, Mazedonisch, Nepali, Niederländisch, Norwegisch, Persisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Schwedisch, Serbisch, Slowakisch, Slowenisch, Spanisch, Suaheli, Tagalog, Tamil, Thailändisch, Tschechisch, Türkisch, Ukrainisch, Ungarisch, Urdu, Vietnamesisch, Walisisch und Weißrussisch

Schlussfolgerung und Ausblick

Die erfolgreiche Umsetzung dieses Projekts innerhalb weniger Monate verdeutlicht, wie effizient man heute mit Open-Source-Lösungen komplexe Vorhaben zügig und problemlos umsetzen kann. Eine wesentliche Voraussetzung dafür sind digitale Kompetenzen, die es ermöglichen, solche Projekte eigenständig und ohne die Abhängigkeit von externen Dienstleistern zu entwickeln. Aus diesem Grund promoviere ich derzeit im Bereich der Entwicklung digitaler Kompetenzen von Studierenden. Ich bin davon überzeugt, dass es entscheidend ist, unsere Studierenden mit solchen "Zukunftskompetenzen" auszurüsten, um ihnen einen reibungslosen und erfolgreichen Berufseinstieg zu ermöglichen. Auf diese Weise können wir als Hochschule einen bedeutenden Beitrag zur Bereitstellung von hochqualifizierten und interdisziplinär geschulten Fachkräften für die Wirtschaft leisten.

Bezüglich der weiteren Entwicklung des Transkriptionstools bin ich derzeit auf der Suche nach einer langfristigen Unterbringungsmöglichkeit auf einem Hochschulserver, da es momentan noch auf einem Server läuft, der eigentlich für ein anderes Projekt vorgesehen war.

Des Weiteren plane ich, das Tool kontinuierlich zu verbessern, sei es durch Leistungsoptimierungen oder das Hinzufügen neuer Funktionen. Die Weiterentwicklung solcher Kreationen, wie dieses Transkriptionsprogramms, ist immer besonders interessant und spannend – es ähnelt dem Bauen mit Lego, bei dem man durch das Ergänzen neuer Details immer wieder neue, interessantere Ergebnisse erzielt.

Technische Details und Ressourcen

In naher Zukunft ist geplant, das Git-Repository des Mittweida Scripters öffentlich zugänglich zu machen. Dadurch können Interessierte den Programmcode einsehen oder das Tool auf eigenen Servern installieren, insbesondere wenn sie von anderen Hochschulen stammen. Hier eine kurze Übersicht der wichtigsten verwendeten Softwarepakete und technischen Details:

  • Wichtige in Python genutzte Pakete:
    • Für die Webseite: Streamlit, Pandas
    • Für das Transkriptionsprogramm: Whisper, Torch, PyAnnote, Docx, Pandas
    • Für die Konvertierung von Videodateien zu mp3: ffmpeg
  • Entwicklungsumgebung: Visual Studio Code
  • Versionsverwaltung: Git
  • Serververwaltung: PuTTY
Image
Eine leistungsfähige Entwicklungsumgebung ist ausschlaggebend für den Erfolg solcher Projekte. Aus diesem Grund habe ich für die Entwicklung des Mittweida Scripters Visual Studio Code verwendet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert