Das KI-basierte
Transkriptionstool
„Mittweida Scripter“
Kostenlos, datenschutzkonform und leistungsstarkIn der Vergangenheit war die Durchführung qualitativer Forschung meistens mit dem zeitaufwendigen manuellen Prozess der Transkription von Interviews verbunden. Mittlerweile erleichtern uns spezialisierte Softwarelösungen diese Arbeit erheblich. Ein kritischer Punkt bleibt allerdings: Nicht jede Softwarelösung ist bedenkenlos nutzbar, insbesondere bei der Arbeit mit sensiblen Daten. Dieses Problem betraf auch Kolleginnen und Kollegen an der Hochschule Mittweida. Trotz der Vielfalt an Transkriptionssoftwareanbietern auf dem Markt, erfüllen viele nicht die Datenschutzvorgaben der Europäischen Union und sind somit keine Option. Die Alternativen, die diese Kriterien erfüllen, sind oftmals unerschwinglich teuer.
So entstand die Idee, eine eigene Transkriptionssoftware zu entwickeln, die nicht nur eine zuverlässige und schnelle Transkription ermöglicht, sondern auch auf den Hochschulservern läuft, um höchste Datenschutzstandards zu gewährleisten. Aus diesem Ansatz entstand das Transkriptionstool "Mittweida Scripter". In meinem Beitrag möchte ich den Entwicklungsprozess, die Funktionsweise, technische Einzelheiten und einen Ausblick auf zukünftige Entwicklungen dieses Tools vorstellen. Viel Spaß beim Lesen!
Entwicklungsprozess
Das NextGen Team benötigte ein Transkriptionstool, das den Datenschutzvorschriften entspricht. Aufgrund meiner Erfahrung mit digitalen Lösungen wurde ich mit der Aufgabe betraut. Zu Beginn des Entwicklungsprozesses stand ich also vor einer Herausforderung, die sich zwar einfach formulieren ließ, in der Praxis jedoch recht komplex war.
Eine Anschaffung entsprechender Software war organisatorisch auf kurze Sicht nicht machbar. Zudem entsprachen viele am Markt verfügbare Lösungen nicht unseren Datenschutzanforderungen. Nach einer Recherche stieß Franziska Stauche, eine Kollegin vom Projekt FioKo, auf NoScribe, eine Open-Source-Lösung, die sich lokal installieren lässt und mittels Open-Source-KI-Technologien Audiodateien vollständig offline und in hoher Qualität transkribiert.
Trotz der vielversprechenden Eigenschaften von NoScribe ergab sich eine Herausforderung: Für die Transkription einer einstündigen Audiodatei musste der Prozess typischerweise abends gestartet werden, sodass der Computer über Nacht arbeiten konnte, mit der Hoffnung, dass die Transkription bis zum nächsten Morgen abgeschlossen sei. Diese Lösung war stark abhängig von den Leistungsspezifikationen des verwendeten Computers, was sie für eine effiziente und ununterbrochene Nutzung ebenfalls weniger geeignet machte.
GitHub-Seite von noScribe.
GitHub ist eine Onlineplattform für Softwareentwicklung und Versionsverwaltung.
Bei der Untersuchung von NoScribe ergab sich, dass es auf dem Open-Source-Transkriptionsmodell Whisper von OpenAI basiert. "Open-Source" bedeutet, dass dieses bereits vortrainierte Modell von OpenAI allgemein zugänglich ist, sodass jeder es herunterladen und für eigene Projekte verwenden kann. Die einzigen Voraussetzungen waren Programmierkenntnisse in Python, Erfahrung im Umgang mit Servern sowie die notwendige Hardware, um das Programm an der Hochschule betreiben zu können.
Dank meiner Vorkenntnisse in Python konnte ich relativ schnell einen ersten Entwurf des Programms erstellen. Dieser Entwurf umfasste ein Transkriptionsprogramm, das auf Whisper basierte und Audio- sowie Videodateien sequenziell transkribierte. Zudem entwickelte ich auf Basis von Streamlit eine einfache Web-Oberfläche für den Datei-Upload.
Whisper
Streamlit
Anwendungsfälle und Vorteile
Vorteile
Maximaler Datenschutz
Einfache Handhabung und schnelle Ergebnisse
Hohe Leistungsfähigkeit
Umfassende Sprachunterstützung
Schlussfolgerung und Ausblick
Die erfolgreiche Umsetzung dieses Projekts innerhalb weniger Monate verdeutlicht, wie effizient man heute mit Open-Source-Lösungen komplexe Vorhaben zügig und problemlos umsetzen kann. Eine wesentliche Voraussetzung dafür sind digitale Kompetenzen, die es ermöglichen, solche Projekte eigenständig und ohne die Abhängigkeit von externen Dienstleistern zu entwickeln. Aus diesem Grund promoviere ich derzeit im Bereich der Entwicklung digitaler Kompetenzen von Studierenden. Ich bin davon überzeugt, dass es entscheidend ist, unsere Studierenden mit solchen "Zukunftskompetenzen" auszurüsten, um ihnen einen reibungslosen und erfolgreichen Berufseinstieg zu ermöglichen. Auf diese Weise können wir als Hochschule einen bedeutenden Beitrag zur Bereitstellung von hochqualifizierten und interdisziplinär geschulten Fachkräften für die Wirtschaft leisten.
Bezüglich der weiteren Entwicklung des Transkriptionstools bin ich derzeit auf der Suche nach einer langfristigen Unterbringungsmöglichkeit auf einem Hochschulserver, da es momentan noch auf einem Server läuft, der eigentlich für ein anderes Projekt vorgesehen war.
Des Weiteren plane ich, das Tool kontinuierlich zu verbessern, sei es durch Leistungsoptimierungen oder das Hinzufügen neuer Funktionen. Die Weiterentwicklung solcher Kreationen, wie dieses Transkriptionsprogramms, ist immer besonders interessant und spannend – es ähnelt dem Bauen mit Lego, bei dem man durch das Ergänzen neuer Details immer wieder neue, interessantere Ergebnisse erzielt.
Technische Details und Ressourcen
In naher Zukunft ist geplant, das Git-Repository des Mittweida Scripters öffentlich zugänglich zu machen. Dadurch können Interessierte den Programmcode einsehen oder das Tool auf eigenen Servern installieren, insbesondere wenn sie von anderen Hochschulen stammen. Hier eine kurze Übersicht der wichtigsten verwendeten Softwarepakete und technischen Details:
Kommentare 5
Liebe Kolleg:innen, es wäre großartig, wenn ihr Mittweida Scripter frei zugänglich bei github veröffentlichen würdet, damit auch andere Studierende / Wissenschaftler:innen eure Entwicklung nutzen könntet! Viele Grüße, Klaus
Hallo Klaus,
vielen Dank für Ihren Kommentar und Ihr Interesse am Mittweida Scripter. Aktuell befindet sich das Projekt auf einer internen GitLab-Instanz. Ich plane, den Code in Kürze anzupassen, um ihn auch für externe Nutzer:innen zugänglich zu machen. Anschließend werde ich ihn auf GitHub veröffentlichen. Den entsprechenden GitHub-Link werde ich Ihnen bis spätestens Ende der nächsten Woche hier in den Kommentaren mitteilen 😊
Mit freundlichen Grüßen
Bilyal Khassenov
Hallo Bilyal,
dass ist ja wirklich großartig! Vielen Dank und viele Grüße, Klaus
Hallo Klaus,
vielen Dank nochmals für Ihr Interesse am Mittweida Scripter. Leider hat sich die Veröffentlichung auf GitHub verzögert, da ich das Projekt noch einmal zusammen mit unserer IT-Abteilung durchsehen muss, um sicherzustellen, dass alle Sicherheitsanforderungen erfüllt sind.
Ich plane, das Projekt in den nächsten drei oder vier Wochen definitiv zu veröffentlichen und werde Sie dann natürlich sofort hier in der Kommentarsektion und auch per E-Mail informieren. Vielen Dank für Ihr Verständnis und Ihre Geduld! 😊
Mit besten Grüßen und ein schönes Wochenende noch
Bilyal
Hallo Bilyal, wird es eigentlich eine docker-Architektur? Viele Grüße, Klaus