In Zeiten von Corona haben Videokonferenzen einen wahrhaften Boom erlebt. Der Trend geht dahin, auch künftig verstärkt auf Online-Meetings zu setzen. Doch wie kann gewährleistet werden, dass abwesende Personen alle relevanten Informationen erhalten? Eine Möglichkeit wäre das Verfassen von Besprechungsnotizen. Diese könnten je nach Verfasser:in jedoch unvollständig ausfallen und relevante Informationen vergessen.
Eine sichere Methode wäre das Aufzeichnen einer Besprechung. Mittlerweile bieten viele Videokonferenz-Tools diese Funktion an, damit abwesende Teilnehmer:innen das verpasste Treffen nachträglich ansehen können. In der Praxis hat sich jedoch gezeigt, dass es sehr schwierig ist, ein aufgezeichnetes Treffen aktiv zu verfolgen.
Mithilfe Künstlicher Intelligenz ist es jedoch möglich, aufgezeichnete Konferenzen sinngemäß und kompakt zu kürzen. Harald Nezbeda, einer unserer Mitarbeiter hat im Rahmen des Universitätslehrgangs für Daten- und KI-Management an der Universität Klagenfurt versucht, ein solches System mithilfe von Open-Source-Komponenten für seine Abschlussarbeit aufzubauen.
Zur Spracherkennung wird Whisper von OpenAI verwendet. Dieses Tool muss jedoch an einigen Stellen ergänzt werden, um beispielsweise Sprecher zu identifizieren und Pausen in Gesprächen zu erkennen.
Der Prozess ist in unterschiedlichen Abschnitten aufgeteilt:
{SPEAKER}: {ASR_TEXT}
Hierbei steht SPEAKER für den in der RTTM-Datei definierten Sprecher und ASR_TEXT für den transkribierten Text.
JSON-Format
Die JSON-Ausgabe enthält mehr Details und kann später zur Fehlersuche verwendet werden. Das Schema sieht hier wie folgt aus:
{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "array", "items": { "type": "object", "properties": { "start": { "type": "number" }, "duration": { "type": "number" }, "speaker": { "type": "string" }, "text": { "type": "string" } }, "required": [ "start", "duration", "speaker", "text" ] } }
Es lässt sich somit festhalten, dass Künstliche Intelligenz einen wesentlichen Beitrag zur Zusammenfassung von Videokonferenzen leisten kann. Mithilfe von ASR und Speaker Diarization ist es möglich, die Inhalte einer Videokonferenz in Textform darzustellen und mit dem BART-Modell auf eine kompakte und inhaltlich relevante Form zu kürzen.
Da die Arbeit vor geraumer Zeit verfasst wurde, ist es gut möglich, dass das oben beschriebene Modell, aufgrund von Änderungen der Open Source Anwendungen nicht mehr optimal funktioniert.
Das Projekt ist jedoch auf Github verfügbar und kann dort eingesehen werden.
Was ist Künstliche Intelligenz →
Anexia Künstliche Intelligenz Entwicklung →