Softwareentwicklung und Managed Hosting
ANEXIA
NOV.
21
2023

Videokonferenzen mithilfe Künstlicher Intelligenz zusammenfassen

Geschrieben am  21. November 2023 von Bianca Aldinger

In Zeiten von Corona haben Videokonferenzen einen wahrhaften Boom erlebt. Der Trend geht dahin, auch künftig verstärkt auf Online-Meetings zu setzen. Doch wie kann gewährleistet werden, dass abwesende Personen alle relevanten Informationen erhalten? Eine Möglichkeit wäre das Verfassen von Besprechungsnotizen. Diese könnten je nach Verfasser:in jedoch unvollständig ausfallen und relevante Informationen vergessen.

 

Eine sichere Methode wäre das Aufzeichnen einer Besprechung. Mittlerweile bieten viele Videokonferenz-Tools diese Funktion an, damit abwesende Teilnehmer:innen das verpasste Treffen nachträglich ansehen können. In der Praxis hat sich jedoch gezeigt, dass es sehr schwierig ist, ein aufgezeichnetes Treffen aktiv zu verfolgen.

 

Mithilfe Künstlicher Intelligenz ist es jedoch möglich, aufgezeichnete Konferenzen sinngemäß und kompakt zu kürzen. Harald Nezbeda, einer unserer Mitarbeiter hat im Rahmen des Universitätslehrgangs für Daten- und KI-Management an der Universität Klagenfurt versucht, ein solches System mithilfe von Open-Source-Komponenten für seine Abschlussarbeit aufzubauen.

Harald Nezbeda

Anwendung

Zur Spracherkennung wird Whisper von OpenAI verwendet. Dieses Tool muss jedoch an einigen Stellen ergänzt werden, um beispielsweise Sprecher zu identifizieren und Pausen in Gesprächen zu erkennen.

 

Der Prozess ist in unterschiedlichen Abschnitten aufgeteilt:

Prozess Videokonferenzen mit Künstlicher Intelligenz und OpenSource-Tools zusammenfassen.

    1. Audio aus Video extrahieren
      Aus einem Video wird eine Audiodatei extrahiert. Das Bildmaterial wird für die weitere Bearbeitung nicht mehr benötigt.
    2. Speaker Diarization
      In diesem Schritt werden alle Sprecher:innen im Video erkannt und mit dem Tool pyannote.audio wird ein RTTM-file erstellt.
    3. Audioteile von Sprecher:innen teilen
      Die generierte RTTM-Datei wird in diesem Schritt in unterschiedliche Audioblöcke unterteilt.
    4. Spracherkennung – ASR (Automatic Speech Recognition)
      Mit Whisper werden die Audioblöcke automatisch als Text erkannt, transkribiert und als TXT-Dateien abgelegt.
    5. Zusammenführung ASR und Speaker Diarization
      Die RTTM-Datei aus Schritt 2 und die TXT-Datei aus Schritt 4 werden mittels einer Python-Funktion zusammengeführt. Folgende Formate werden generiert:TXT-Format
      Der Text wird als Dialog dargestellt.

      {SPEAKER}: {ASR_TEXT}

      Hierbei steht SPEAKER für den in der RTTM-Datei definierten Sprecher und ASR_TEXT für den transkribierten Text.

      JSON-Format
      Die JSON-Ausgabe enthält mehr Details und kann später zur Fehlersuche verwendet werden. Das Schema sieht hier wie folgt aus:

      {
        "$schema": "https://json-schema.org/draft/2020-12/schema",
        "type": "array",
        "items": {
          "type": "object",
          "properties": {
            "start": {
              "type": "number"
            },
            "duration": {
              "type": "number"
            },
            "speaker": {
              "type": "string"
            },
            "text": {
              "type": "string"
            }
          },
          "required": [
            "start",
            "duration",
            "speaker",
            "text"
          ]
        }
      }
      
    6. Zusammenfassung
      Mittels dem BART-Modell werden das TXT und JSON-Format zusammengefasst und eine Zusammenfassung der gesamten Konversation erstellt. Es zeigt sich, dass der SAMSum Datensatz effizient für die Feinabstimmung von BART verwendet werden kann. Durch die vorhandenen Modelle und Daten ist die Zusammenfassung momentan nur auf Englisch möglich.

Fazit

Es lässt sich somit festhalten, dass Künstliche Intelligenz einen wesentlichen Beitrag zur Zusammenfassung von Videokonferenzen leisten kann. Mithilfe von ASR und Speaker Diarization ist es möglich, die Inhalte einer Videokonferenz in Textform darzustellen und mit dem BART-Modell auf eine kompakte und inhaltlich relevante Form zu kürzen.

Da die Arbeit vor geraumer Zeit verfasst wurde, ist es gut möglich, dass das oben beschriebene Modell, aufgrund von Änderungen der Open Source Anwendungen nicht mehr optimal funktioniert.

Das Projekt ist jedoch auf Github verfügbar und kann dort eingesehen werden.

 

 

Verwandte Themen

Was ist Künstliche Intelligenz →

Anexia Künstliche Intelligenz Entwicklung →

Anexia Machine Learning Entwicklung →

Machine Learning für Einsteiger →