Lernvideos als Wissensbasis für KI-Tutoren nutzen

Q: Was ist Video Understanding AI?

Video Understanding AI ist eine KI-Technologie, die nicht nur den gesprochenen Text eines Videos per Speech-to-Text erkennt, sondern auch den visuellen Inhalt, Szenen, Objekte und Zusammenhänge im Bildmaterial analysiert. Anbieter wie Twelve Labs entwickeln sogenannte Video Understanding Foundation Models, die Videos umfassend inhaltlich verstehen können.

Q: Wie kann ich Videos als Wissensbasis für einen KI-Tutor nutzen?

Mit Video Understanding AI (z. B. Twelve Labs) kann ein Video automatisch analysiert und in ein strukturiertes Skript mit Timestamps umgewandelt werden. Dieses Skript wird als PDF in die Wissensbasis eines KI-Tutors (z. B. Alphabees) importiert. Der KI-Tutor kann dann Fragen zu den Videoinhalten beantworten, ohne dass Lernende das gesamte Video ansehen müssen.

Q: Was ist RAG und warum ist es für KI-Tutoren relevant?

RAG steht für Retrieval Augmented Generation. Bei dieser Methode werden relevante Wissensinhalte aus einer Datenbank abgerufen und einem Sprachmodell als Kontext übergeben, bevor es eine Antwort generiert. Für KI-Tutoren bedeutet das: Das Modell antwortet nicht aus allgemeinem Trainingswissen, sondern auf Basis der eigenen Kursinhalte, Dokumente oder — durch diesen Workflow — auch Videos.

Q: Welcher Unterschied besteht zwischen Video Understanding AI und klassischer Transkription?

Klassische Transkription (Speech-to-Text) wandelt nur das gesprochene Audio in Text um. Video Understanding AI analysiert zusätzlich das Bildmaterial selbst: Szenen, dargestellte Objekte, visuelle Informationen und den Zusammenhang zwischen Bild und Ton. Dadurch ist das erzeugte Wissen deutlich präziser und vollständiger als eine reine Audiotranskription.

KI-Tutor, Video AI und RAG für E-Learning: Viele Bildungsanbieter haben in den letzten Jahren viel Zeit und Geld in Erklärvideos und Lernvideos investiert. Das Problem: Dieses Wissen steckt im Video fest. Mit Video Understanding AI lässt sich das ändern — und klassische Lernvideos werden zu einer durchsuchbaren, interaktiven Wissensbasis für KI-Tutoren.

Demo: Vollständiger Workflow von Twelve Labs bis zum Alphabees KI-Tutor

Das Problem mit klassischen Lernvideos

Viele Organisationen haben über Jahre hinweg umfangreiche Bibliotheken an Erklärvideos, Screencast-Tutorials und Lehraufzeichnungen aufgebaut. Das ist wertvolles Wissen — aber in einer Form, die für moderne KI-Systeme kaum nutzbar ist.

Videos sind meist eine Einbahnstraße. Das Wissen steckt im Video fest und lässt sich nur schwer durchsuchen oder in KI-Tutoren integrieren.

Die konkreten Einschränkungen klassischer Lernvideos:

Inhalte sind starr und schwer aktualisierbar
Das Wissen kann nicht durchsucht werden
Keine modulare Wiederverwendung für andere Lernmodule
Für KI-Tutoren und RAG-Systeme praktisch unzugänglich
Lernende müssen das gesamte Video linear konsumieren

Gerade wenn Bildungsanbieter KI-Lernbegleitsysteme einsetzen möchten, brauchen sie das Wissen in einer durchsuchbaren, strukturierten Form — nicht eingesperrt in einer Videodatei.

Was ist Video Understanding AI?

Video Understanding AI ist eine neue Klasse von KI-Modellen, die speziell für das inhaltliche Verstehen von Videos entwickelt wurden. Im Unterschied zur klassischen Transkription (die nur das Gesprochene in Text umwandelt) analysiert Video Understanding AI das Video in seiner Gesamtheit:

Gesprochener Text (Audio-Transkription)
Visueller Inhalt: Szenen, Objekte, Darstellungen
Zusammenhänge zwischen Bild und gesprochenem Inhalt
Zeitliche Struktur und Übergänge

Das Ergebnis ist ein deutlich reichhaltigeres Verständnis des Video-Inhalts als bei einer reinen Audio-Transkription.

Definition: Video Understanding Foundation Models sind vortrainierte KI-Modelle, die Videos semantisch verstehen — ähnlich wie Sprachmodelle (LLMs) Texte verstehen. Anbieter wie Twelve Labs haben sich auf diese Technologie spezialisiert.

Der Workflow: Schritt für Schritt

Hier ist der vollständige Workflow, um ein Lernvideo in eine KI-Tutor-Wissensbasis umzuwandeln — demonstriert am Beispiel eines Erklärvideo über die Entstehung von Fossilien.

Schritt 1: Lizenzfreies Video beschaffen

Nutze lizenzfreie Videoquellen oder eigene Produktionen. Für Tests eignen sich Plattformen wie Pexels, Pixabay oder Wikimedia Commons. Wichtig: Halte die Lizenzangaben bereit und nenne den Autor, falls erforderlich.

Schritt 2: Video bei Twelve Labs hochladen

Erstelle ein kostenloses Konto bei Twelve Labs und lade das Video in ein neues Projekt hoch. Twelve Labs verarbeitet das Video und baut intern einen semantischen Index auf — das dauert je nach Länge einige Sekunden bis Minuten.

Tipp

Twelve Labs bietet verschiedene Modelle an, u. a. Marengo für Such- und Abruf-Anwendungen und Pegasus für generative Aufgaben wie die Skript-Erstellung. Für unseren Workflow nutzen wir Pegasus.

Schritt 3: Vollständiges Skript mit Timestamps generieren

Nach der Verarbeitung können wir der KI direkt Aufgaben stellen. Für die Wissensbasis eines KI-Tutors bietet sich folgende Anfrage an:

„Erstelle ein vollständiges Skript des Videos mit allen relevanten Informationen und Zeitstempeln."

Twelve Labs liefert daraufhin ein strukturiertes, detailliertes Skript — nicht nur den gesprochenen Text, sondern ein inhaltlich vollständiges Dokument mit Kontext und Timestamps.

Schritt 4: Skript als PDF exportieren

Das generierte Skript wird kopiert und als PDF-Datei gespeichert. Dieses Dokument enthält nun das gesamte Wissen des Videos in strukturierter, maschinenlesbarer Form.

Schritt 5: In den Alphabees KI-Tutor importieren

Im Alphabees KI-Tutor Verwaltungsportal:

Neue Wissensbasis anlegen (z. B. „Fossilien — Lernvideo März 2026")
Neuen Ordner erstellen
Das PDF-Skript hochladen

Der KI-Tutor verarbeitet das Dokument automatisch und erstellt intern eine Vektordatenbank (RAG) auf Basis des Inhalts.

Schritt 6: KI-Tutor abfragen

Ab sofort kann der KI-Tutor Fragen zu diesem Video beantworten. Frage zum Beispiel: „Wie entstehen Fossilien?" — der Tutor antwortet präzise auf Basis des Videoinhalts, inklusive der relevanten Zeitstempel als Referenz.

Was ist RAG — und warum ist es entscheidend?

RAG (Retrieval Augmented Generation) ist die technische Grundlage dafür, dass ein KI-Tutor nicht aus allgemeinem Trainingswissen antwortet, sondern aus den eigenen Kursinhalten einer Bildungseinrichtung.

Der Prozess vereinfacht erklärt:

Die Frage des Lernenden wird in einen semantischen Suchvektor umgewandelt
Das System sucht in der Vektordatenbank nach relevanten Textpassagen
Die relevantesten Passagen werden als Kontext an das Sprachmodell übergeben
Das Sprachmodell formuliert eine präzise Antwort auf Basis dieser Quellen

Durch den Video-zu-Skript-Workflow werden Videoinhalte erstmals für RAG-Systeme zugänglich — ohne dass das Video selbst in Echtzeit analysiert werden muss.

Einsatzmöglichkeiten in der Praxis

Sobald ein Video als Wissensbasis importiert ist, eröffnen sich verschiedene Nutzungsszenarien für Bildungsanbieter:

Moodle-Integration: Der KI-Tutor wird direkt in einen Moodle-Kurs eingebettet. Lernende können Fragen zum Kursinhalt — einschließlich Video-Inhalte — stellen, ohne das Video vollständig anzusehen
Website-Integration: Ein KI-Tutor auf einer Kursseite beantwortet Fragen potenzieller Teilnehmer auf Basis der vorhandenen Lernmaterialien und Videos
On-Demand-Wissensabruf: Lernende suchen gezielt nach bestimmten Inhalten statt ein 45-Minuten-Video linear zu konsumieren
Übungsgenerierung: Der KI-Tutor erzeugt automatisch Übungsfragen auf Basis des Video-Skripts
Mehrsprachige Inhalte: Das Skript kann übersetzt werden, sodass Videos in mehreren Sprachen als Wissensbasis dienen

Video Understanding AI vs. klassische Transkription

Ein häufiger Einwand: „Ich könnte doch einfach ein Transkriptions-Tool wie Whisper nutzen."

Das stimmt — für rein audio-basierte Inhalte. Der entscheidende Unterschied liegt im visuellen Verständnis:

Klassische Transkription: Wandelt das gesprochene Audio in Text um. Was auf dem Bildschirm gezeigt wird, geht verloren
Video Understanding AI: Analysiert zusätzlich den visuellen Inhalt — Diagramme, Animationen, demonstrierte Prozesse, Bildunterschriften — und bezieht diese in das generierte Wissen ein

Bei Erklärvideos, Screencasts oder Präsentationsaufzeichnungen macht dieser Unterschied den entscheidenden qualitativen Sprung: Das Skript ist nicht nur eine Abschrift, sondern ein vollständiges inhaltliches Dokument.

Ausblick: Video-RAG direkt im Alphabees Portal

Der hier gezeigte Workflow funktioniert heute als manueller Prozess: Video analysieren → Skript exportieren → in die Wissensbasis hochladen. Das dauert wenige Minuten und ist für Einzelvideos gut handhabbar.

Langfristig ist eine direkte Integration in das Alphabees Portal geplant: Videos würden dann direkt hochgeladen oder per Link eingebunden, die Analyse läuft automatisch im Hintergrund, und das Wissen steht sofort in der Wissensbasis zur Verfügung.

Wenn Sie Videos direkt in Ihrem Alphabees Portal als Wissensbasis nutzen möchten, melden Sie sich gerne bei uns. Je nach Interesse beschleunigen wir die Entwicklung dieser Integration entsprechend.

Tools in diesem Workflow

Twelve Labs

Video Understanding Foundation Models — Semantische Videoanalyse und Skript-Generierung

Alphabees KI-Tutor

KI-Tutoren für Moodle und Bildungsplattformen — mit eigener RAG-Wissensbasis

Häufige Fragen (FAQ)

Was ist Video Understanding AI?

Video Understanding AI ist eine KI-Technologie, die Videos inhaltlich versteht — nicht nur das gesprochene Audio, sondern auch den visuellen Inhalt, Szenen und dargestellte Informationen. Anbieter wie Twelve Labs entwickeln sogenannte Video Understanding Foundation Models für diese Aufgabe.

Wie kann ich Videos als Wissensbasis für einen KI-Tutor nutzen?

Mit Video Understanding AI (z. B. Twelve Labs) wird ein Video automatisch analysiert und in ein strukturiertes Skript mit Timestamps umgewandelt. Dieses Skript wird als PDF in die Wissensbasis eines KI-Tutors (z. B. Alphabees) importiert. Der KI-Tutor beantwortet danach Fragen auf Basis des Videoinhalts.

Was ist RAG und warum ist es für KI-Tutoren relevant?

RAG (Retrieval Augmented Generation) ist die Methode, bei der relevante Wissensinhalte aus einer Datenbank abgerufen und einem Sprachmodell als Kontext übergeben werden. Für KI-Tutoren bedeutet das: Das Modell antwortet nicht aus allgemeinem Trainingswissen, sondern präzise auf Basis der eigenen Kursinhalte — inklusive der importierten Video-Skripte.

Welcher Unterschied besteht zwischen Video Understanding AI und klassischer Transkription?

Klassische Transkription wandelt nur das gesprochene Audio in Text um. Video Understanding AI analysiert zusätzlich das Bildmaterial selbst: Szenen, dargestellte Objekte und visuelle Informationen. Besonders bei Screencasts, Präsentationen und Lehrvideos mit visuellen Elementen ist dieser Unterschied entscheidend für die Qualität der Wissensbasis.

Lässt sich dieser Workflow direkt in Moodle nutzen?

Ja. Der Alphabees KI-Tutor kann direkt in Moodle integriert werden. Sobald ein Video als Skript-Wissensbasis importiert wurde, steht dieses Wissen im Moodle-Kurs über den KI-Tutor als interaktive Ressource zur Verfügung. Lernende können Fragen zu den Video-Inhalten stellen, ohne das Video linear konsumieren zu müssen.

Welche Videoformate werden unterstützt?

Twelve Labs unterstützt gängige Videoformate wie MP4, MOV, AVI und weitere. Die maximale Videolänge und Dateigröße hängen vom gewählten Preisplan ab. Für die meisten Erklärvideos und Lehraufzeichnungen gelten keine praktischen Einschränkungen.

Möchten Sie Ihre bestehenden Lernvideos in eine KI-Tutor-Wissensbasis umwandeln? Testen Sie den Alphabees KI-Tutor kostenlos und erleben Sie, wie Ihre Videobibliothek interaktiv wird.

Für eine direkte Video-RAG-Integration ohne manuellen Workflow-Schritt sprechen Sie uns an — wir entwickeln diese Funktion für interessierte Partner weiter.

KI-Tutor kostenlos testen Alle Funktionen entdecken

Lernvideos als Wissensbasis für KI-Tutoren nutzen

Das Problem mit klassischen Lernvideos

Was ist Video Understanding AI?

Der Workflow: Schritt für Schritt

Schritt 1: Lizenzfreies Video beschaffen

Schritt 2: Video bei Twelve Labs hochladen

Schritt 3: Vollständiges Skript mit Timestamps generieren

Schritt 4: Skript als PDF exportieren

Schritt 5: In den Alphabees KI-Tutor importieren

Schritt 6: KI-Tutor abfragen

Was ist RAG — und warum ist es entscheidend?

Einsatzmöglichkeiten in der Praxis

Video Understanding AI vs. klassische Transkription

Ausblick: Video-RAG direkt im Alphabees Portal

Tools in diesem Workflow

Häufige Fragen (FAQ)

Was ist Video Understanding AI?

Wie kann ich Videos als Wissensbasis für einen KI-Tutor nutzen?

Was ist RAG und warum ist es für KI-Tutoren relevant?

Welcher Unterschied besteht zwischen Video Understanding AI und klassischer Transkription?

Lässt sich dieser Workflow direkt in Moodle nutzen?

Welche Videoformate werden unterstützt?

Fast geschafft!