KI-Tutor, Video AI und RAG für E-Learning: Viele Bildungsanbieter haben in den letzten Jahren viel Zeit und Geld in Erklärvideos und Lernvideos investiert. Das Problem: Dieses Wissen steckt im Video fest. Mit Video Understanding AI lässt sich das ändern — und klassische Lernvideos werden zu einer durchsuchbaren, interaktiven Wissensbasis für KI-Tutoren.
Demo: Vollständiger Workflow von Twelve Labs bis zum Alphabees KI-Tutor
Das Problem mit klassischen Lernvideos
Viele Organisationen haben über Jahre hinweg umfangreiche Bibliotheken an Erklärvideos, Screencast-Tutorials und Lehraufzeichnungen aufgebaut. Das ist wertvolles Wissen — aber in einer Form, die für moderne KI-Systeme kaum nutzbar ist.
Videos sind meist eine Einbahnstraße. Das Wissen steckt im Video fest und lässt sich nur schwer durchsuchen oder in KI-Tutoren integrieren.
Die konkreten Einschränkungen klassischer Lernvideos:
- Inhalte sind starr und schwer aktualisierbar
- Das Wissen kann nicht durchsucht werden
- Keine modulare Wiederverwendung für andere Lernmodule
- Für KI-Tutoren und RAG-Systeme praktisch unzugänglich
- Lernende müssen das gesamte Video linear konsumieren
Gerade wenn Bildungsanbieter KI-Lernbegleitsysteme einsetzen möchten, brauchen sie das Wissen in einer durchsuchbaren, strukturierten Form — nicht eingesperrt in einer Videodatei.
Was ist Video Understanding AI?
Video Understanding AI ist eine neue Klasse von KI-Modellen, die speziell für das inhaltliche Verstehen von Videos entwickelt wurden. Im Unterschied zur klassischen Transkription (die nur das Gesprochene in Text umwandelt) analysiert Video Understanding AI das Video in seiner Gesamtheit:
- Gesprochener Text (Audio-Transkription)
- Visueller Inhalt: Szenen, Objekte, Darstellungen
- Zusammenhänge zwischen Bild und gesprochenem Inhalt
- Zeitliche Struktur und Übergänge
Das Ergebnis ist ein deutlich reichhaltigeres Verständnis des Video-Inhalts als bei einer reinen Audio-Transkription.
Definition: Video Understanding Foundation Models sind vortrainierte KI-Modelle, die Videos semantisch verstehen — ähnlich wie Sprachmodelle (LLMs) Texte verstehen. Anbieter wie Twelve Labs haben sich auf diese Technologie spezialisiert.
Der Workflow: Schritt für Schritt
Hier ist der vollständige Workflow, um ein Lernvideo in eine KI-Tutor-Wissensbasis umzuwandeln — demonstriert am Beispiel eines Erklärvideo über die Entstehung von Fossilien.
Schritt 1: Lizenzfreies Video beschaffen
Nutze lizenzfreie Videoquellen oder eigene Produktionen. Für Tests eignen sich Plattformen wie Pexels, Pixabay oder Wikimedia Commons. Wichtig: Halte die Lizenzangaben bereit und nenne den Autor, falls erforderlich.
Schritt 2: Video bei Twelve Labs hochladen
Erstelle ein kostenloses Konto bei Twelve Labs und lade das Video in ein neues Projekt hoch. Twelve Labs verarbeitet das Video und baut intern einen semantischen Index auf — das dauert je nach Länge einige Sekunden bis Minuten.
Tipp
Twelve Labs bietet verschiedene Modelle an, u. a. Marengo für Such- und Abruf-Anwendungen und Pegasus für generative Aufgaben wie die Skript-Erstellung. Für unseren Workflow nutzen wir Pegasus.
Schritt 3: Vollständiges Skript mit Timestamps generieren
Nach der Verarbeitung können wir der KI direkt Aufgaben stellen. Für die Wissensbasis eines KI-Tutors bietet sich folgende Anfrage an:
„Erstelle ein vollständiges Skript des Videos mit allen relevanten Informationen und Zeitstempeln."
Twelve Labs liefert daraufhin ein strukturiertes, detailliertes Skript — nicht nur den gesprochenen Text, sondern ein inhaltlich vollständiges Dokument mit Kontext und Timestamps.
Schritt 4: Skript als PDF exportieren
Das generierte Skript wird kopiert und als PDF-Datei gespeichert. Dieses Dokument enthält nun das gesamte Wissen des Videos in strukturierter, maschinenlesbarer Form.
Schritt 5: In den Alphabees KI-Tutor importieren
Im Alphabees KI-Tutor Verwaltungsportal:
- Neue Wissensbasis anlegen (z. B. „Fossilien — Lernvideo März 2026")
- Neuen Ordner erstellen
- Das PDF-Skript hochladen
Der KI-Tutor verarbeitet das Dokument automatisch und erstellt intern eine Vektordatenbank (RAG) auf Basis des Inhalts.
Schritt 6: KI-Tutor abfragen
Ab sofort kann der KI-Tutor Fragen zu diesem Video beantworten. Frage zum Beispiel: „Wie entstehen Fossilien?" — der Tutor antwortet präzise auf Basis des Videoinhalts, inklusive der relevanten Zeitstempel als Referenz.
Was ist RAG — und warum ist es entscheidend?
RAG (Retrieval Augmented Generation) ist die technische Grundlage dafür, dass ein KI-Tutor nicht aus allgemeinem Trainingswissen antwortet, sondern aus den eigenen Kursinhalten einer Bildungseinrichtung.
Der Prozess vereinfacht erklärt:
- Die Frage des Lernenden wird in einen semantischen Suchvektor umgewandelt
- Das System sucht in der Vektordatenbank nach relevanten Textpassagen
- Die relevantesten Passagen werden als Kontext an das Sprachmodell übergeben
- Das Sprachmodell formuliert eine präzise Antwort auf Basis dieser Quellen
Durch den Video-zu-Skript-Workflow werden Videoinhalte erstmals für RAG-Systeme zugänglich — ohne dass das Video selbst in Echtzeit analysiert werden muss.
Einsatzmöglichkeiten in der Praxis
Sobald ein Video als Wissensbasis importiert ist, eröffnen sich verschiedene Nutzungsszenarien für Bildungsanbieter:
- Moodle-Integration: Der KI-Tutor wird direkt in einen Moodle-Kurs eingebettet. Lernende können Fragen zum Kursinhalt — einschließlich Video-Inhalte — stellen, ohne das Video vollständig anzusehen
- Website-Integration: Ein KI-Tutor auf einer Kursseite beantwortet Fragen potenzieller Teilnehmer auf Basis der vorhandenen Lernmaterialien und Videos
- On-Demand-Wissensabruf: Lernende suchen gezielt nach bestimmten Inhalten statt ein 45-Minuten-Video linear zu konsumieren
- Übungsgenerierung: Der KI-Tutor erzeugt automatisch Übungsfragen auf Basis des Video-Skripts
- Mehrsprachige Inhalte: Das Skript kann übersetzt werden, sodass Videos in mehreren Sprachen als Wissensbasis dienen
Video Understanding AI vs. klassische Transkription
Ein häufiger Einwand: „Ich könnte doch einfach ein Transkriptions-Tool wie Whisper nutzen."
Das stimmt — für rein audio-basierte Inhalte. Der entscheidende Unterschied liegt im visuellen Verständnis:
- Klassische Transkription: Wandelt das gesprochene Audio in Text um. Was auf dem Bildschirm gezeigt wird, geht verloren
- Video Understanding AI: Analysiert zusätzlich den visuellen Inhalt — Diagramme, Animationen, demonstrierte Prozesse, Bildunterschriften — und bezieht diese in das generierte Wissen ein
Bei Erklärvideos, Screencasts oder Präsentationsaufzeichnungen macht dieser Unterschied den entscheidenden qualitativen Sprung: Das Skript ist nicht nur eine Abschrift, sondern ein vollständiges inhaltliches Dokument.
Ausblick: Video-RAG direkt im Alphabees Portal
Der hier gezeigte Workflow funktioniert heute als manueller Prozess: Video analysieren → Skript exportieren → in die Wissensbasis hochladen. Das dauert wenige Minuten und ist für Einzelvideos gut handhabbar.
Langfristig ist eine direkte Integration in das Alphabees Portal geplant: Videos würden dann direkt hochgeladen oder per Link eingebunden, die Analyse läuft automatisch im Hintergrund, und das Wissen steht sofort in der Wissensbasis zur Verfügung.
Wenn Sie Videos direkt in Ihrem Alphabees Portal als Wissensbasis nutzen möchten, melden Sie sich gerne bei uns. Je nach Interesse beschleunigen wir die Entwicklung dieser Integration entsprechend.
Tools in diesem Workflow
Video Understanding Foundation Models — Semantische Videoanalyse und Skript-Generierung
KI-Tutoren für Moodle und Bildungsplattformen — mit eigener RAG-Wissensbasis
Häufige Fragen (FAQ)
Was ist Video Understanding AI?
Video Understanding AI ist eine KI-Technologie, die Videos inhaltlich versteht — nicht nur das gesprochene Audio, sondern auch den visuellen Inhalt, Szenen und dargestellte Informationen. Anbieter wie Twelve Labs entwickeln sogenannte Video Understanding Foundation Models für diese Aufgabe.
Wie kann ich Videos als Wissensbasis für einen KI-Tutor nutzen?
Mit Video Understanding AI (z. B. Twelve Labs) wird ein Video automatisch analysiert und in ein strukturiertes Skript mit Timestamps umgewandelt. Dieses Skript wird als PDF in die Wissensbasis eines KI-Tutors (z. B. Alphabees) importiert. Der KI-Tutor beantwortet danach Fragen auf Basis des Videoinhalts.
Was ist RAG und warum ist es für KI-Tutoren relevant?
RAG (Retrieval Augmented Generation) ist die Methode, bei der relevante Wissensinhalte aus einer Datenbank abgerufen und einem Sprachmodell als Kontext übergeben werden. Für KI-Tutoren bedeutet das: Das Modell antwortet nicht aus allgemeinem Trainingswissen, sondern präzise auf Basis der eigenen Kursinhalte — inklusive der importierten Video-Skripte.
Welcher Unterschied besteht zwischen Video Understanding AI und klassischer Transkription?
Klassische Transkription wandelt nur das gesprochene Audio in Text um. Video Understanding AI analysiert zusätzlich das Bildmaterial selbst: Szenen, dargestellte Objekte und visuelle Informationen. Besonders bei Screencasts, Präsentationen und Lehrvideos mit visuellen Elementen ist dieser Unterschied entscheidend für die Qualität der Wissensbasis.
Lässt sich dieser Workflow direkt in Moodle nutzen?
Ja. Der Alphabees KI-Tutor kann direkt in Moodle integriert werden. Sobald ein Video als Skript-Wissensbasis importiert wurde, steht dieses Wissen im Moodle-Kurs über den KI-Tutor als interaktive Ressource zur Verfügung. Lernende können Fragen zu den Video-Inhalten stellen, ohne das Video linear konsumieren zu müssen.
Welche Videoformate werden unterstützt?
Twelve Labs unterstützt gängige Videoformate wie MP4, MOV, AVI und weitere. Die maximale Videolänge und Dateigröße hängen vom gewählten Preisplan ab. Für die meisten Erklärvideos und Lehraufzeichnungen gelten keine praktischen Einschränkungen.
Möchten Sie Ihre bestehenden Lernvideos in eine KI-Tutor-Wissensbasis umwandeln? Testen Sie den Alphabees KI-Tutor kostenlos und erleben Sie, wie Ihre Videobibliothek interaktiv wird.
Für eine direkte Video-RAG-Integration ohne manuellen Workflow-Schritt sprechen Sie uns an — wir entwickeln diese Funktion für interessierte Partner weiter.