Von Denys Medvediev

Ratgeber

Apps zur Vorlesungstranskription, erklärt

Live-Aufnahme oder Eigendiktat – woher das Audio kommt und warum die Frage lokal versus Cloud für Studierende wichtiger ist, als sie oft denken.

Zuletzt aktualisiert: Juni 2026

Weitläufiger leerer Hörsaal mit blauen Sitzen und Schreibtischen vor Beginn einer Vorlesung, in dem eine Transkriptions-App das Audio aufnimmt

Eine App zur Vorlesungstranskription wandelt gesprochene Lehrveranstaltungen in durchsuchbaren Text um – entweder durch Live-Aufnahme oder durch nachträgliche Transkription einer Aufzeichnung. Manche Tools laden das Audio in die Cloud. Andere, wie Whisper, transkribieren das, was du selbst per Drücken einer Taste diktierst, direkt auf deinem Gerät. Welches Tool passt, hängt davon ab, wessen Stimme aufgenommen wird und wo das Audio verarbeitet wird.

Letzten Frühling schickte mir ein Student die Aufnahme einer 90-minütigen Vorlesung zur organischen Chemie und fragte, warum sein Transkriptionstool aus "Enantiomer" "ein Anti-Mom" gemacht hatte. Berechtigte Frage. Die ehrliche Antwort lautet: Die meisten Vorlesungs-Apps kämpfen mit dem gleichen schwierigen Problem – aus einem lauten Raum mit einem einzigen leisen Professor sauberen Text zu machen. Der Unterschied liegt darin, wohin das Audio geht und wer es behält. Eine 90-minütige Vorlesung ist das ungünstigste Audio-Szenario überhaupt: Entfernung, Hall, Fachbegriffe und ein Mikrofon, das für Videoanrufe gebaut wurde.

Studierende wünschen sich seit Jahren eine zuverlässige Vorlesungstranskription, und die eingebauten Notiz-Apps waren für längere Aufnahmen stets kaum mehr als nutzlos. 2026 hat sich das geändert. Einige Apps können jetzt eine vollständige Vorlesung in ein durchsuchbares Transkript plus Zusammenfassung verwandeln, und ein paar davon laufen komplett auf dem eigenen Laptop, ohne dass irgendetwas das Gerät verlässt. Dieser Artikel erklärt den Unterschied zwischen dem Aufnehmen einer Live-Lehrveranstaltung und dem Diktieren eigener Notizen, woher das Audio stammt und warum die Frage lokal versus Cloud für Studierende ernster genommen werden sollte, als sie es oft tun. Am Ende weißt du, welcher Tool-Typ zu deiner Situation passt. Ich lese einen Großteil der Support-E-Mails, die Studierende an uns schicken, und die nüchterne Wahrheit ist: Der Großteil kommt von Menschen, die gleich am ersten Tag die falsche App-Kategorie gewählt haben. Genau diese Tickets sind, auf Umwegen, der Grund, warum dieser Artikel existiert.

Drei Arten von Studierenden suchen nach einer App zur Vorlesungstranskription: jene, deren Hand nach 20 Minuten Mitschreiben schmerzt, jene, die abschalten und eine Sicherungskopie wollen, und jene, die in einer Sprache studieren, die nicht ihre Muttersprache ist. Alle drei lösen dasselbe Problem – mit einem sprechenden Menschen Schritt zu halten – und alle drei werden gleich feststellen, dass "Transkriptions-App" zwei völlig unterschiedliche Dinge bedeuten kann.

Vorlesung aufnehmen, sauberen Text erhalten. Das ist der ganze Job.

Wenn man das Marketing weglässt, macht jede App zur Vorlesungstranskription genau eine Sache: Sie nimmt Audio von jemandem, der spricht, und gibt dir Text zurück, den du durchsuchen, zitieren und damit lernen kannst. Die Professorin spricht, die App hört zu, die Wörter landen auf der Seite. Die Unterschiede zwischen den Tools ergeben sich alle aus diesem Kern: ob das Audio live oder nachträglich erfasst wird, ob es auf einem Server oder auf deinem Gerät verarbeitet wird und wie die App das Ergebnis aufbereitet.

Whisper by Remskill übernimmt den Diktat-Teil dieser Aufgabe. Du hältst eine Taste gedrückt, sprichst, und das Transkript wird an der Cursorposition in jede App eingefügt, in der du gerade tippst – sei es Notion, Word, ein Google Doc oder eine E-Mail. Unter Windows ist die Standard-Taste Ctrl+Space. Unter macOS ist es der Command+Option-Push-to-Talk-Akkord: halten zum Aufnehmen, loslassen zum Stoppen. Nach dem Loslassen bleibt das Mikrofon noch 500 Millisekunden offen, damit das letzte Wort nicht abgeschnitten wird. Es gibt keinen Schritt „Meeting beitreten“ und kein Hochladen und Warten. Du sprichst, und eine oder zwei Sekunden später ist der Text da.

CancelTranscribing
Whisper wandelt eine Aufnahme in Text um – Taste halten, sprechen, loslassen, und das Transkript erscheint am Cursor.

Diese Unterscheidung ist bei Vorlesungen wichtiger als bei den meisten anderen Anwendungsfällen – und das ist das Nächste, was klar sein sollte.

Live-Aufnahme und das Diktieren eigener Notizen sind nicht dasselbe

Reihen orangefarbener Sitze in einem Innenauditorium – der Ort, an dem eine Vorlesung live für die Transkription aufgenommen wird

Hier liegt die Verwechslung, die die meisten Studierenden verwirrt. Manche Apps sind dafür gebaut, eine Live-Lehrveranstaltung aufzunehmen: Sie nehmen den Raum auf oder nehmen an einem Zoom-Anruf teil und transkribieren die Stimme des Professors für dich. Andere sind dafür gebaut, dass du selbst in deiner eigenen Stimme die Notizen und Zusammenfassungen diktierst, die du haben möchtest. Beide liefern ein Transkript. Sie sind nicht austauschbar.

Whisper gehört zum zweiten Lager. Es transkribiert, was das Mikrofon hört, während du sprichst. Das ist hervorragend für den Teil des Lernens, der nach der Vorlesung kommt: die Zusammenfassung diktieren, solange alles noch frisch ist, eine Aufgabe durchsprechen, ein Konzept in eigenen Worten erklären oder eine E-Mail an eine Lerngruppe verfassen. Es ist kein Bot, der im Raum sitzt und den Professor für dich aufnimmt. Wenn du eine unbeaufsichtigte Live-Aufnahme von jemand anderem brauchst, ist ein dafür gebautes Aufnahme-Tool besser geeignet – und ich nenne später in diesem Artikel konkrete Namen.

Die nüchterne Wahrheit ist: Das präziseste Transkript einer Vorlesung erhältst du, wenn das Sprechen nah an einem guten Mikrofon stattfindet. Wenn du deine eigene Zusammenfassung diktierst, ist dein Mund 20 Zentimeter vom Mikrofon entfernt. Wenn du einen Professor aufnimmst, ist sein Mund 20 Meter entfernt, hinter einem Rednerpult, im Kampf mit der Lüftungsanlage. Gleiche Software, zwei völlig verschiedene Ergebniswelten.

Woher das Audio der Vorlesung kommt

Weitläufiges leeres modernes Auditorium mit Holzsitzen und großen Fenstern, in dem das Audio der Vorlesung durch den Raum trägt

Jedes Transkript beginnt mit einem Mikrofon, und ein Hörsaal ist der Ort, an dem gute Mikrofone leiden. Das Audio kann aus drei Quellen stammen. Die erste ist das eingebaute Mikrofon deines Laptops, das auf die Person abgestimmt ist, die direkt davor sitzt – gut für das Diktieren eigener Notizen, schlecht für einen Professor quer durch einen 200-Plätze-Saal. Die zweite ist das Loopback-Audio des Systems, also der Ton, der aus deinen Lautsprechern kommt – das wäre das, was du bei einem Live-Zoom oder einer aufgezeichneten Online-Veranstaltung erfassen würdest. Die dritte ist ein dediziertes externes Mikrofon, das nahe an der Quelle befestigt ist.

Die Mikrofonposition ist der mit Abstand wichtigste Hebel für Genauigkeit – nicht das Modell. Ein USB-Mikrofon für 20 Euro bringt einem Transkript mehr als jedes Upgrade auf ein größeres Modell. Ich habe Studierende dabei beobachtet, wie sie sich quälten, welche App „am genauesten“ sei, während sie in der Cafeteria in ihr Laptop-Mikrofon diktierten. Die App war nie das Problem. Das Audio war es.

Bei einem Online-Kurs oder einer Zoom-Vorlesung funktioniert die Erfassung von Loopback-Audio, weil die Sprache bereits über saubere digitale Kanäle läuft. Bei einem großen Präsenzsaal lautet die realistische Antwort: nah an der Quelle aufnehmen, also vorne sitzen oder ein Clip-Mikrofon verwenden, und anschließend transkribieren. Keine App macht aus einer matschigen Raumaufnahme ein perfektes Transkript. Sie verwandeln gutes Audio in guten Text – und schlechtes Audio in „ein Anti-Mom“.

Lokale und Cloud-Transkription markieren eine Datenschutzgrenze, die Studierende kennen sollten

Die meisten App-Vergleiche überspringen diesen Punkt – dabei ist er der, der mich als Studierender am meisten beschäftigen würde. Wo wird das Audio verarbeitet? Es gibt zwei Antworten. Cloud-Tools schicken deine Aufnahme an einen Server, transkribieren sie dort und schicken dir den Text zurück. Lokale Tools erledigen alles auf deinem Laptop, ohne dass irgendetwas das Gerät verlässt.

Unter uns gesagt: Reine Cloud-Transkription einer Vorlesung ist eine Datenschutzentscheidung, die die meisten Menschen treffen, ohne zu bemerken, dass sie sie treffen. Eine Aufnahme deines Professors, seiner Worte, seiner unveröffentlichten Forschung, des Seitenkommentars zur nächsten Klausur – all das landet in den Logs eines Anbieters, was harmlos wirkt, bis es es nicht mehr ist. Lokal zuerst, oder gar nicht. Das ist eine schärfere Aussage, als ich sie sonst mache, und ich stehe dazu: Wenn eine Aufnahme nur auf deinem Laptop liegt, kann kein Server-Einbruch sie leaken, keine Änderung der Nutzungsbedingungen Trainingsrechte im Hintergrund einräumen, kein vergessener Account sie aufbewahren.

Whisper
Die echte Whisper-App – lokale Engines und die optionale Cloud-Oberfläche in einem Fenster. Klick dich durch die Einstellungen.

Whisper führt die lokale Transkription in reinem Rust durch, ohne Python-Sidecar, mit zwei Engines, zwischen denen du wählen kannst. Lokales Whisper bietet mehrere Modellgrößen, von einem Base-Modell mit etwa 140 MB bis zu einem mehrsprachigen Large v3 mit etwa 3 GB; die mehrsprachigen Varianten unterstützen 99 Sprachen mit Übersetzung ins Englische. NVIDIA Parakeet ist ein einzelnes Modell mit etwa 600 MB, unterstützt Englisch plus 24 europäische Sprachen – insgesamt 25 – und läuft auf einer CPU 5- bis 10-mal schneller als Whisper, kann aber nicht übersetzen und unterstützt keine asiatischen Sprachen. Für beste Qualität und Web-Zugriff gibt es außerdem einen Cloud-Modus mit deinem eigenen OpenAI-Schlüssel. Die vollständige lokale Pipeline ist für alle angemeldeten Nutzer kostenlos, ohne Kreditkarte bei der Registrierung; Cloud ist ein kostenpflichtiges Add-on. Das Ganze funktioniert auch vollständig ohne Internetverbindung – mehr dazu in unserem Ratgeber zur Offline-Spracherkennungssoftware, falls das dein Hauptanliegen ist.

Die anderen Vorlesungs-Apps, die du kennen solltest

Whisper ist ein Diktat-Tool, kein Raumaufnahme-Bot. Für die Live-Erfassung von Vorlesungen ist es daher fair, dich auf Apps hinzuweisen, die genau dafür gebaut wurden. Hier ist ein Vergleich der gängigen Optionen – mit echten Zahlen, wo eine verlässliche Quelle sie liefert.

AppWofür es gebaut istWo das Audio verarbeitet wirdGratis-Stufe in der PraxisSprachen
Whisper by RemskillEigene Notizen und Zusammenfassungen diktierenLokal (Whisper oder Parakeet) oder Cloud mit eigenem SchlüsselVollständige lokale Pipeline kostenlos, keine Kreditkarte99 mit mehrsprachigem Whisper; 25 mit Parakeet
OtterLive-Meetings/Vorlesungen aufnehmen und zusammenfassenCloud300 Min./Monat, max. 30 Min. pro AufnahmeLaut Quelle nicht angegeben
Apple Voice MemosVorlesung aufnehmen, Transkript später lesenApple (integriert)In macOS enthaltenLaut Quelle nicht angegeben
NottaKI-Notiztaker in der Cloud für Meetings/KurseCloudPreise nicht verifiziertDutzende laut eigener Angabe von Notta
Wie sich die gängigen Optionen zur Vorlesungstranskription bei Aufnahmetyp, Audioverarbeitung und Gratis-Stufe unterscheiden.

Einige dieser Zeilen verdienen einen Kommentar. Otters kostenloser Basic-Plan bietet 300 Transkriptionsminuten pro Monat mit einem Limit von 30 Minuten pro Aufnahme – das heißt, eine einzelne 90-minütige Vorlesung passt nicht in eine kostenlose Aufnahme. Apple Voice Memos kann Audio aufnehmen und dann ein Transkript anzeigen. Für Mac-Nutzer ist das eine echte „Vorlesung aufnehmen, später lesen“-Option, die bereits vorinstalliert ist. Notta gibt an, Dutzende von Sprachen zu unterstützen, doch ich konnte die Preisseite nicht aufrufen, um die Minutenlimits zu bestätigen – behandle die Plandetails daher als „vor dem Abo prüfen“.

Wann Whisper für Vorlesungen nicht die richtige Wahl ist

Wenn du ein Tool vor einem live sprechenden Professor platzieren und mit dessen Worten davongehen möchtest, ist Whisper nicht das Richtige. Wir transkribieren, was du diktierst – nicht, was jemand auf der anderen Seite des Saales sagt. Für unbeaufsichtigte Live-Aufnahmen greife zu einem Recorder, der dafür gebaut ist. Auf einem Mac nimmt Apple Voice Memos den Raum auf und zeigt dir anschließend kostenlos ein Transkript an – bereits vorinstalliert. Wenn du Live-Mitschnitte von Meetings mit Sprecherkennzeichnung und Zusammenfassungen möchtest, ist Otter dafür gebaut. Die kostenlose Stufe umfasst 300 Minuten pro Monat, wobei das 30-Minuten-Limit pro Aufnahme bedeutet, dass eine vollständige Vorlesung den kostenpflichtigen Plan erfordert. Nutze Whisper für das Lernen nach der Stunde: die Zusammenfassung diktieren, eine Aufgabe durchsprechen, die E-Mail, die du beim Kochen schreibst.

Lokale Transkription kostenlos, Pro für die Cloud-Oberfläche

Das ist der Punkt, den Studierende am häufigsten fragen: die Kosten. Die vollständige lokale Seite von Whisper – beide Engines, die KI-Aufbereitung über ein lokales Modell, Verlauf, eigener Shortcut, Modell-Downloads – ist für alle angemeldeten Nutzer kostenlos, ohne dass bei der Registrierung eine Zahlungsmethode erforderlich ist. Das ist bewusst so. Lokale Transkription läuft auf der CPU deines eigenen Laptops. Eine monatliche Gebühr für Rechenleistung zu verlangen, die du bereits bezahlt hast, hat sich nie richtig angefühlt.

Die kostenpflichtige Stufe, Whisper Pro, fügt die Cloud-Oberfläche hinzu: OpenAI-Cloud-Transkription, Cloud-KI-Verbesserung und sprachgesteuerte Websuche. Das ist der Teil mit nutzungsabhängigen Kosten auf OpenAI-Seite und einem Server in der Schleife – daher steckt er hinter einem Abo mit einer kurzen Cloud-Testphase. Die genauen Zahlen findest du auf der Preisseite. Für reines Diktat beim Lernen nach der Vorlesung verlassen die meisten Studierenden die kostenlose lokale Stufe nie. Das ist der Sinn der Sache.

An einem Dienstagabend letztes Semester stand ich in der Küche und machte Lunchboxen (Sandwich, Obst, der Joghurt, den die Kleine verweigert), als meine ältere Tochter eine Antwort an die Lehrerin wegen eines Ausflugs brauchte. Ich griff mit einer Hand nach dem Laptop, hielt die Taste gedrückt und diktierte die E-Mail zwischen Gurkenscheiben: kurz anhalten, um die Schreibweise des Lehrerinnennamens zu fragen, noch mal kurz anhalten, als die Kleine fragte, warum der Mond manchmal nicht zu sehen sei, dann weitermachen. Die E-Mail wurde abgeschickt. Die Lunchboxen waren fertig. Meine Handschrift hätte, um das klar zu sagen, keines von beidem hinbekommen. Das ist die Version von Transkription, die ins echte Leben passt – kein Bot im Hörsaal, sondern eine Stimme, die mitkommt, wenn die Hände voll sind. Wähl das Tool, das zur Aufgabe passt, und dann: lernen. Wie Whisper funktioniert.

Willst du es bei deiner nächsten Lernsession ausprobieren?

Lade Whisper herunter, halte die Taste gedrückt und diktiere deine Vorlesungszusammenfassung, solange alles noch frisch ist. Die vollständige lokale Pipeline ist kostenlos.

Kostenlose lokale Transkription für jedes angemeldete Konto – keine Kreditkarte bei der Registrierung.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – meistens, indem ich die Antworten diktiere.

Weiterführende Quellen