Ratgeber
Meeting-Transkriptions- software
Ein Suchbegriff, zwei grundverschiedene Aufgaben. Manche Tools schicken einen Bot in dein Meeting, um gemeinsame Notizen zu erstellen. Andere verarbeiten eine Aufnahme, die du bereits hast – offline, auf deinem eigenen Laptop. Hier erkläre ich, welche Variante du wirklich brauchst.
Zuletzt aktualisiert: Juni 2026

Meeting-Transkriptionssoftware wandelt gesprochene Unterhaltungen aus einem Anruf in durchsuchbaren, schriftlichen Text um. Das funktioniert auf zwei Wegen: in Echtzeit, wobei das Transkript live erscheint, während die Leute sprechen, und nach dem Meeting, wobei eine Aufnahme nachträglich für sauberere, mit Sprecherkennzeichnung und Zeitstempeln versehene Notizen verarbeitet wird. Die meisten Tools treten Calls automatisch über Kalender-Sync und einen Meeting-Bot bei; einige arbeiten Bot-frei aus einer Aufnahme, die du bereits hast.
Als ich zum ersten Mal zusah, wie ein Team eine satte Rechnung für Meeting-Transkriptionen angehäuft hatte, stand da eine fünfstellige Zahl – und die Meetings hatten schon Notizen. Ein Auftragnehmer hatte einen internen KI-Diktat-Prototyp angeschlossen, der für jede Äußerung die Cloud-API aufrief, mit so aggressiver Retry-Logik, dass er dasselbe Standup-Recording viermal transkribierte. Der Manager öffnete das Kosten-Dashboard zum Quartalsende. Im Raum wurde es still.
Die nüchterne Wahrheit über diese Kategorie: Das falsche Tool zu wählen ist teuer – in Geld, Datenschutz oder Zeit, meistens bevor es jemand merkt.
Genau darum geht es in diesem Artikel. Teams wollen seit einem Jahrzehnt automatische Meeting-Notizen, und die Tools erledigen die Aufgabe endlich gut. Der Haken: Unter einem einzigen Suchbegriff verbergen sich grundverschiedene Funktionen. Manche treten deinem Video-Call als Bot bei und schreiben gemeinsame Notizen für alle. Andere laufen nachträglich auf einer Aufnahme, offline, auf deinem eigenen Laptop.
Unten zeige ich beide Wege, nenne die Tools, die es wert sind, und bin ehrlich über das, was unsere eigene App nicht kann: Sie ist kein Meeting-Bot. Als derjenige, der unsere Support-E-Mails liest, kann ich sagen: Die meiste Verwirrung in dieser Kategorie entsteht, weil Leute am ersten Tag das falsche Tool wählen. Ich habe diese E-Mail oft genug beantwortet, um sie an der Betreffzeile zu erkennen.
Was Meeting-Transkriptionssoftware macht (und die zwei Arten, wie sie funktioniert)
Hinter dem Marketing steckt bei jedem Tool dasselbe: Audio rein, Text raus. Das Audio ist menschliche Sprache aus einem Meeting. Der Text ist ein Transkript. Alles andere – Zusammenfassungen, Aufgaben, Sprecherkennzeichnung, Suche – baut auf dieser einen Umwandlung auf.
Die Kategorie teilt sich danach, wann diese Umwandlung stattfindet.
- Echtzeit-Transkription läuft, während die Leute sprechen. Die Wörter erscheinen mit einer Sekunde oder zwei Verzögerung auf dem Bildschirm. Das bekommst du zum Beispiel von einem Live-Untertitel in Zoom oder Microsoft Teams und von Notiz-Bots, die während des Calls ein laufendes Transkript anzeigen. Im Moment nützlich: für Barrierefreiheit, zum Mitverfolgen, um einen Namen aufzuschnappen, den man verpasst hat.
- Nachträgliche Transkription läuft auf einer Aufnahme, nachdem der Call beendet ist. Das Tool hat die ganze Datei und kann sich Zeit lassen. Es bereinigt Versprecher, kennzeichnet, wer was gesagt hat, fügt Zeitstempel hinzu und erstellt ein lesbares Dokument. Nachträgliche Verarbeitung liefert sauberere, mit Sprecherkennzeichnung und Zeitstempeln versehene Texte als die Live-Version. Der Nachteil: Man wartet darauf.
Die meisten bekannten Tools (Otter, Fireflies, Fathom, tl;dv) machen beides und erhalten das Audio auf dieselbe Weise: Ein Bot tritt dem Call bei. Du verknüpfst deinen Google- oder Outlook-Kalender, das Tool sieht ein Meeting mit Video-Link und schickt einen Teilnehmer in den Raum, um zuzuhören und aufzunehmen. Diese kleine Aufnahme-Kachel, die du schon mal im Zoom-Grid gesehen hast – das ist das ganze Modell in einem Bild.
Hinter dem Suchbegriff versteckt sich ein ruhigerer dritter Weg: eine Aufnahme, die du bereits hast, auf deiner eigenen Maschine transkribieren – ohne Bot und ohne Anruf. Das ist eher Diktat-und-Transkriptions-Software als ein Meeting-Notizer, und genau dort ist unsere eigene App zu Hause. Mehr dazu unten, einschließlich der ehrlichen Erklärung, wann sie die falsche Wahl ist.
Wann ein Meeting-Bot die richtige Wahl ist (und Whisper es nicht ist)
Maria 10:02 Fangen wir mit dem Launch-Datum an.
Tom 10:02 Ich glaube, wir verschieben um eine Woche.
Wenn dein Problem lautet: „Jemand soll meinem Zoom-, Teams- oder Google-Meet-Call beitreten, alle aufnehmen und dem ganzen Team danach gemeinsame Notizen übergeben” – dann brauchst du einen Meeting-Bot. Whisper macht das nicht. Es tritt keinem Call automatisch bei, nimmt keine anderen Teilnehmer auf und führt keine Mehrsprecherdiarisierung über ein Video-Meeting durch. Etwas anderes zu behaupten wäre Zeitverschwendung.
Für diese Aufgabe sind Bot-basierte Notiz-Tools die richtige Wahl. Otter.ai tritt Zoom-, Microsoft-Teams- und Google-Meet-Calls bei, um Notizen automatisch zu schreiben und zu teilen, und bietet einen kostenlosen Basic-Plan, wenn du das Modell erst ausprobieren möchtest. Fireflies.ai tritt per Einladung oder automatischem Kalender-Join bei; der kostenlose Tarif umfasst unbegrenzte Transkription mit eingeschränkten KI-Zusammenfassungen. tl;dv nimmt Google Meet, Zoom und Teams auf, bewirbt einen Bot-freien Erfassungsmodus und bietet einen dauerhaft kostenlosen Plan ohne Zeitlimit. Fathom hat einen dauerhaft kostenlosen Plan mit unbegrenzten Aufnahmen und die Wahl zwischen Bot-freier (Beta) oder Bot-Erfassung.
Hier ist der Teil des Artikels, in dem ich dich bewusst woandershin schicke. Otter ist für Meetings. Whisper ist fürs Schreiben. Das sind verschiedene Kategorien, und für die falsche zu bezahlen ist der häufigste Fehler in diesem Bereich. Wenn du Mehrsprecherdiarisierung über einen aufgezeichneten Call, automatischen Kalender-Beitritt und eine Zusammenfassung im Team-Channel brauchst, bevor das Meeting zu Ende ist, erledigt ein Bot-Notizer eine Aufgabe, für die unsere App nie gebaut wurde. Wir machen Schreiben per Sprache schnell; sie machen das Erfassen eines Raums automatisch. Erst die Kategorie wählen, dann das Tool.
Wie genau ist KI-Meeting-Transkription wirklich?
Die ehrliche Antwort: besser als erwartet bei sauberem Audio, schlechter als erhofft bei einem echten Meeting. Die Kategorie landet bei klarem Einzel-Sprachton bei 85 bis 95 Prozent Genauigkeit, mit Abstrichen bei Hintergrundlärm, Akzenten, Fachjargon und gleichzeitig sprechenden Personen. Menschlich überprüfte Dienste klettern wieder auf rund 99 Prozent – weil ein Mensch korrigiert, was das Modell übersehen hat.
Unser eigener lokaler Modus meldet eine Genauigkeit, die typischerweise zwischen 95 und 99 Prozent liegt, wobei größere Modelle besser abschneiden. Ich will hier vorsichtig sein. Das ist unsere Messung mit unserer Software, kein unabhängiger Direktvergleich mit Otter oder Fireflies – und ich werde keinen erfinden. Wer dir eine einzelne Genauigkeitszahl für Meeting-Transkription nennt, ohne die Audiobedingungen zu erläutern, verkauft, anstatt zu messen.
Hier kommt der Teil, den niemand vermarktet, weil es nichts zu verkaufen gibt. Das Mikrofon ist wichtiger als das Modell. Ein billiges USB-Mikrofon tut mehr für dein Transkript als der Sprung vom kleinen zum größten Modell. Die meisten schlechten Transkripte, die ich gesehen habe, waren kein Modellversagen. Es war ein Laptop-Mikrofon, das eine Klimaanlage aufnimmt, vier Personen, die sich einen Raum und ein Freisprechgerät teilen, oder ein Bluetooth-Headset, das das erste Wort jedes Satzes schluckt. Erst das Audio verbessern. Die KI kann einen Wasserkocher nicht ungehört machen.
Zwei weitere Faktoren beeinflussen die Genauigkeit unter der Haube. Einer ist, wie das Tool entscheidet, wo eine Person aufhört und die nächste anfängt – was schwieriger wird, wenn alle gleichzeitig reden. Der andere ist die Unterstützung benutzerdefinierter Vokabeln: die Möglichkeit, Produktnamen, Nachnamen und Abkürzungen einzuspeisen, die kein allgemeines Modell je gesehen hat. Whisper ermöglicht es, benutzerdefinierte Vokabeln festzulegen und die lokale Whisper-Engine auf Hotwords auszurichten; viele Meeting-Bots auch. Wenn deine Calls voll mit Fachjargon sind, ist diese eine Einstellung mehr wert als ein Modell-Upgrade.
Bot-frei und offline: eine Aufnahme transkribieren, die du bereits hast
Das ist der Weg, den der Suchbegriff verschweigt – und der, für den unsere App gebaut ist. Du brauchst nicht immer Software, die einem Meeting beitritt. Manchmal hast du die Aufnahme schon – eine Sprachnotiz aus einem Eins-zu-eins-Gespräch, ein Interview, ein Webinar-Export, ein Clip, den ein Kollege geschickt hat – und brauchst einfach sauberen Text daraus, auf deiner eigenen Maschine, ohne Bot in irgendjemandem Call.
Diktat-und-Transkriptions-Software wie Whisper passt genau hier und verdient sich einen Platz beim Datenschutz. Im lokalen Modus läuft alles auf deinem Laptop. Das Audio verlässt das Gerät nie: kein Server im Spiel, keine Anbieter-Logs, keine Cloud-Kostenuhr. Das Gehalts-Gespräch mit dem Chef, die juristische Aufnahme, das HR-Gespräch: Nichts davon sollte beim Drittanbieter landen, nur weil du ein Transkript brauchtest. Local-First ist hier kein Feature. Es ist der ganze Punkt.
Whisper betreibt zwei lokale Engines, beide reines Rust über transcribe-rs, ohne Python-Sidecar, der den Start verlangsamt. Die erste ist OpenAIs Open-Source-Whisper, das in mehrsprachigen Versionen 99 Sprachen abdeckt und ins Englische übersetzen kann – mit Modellgrößen von Base (ca. 140 MB) bis Large v3 (ca. 3 GB). Die englischsprachigen Versionen sind genau das: nur Englisch, und sie laufen etwas schlanker. Die zweite Engine ist NVIDIAs Parakeet TDT, ca. 600 MB, in der App als 5 bis 10-mal schneller als Whisper auf CPU beschrieben, deckt Englisch plus 24 europäische Sprachen (25 insgesamt) ab, ohne Übersetzung ins Englische. Wähle Parakeet für Geschwindigkeit, wenn du hauptsächlich auf Englisch arbeitest. Wähle Whisper, wenn du Übersetzungen oder eine Sprache brauchst, die Parakeet nicht abdeckt.
Die Bedienung ist dieselbe, die ich den ganzen Tag benutze. Du hältst die Hotkey – Ctrl+Space unter Windows oder den Command+Option Push-to-Talk-Chord auf dem Mac, beide Tasten halten und eine loslassen zum Stoppen – sprichst, und der Text landet an deinem Cursor in der gerade fokussierten App. Ein kleines Overlay zeigt den Status während der Verarbeitung. Für eine Aufnahme statt Live-Sprache zeigst du die App auf die Datei und erhältst das Transkript zurück. Wenn du speziell die Diktat-Seite willst, geht unser Offline-Spracherkennungs-Ratgeber tiefer darauf ein, wie man alles auf dem Gerät ausführt.
Es gibt auch eine Cloud-Option für alle, die die neuesten OpenAI-Modelle und eine sprachgesteuerte Websuche im selben Tool wollen. Eigenen OpenAI-Key mitbringen, „Hey whisper” sagen, um den Text durch die KI zu leiten. Aber für das Transkribieren einer Aufnahme, die du bereits hast, ist der lokale Modus die Antwort – und er ist kostenlos für jeden angemeldeten Nutzer.
Die anderen Tools, die es wert sind zu kennen
Diese Kategorie ist überfüllt, und die Suchergebnisse werden von Listen mit sechs bis zehn Tools dominiert. Hier ist eine klare Übersicht, damit du nicht zehn Rezensionen lesen musst, um zu verstehen, wofür jedes Tool ist. Alle unten aufgeführten Funktionen stammen von den eigenen Seiten der Tools.
- Otter.ai — der Standard-Meeting-Notizer. Bot tritt Zoom, Teams und Meet bei; kostenloser Basic-Plan mit 300 Minuten pro Monat, bezahlte Pro- und Business-Tarife darüber. Transkription in sechs Sprachen: Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch.
- Fireflies.ai — Bot tritt per Einladung oder automatischem Kalender-Join bei. Kostenloser Plan mit unbegrenzter Transkription und eingeschränkten KI-Zusammenfassungen; bewirbt 100+ Sprachen über alle Tarife.
- tl;dv — nimmt Meet, Zoom und Teams auf, bewirbt einen Bot-freien Modus, transkribiert in 30+ Sprachen, dauerhaft kostenloser Plan ohne Zeitlimit und ohne Kartenpflicht.
- Fathom — dauerhaft kostenloser Plan mit unbegrenzten Aufnahmen, plus Wahl zwischen Bot-freier (Beta) oder Bot-Erfassung; bezahlte Premium-, Team- und Business-Tarife darüber.
- Notta — hat einen Meeting-Bot für Zoom, Teams und Meet sowie einen kostenlosen Tarif; das eigene Help-Center listet rund 58 Sprachen.
- Zoom und Teams, integriert — Bevor du etwas kaufst, prüf, was du bereits bezahlst. Zoom transkribiert Cloud-Aufnahmen und bietet KI-Begleiter-Echtzeit-Transkription in 46 Sprachen bei berechtigten Bezahl-Plänen. Microsoft Teams hat integrierte Live-Transkription in rund 50+ Sprachen; Live-Übersetzungs-Transkription erfordert Teams Premium.
Hier ist dieselbe Übersicht als Tabelle, nur mit den Angaben, die du auf den eigenen Seiten jedes Tools überprüfen kannst. Keine Genauigkeits- oder Geschwindigkeitszahlen, weil niemand sie auf demselben Audio im Direktvergleich gemessen hat – und ich werde den Test nicht erfinden.
| Tool | Erfassung | Lokal/Cloud | Offline nutzbar | Preismodell | Sprachen | Am besten für |
|---|---|---|---|---|---|---|
| Otter.ai | Bot tritt dem Call bei | Cloud | Nein | Kostenloser Tarif + Bezahlung pro Nutzer | 6 | Der Standard-Team-Notizer |
| Fireflies.ai | Bot per Einladung oder Auto-Join | Cloud | Nein | Kostenloser Tarif + Bezahlung pro Nutzer | 100+ | Großzügige kostenlose Transkription |
| tl;dv | Nimmt Call auf, Bot-freier Modus verfügbar | Cloud | Nein | Dauerhaft kostenlos + Bezahlung | 30+ | Kein Bot im Meeting-Grid |
| Fathom | Bot-frei (Beta) oder Bot | Cloud | Nein | Dauerhaft kostenlos + Bezahlung | Auf der Preisseite nicht angegeben | Unbegrenzte kostenlose Aufnahmen |
| Notta | Bot tritt dem Call bei | Cloud | Nein | Kostenloser Tarif + Bezahlung | ~58 (laut Help Center) | Bot plus kostenloser Tarif |
| Zoom / Teams (integriert) | Nativ im Call | Cloud | Nein | In berechtigten Bezahl-Plänen enthalten | Zoom 46, Teams 50+ | Was du bereits bezahlst |
| Whisper by Remskill | Kein Call; transkribiert Datei oder Diktat | Lokal (Cloud optional) | Ja | Kostenloser lokaler Tarif + Pro | 99 mehrsprachig, 25 Parakeet | Privat, Bot-frei, auf dem Gerät |
Wenn deine Meetings bereits auf einem bezahlten Zoom- oder Teams-Plan laufen, reicht die integrierte Transkription möglicherweise aus – ohne weiteres Abonnement oder weiteren Bot im Call.
Was ich für welche Situation wählen würde
Ich lese die Support-E-Mails, also sehe ich den Frust über das falsche Tool oft genug, um eine klare Meinung zu haben. So würde ich vorgehen.
- Du willst Notizen aus einem Team-Video-Call, automatisch, geteilt mit allen. Nimm einen Bot-Notizer. Otter, wenn du den gepflegten Standard willst; Fireflies oder Fathom für einen großzügigen kostenlosen Tarif; tl;dv, wenn du keinen Bot im Meeting-Grid haben möchtest.
- Du nutzt bereits einen bezahlten Zoom- oder Teams-Plan. Probier die integrierte Transkription aus, bevor du für ein drittes Tool bezahlst.
- Du hast eine Aufnahme und willst sauberen Text, privat, auf deiner eigenen Maschine. Das ist der Bot-freie, Offline-Weg: Whisper oder ein anderes lokales Transkriptions-Tool. Das Audio bleibt auf dem Gerät.
- Du willst per Sprache schreiben (E-Mails, Dokumente, Notizen während oder nach dem Call) – direkt am Cursor, in jeder App. Das ist Diktat, und genau dafür wurde Whisper gebaut. Unser Vergleich von Transkriptions-Software beleuchtet die Unterschiede zwischen Transkription und Meeting-Notizen ausführlicher.
- Du brauchst ein garantiert nahezu perfektes Transkript für juristische Zwecke oder Compliance. Nutze einen menschlich geprüften Dienst. KI allein kommt bei echtem Audio unter 99 Prozent.
Der Fehler, den du vermeiden solltest: für einen Meeting-Bot zahlen, um zu diktieren, oder von einem Diktat-Tool erwarten, dass es deinen Calls beitritt. Verschiedene Kategorien. Wähle die, die zur Aufgabe passt. Ich entwickle seit fünfzehn Jahren Software und habe letztes Jahr noch immer das falsche Tool für eine Aufgabe gekauft – das ist also keine Belehrung von jemandem, der es beim ersten Mal richtig gemacht hat.
Preise, klar und deutlich
Die meisten Tools hier haben einen kostenlosen Tarif, den es wert ist, vor jeder Kreditkarte auszuprobieren. Otter, Fireflies, tl;dv und Fathom bieten alle einen kostenlosen Plan, mit bezahlten Tarifen, wenn du mehr Minuten, mehr Plätze oder unbegrenzten Speicher brauchst. Die Bot-Notizer berechnen in der Regel pro Nutzer pro Monat – was für ein Team schnell teuer wird.
Whisper ist für jeden angemeldeten Nutzer über die gesamte lokale Pipeline kostenlos – beide Engines, KI-Verbesserung über Ollama, Verlauf, Presets, benutzerdefinierte Vokabeln, die Hotkey, alles – ohne Zahlungsmittel bei der Anmeldung. Der bezahlte Tarif ergänzt die Cloud-Oberfläche für alle, die OpenAIs Modelle und Sprach-Websuche wollen. Genaue Zahlen für monatliche, jährliche, Lifetime- und Team-Plätze stehen auf der Preisseite. Ich möchte lieber, dass du kostenlos startest und selbst entscheidest, als einen Preis aus dem Kontext zu reißen.
Erst die Art des Tools wählen, dann die Marke. Wenn ein Bot deinem Call beitreten soll, nimm einen Notizer. Wenn eine Aufnahme auf deinem Laptop zu privatem Text werden soll, nimm etwas Offline-Fähiges. Die fünfstellige Rechnung, die ich ein Team auflaufen sah, entstand, weil niemand gefragt hatte, für welche Aufgabe sie bezahlten – und das war ein Meeting, für das niemand ein Transkript gebraucht hätte.
Probier den Bot-freien Weg mit einer Aufnahme, die du bereits hast
Lad Whisper herunter, zeig auf eine Aufnahme und schau zu, wie sauberer Text zurückkommt – auf deiner eigenen Maschine, ohne Bot in irgendjemandem Call.
Kostenlos für jeden angemeldeten Nutzer über die gesamte lokale Pipeline. Kein Zahlungsmittel bei der Anmeldung.



