Tutorial
Sprache zu Text in Canva: per Tastenkürzel diktieren
Canva hat kein Live-Diktat. Magic Write erzeugt Texte aus einem Prompt; Speech to Text transkribiert eine Datei. Um eigene Worte in ein Canva-Textfeld, einen Kommentar oder ein Doc zu sprechen, brauchst du ein systemweites Desktop-Tastenkürzel wie Whisper.
Zuletzt aktualisiert: Juni 2026

Sprache zu Text in Canva ist keine eingebaute Funktion. Canva hat Magic Write (KI-Textgenerierung aus einem getippten Prompt) und Speech to Text (Transkription einer Datei, die du bereits aufgenommen hast), aber kein Live-Diktat in ein Textfeld. Ein systemweites Desktop-Tool wie Whisper füllt diese Lücke: Tastenkürzel halten, sprechen, und die Worte landen an der Cursorposition in jedem Canva-Feld.
Dieser Satz bringt viele durcheinander, also sage ich es langsamer. Canva hat vier Dinge mit „Voice“ oder „KI“ im Namen, und keines davon bedeutet, dass du deine eigenen Worte in ein Textfeld diktierst. Verwechselst du sie, suchst du zwanzig Minuten lang nach einem Diktier-Button, den es nie gab.
Das hier ist eine Anleitung. Ich entwirre die vier Canva-„Voice“-Funktionen, zeige dir, wie du mit einem einzigen Tastenkürzel in ein echtes Canva-Textfeld, einen Kommentar und ein Doc diktierst, nenne die eine Sache, die diese Methode nicht kann, und sage dir, wann du mein Tool besser ganz weglässt.
Hat Canva Sprache zu Text? Magic Write ist kein Diktat

Canva hat Funktionen mit einem Hauch von Sprache. Ein Live-Diktat hat es nicht. Hier sind die vier Dinge, die alle verwechseln, sauber getrennt.
Magic Write ist KI-Textgenerierung, nicht deine Stimme. Du tippst einen Prompt – „schreib drei Slogans für ein Yogastudio“ – und Canvas KI entwirft den Text. Canvas eigene Magic-Write-Seite macht klar, dass du den Prompt tippst; deine Stimme ist nie die Eingabe. Es schreibt für dich. Ein Diktat schreibt auf, was du gesagt hast. Zwei verschiedene Aufgaben.
Speech to Text transkribiert eine Datei, die du bereits aufgenommen hast. Canvas Speech-to-Text-Funktion nimmt eine vorhandene Aufnahme oder ein Video – die Seite nennt MP4, MOV oder M4V bis 500 MB und unter 90 Minuten, oder einen YouTube-Link – und wandelt es im Nachhinein in Text um. Ehrlich nützlich, und ich schicke dich später dorthin zurück. Aber es transkribiert eine Datei, nicht dich, der live in ein Textfeld spricht.
Text to Speech läuft in die andere Richtung. Canvas AI Voice Generator macht aus getipptem Text ein gesprochenes Voiceover für Videos. Text rein, Audio raus. Das Gegenteil eines Diktats.
Das Canva-KI-Mikro füllt nur das Prompt-Feld. Der Assistent hat ein Mikrofon-Symbol, aber damit befüllst du per Stimme den KI-Prompt – du sprichst einen Befehl an den Assistenten. Es tippt nicht in deinen Design-Text, deine Kommentare oder deinen Doc-Inhalt.
Also das ehrliche Fazit: Canva hat kein Live-Diktat in deine Textfelder. Die Aufgabe – sprechen, und deine Worte erscheinen an der Cursorposition – erledigt ein separates Desktop-Tool. Genau deshalb gibt es diesen Artikel.
In Canva-Textfelder und Docs per Tastenkürzel diktieren
Die Lösung sitzt unterhalb von Canva, auf Betriebssystem-Ebene. Du installierst eine Desktop-Diktier-App, sie belegt ein globales Tastenkürzel, und dieses Kürzel fügt transkribierten Text in das Feld ein, in dem der Cursor steht – ein Canva-Textfeld, ein Kommentar, ein Canva Doc. Dasselbe Kürzel funktioniert in Slack, Gmail und deinem Editor, denn das Tool lebt auf OS-Ebene, nicht in einem Browser-Tab.
Bei Whisper ist das Standard-Tastenkürzel Ctrl+Space unter Windows und Command+Option unter macOS. Der Ablauf ist auf jeder Canva-Oberfläche identisch:
- Klicke in das gewünschte Feld – ein Textfeld auf der Leinwand, die Kommentarzeile oder ein Canva Doc.
- Halte das Tastenkürzel und sprich. Sag den Satz so, wie du ihn laut sagen würdest.
- Loslassen. Ein, zwei Sekunden später erscheinen die Worte an der Cursorposition.
- Drüberschauen, ein Wort korrigieren, falls nötig, weiter gestalten.
Das ist der ganze Trick. Kein „Diktat starten“-Dialog, kein zweites Fenster, kein Kopieren und Einfügen von irgendwoher. Du bleibst in dem Canva-Feld, in dem du ohnehin schon warst. Es funktioniert, egal ob du Canva im Browser nutzt oder die Canva-Desktop-App – denn das Tool kümmert sich nicht darum, was auf dem Bildschirm steht.
Hier meine eine Meinung für diesen Text, mit einer Zahl belegt. Der beste Produktivitätsgewinn ist nicht schnelleres Tippen – es sind weniger Schritte. Tippen liegt bei etwa 40 Wörtern pro Minute; Sprechen bei rund 145, also etwa 3,6-mal schneller. Die echte Ersparnis ist, den Wechsel zur Stopp-Setz-dich-Tipp-Haltung zu überspringen. Du gestaltest gerade ein Karussell, hast eine Bildunterschrift im Kopf, sagst sie, und sie steht da. Sprache beschleunigt die Schritte nicht. Sie löscht ein paar.
Die Einbettung oben ist die echte App, kein Screenshot. Wähle einen Transkriptionsweg, drück das Tastenkürzel, sieh zu, wie der Text landet. Canva merkt nie, dass das Tool existiert – für Canva sieht es genau so aus, als hättest du getippt, nur ohne das Tippen.
Es gibt drei Wege, und die App entscheidet nicht für dich. Der Cloud-Modus nutzt deinen eigenen OpenAI-Schlüssel für höchste Genauigkeit und Web-Antworten. Parakeet ist die schnellste lokale Option für Englisch und 24 europäische Sprachen. Whispers mehrsprachige Modelle decken über 99 Sprachen ab, inklusive automatischer Erkennung, plus Übersetzung ins Englische. Für die tägliche Canva-Arbeit – eine Überschrift, eine Bildunterschrift, ein Kommentar – kommen sogar die kleineren lokalen Modelle mit, und die kundenseitige Angabe lautet über 90 Sprachen in beiden Modi, falls du mehrsprachige Kampagnen schreibst.
Das Diktat automatisch aufräumen
Rohe Sprache enthält das „ähm“, den Fehlstart, das „nein, streich das“. Whisper bietet eine optionale KI-Bereinigung zusätzlich zum Transkript an: ein lokaler Durchlauf, der im kostenlosen Modus auf deinem eigenen Rechner läuft, oder ein Cloud-Durchlauf in Pro, wenn du deinen eigenen Schlüssel mitbringst. Schalt sie ein, und aus „äh mach die Überschrift fett und freundlich sowas wie zehn Prozent Rabatt nur diese Woche“ wird eine saubere Zeile. Schalt sie aus, und du bekommst das wortwörtliche Transkript – jedes „ähm“ inklusive, was eine eigene Art von Ehrlichkeit ist. Deine Entscheidung, pro Aufnahme.
Hier kommt auch die Magic-Write-Verwechslung zurück, also räume ich sie endgültig aus dem Weg. Magic Write erzeugt Text aus einem Prompt, den du tippst. Whispers Bereinigung poliert die Worte, die du tatsächlich gesprochen hast. Das eine erfindet den Satz; das andere ordnet deinen. Wenn du wolltest, dass die KI den Slogan schreibt, ist das Magic Write. Wenn du den Slogan sagen und ihn sauber getippt haben wolltest, ist das hier es.
Wohin es einfügt – und die eine Sache, die es nicht kann
Jetzt der ehrliche Hinweis zum Umfang, denn niemand sonst in diesen Suchergebnissen sagt es klar. Whisper fügt transkribierten Text in genau das eine Feld ein, das den Fokus hat – ein Textfeld, einen Kommentar oder ein Doc, wo auch immer der Cursor sitzt. Das ist der ganze Deal.
Es wird keine Canva-Elemente per Stimme erstellen, verschieben, in der Größe ändern, umfärben oder gestalten, und es führt keine Canva-Befehle aus. Du kannst nicht sagen „füge einen Rahmen hinzu“, „ändere die Schrift auf fett“ oder „mach das Logo größer“ und erwarten, dass es passiert. Es macht aus Sprache Text an der Cursorposition. Es steuert das Design-Tool nicht. (Ich habe am Anfang einen peinlichen Nachmittag damit verbracht, Formen per Sprachbefehl herumzuschieben. Die Formen blieben genau dort, wo sie waren. Ich habe einen Master-Abschluss.)
Gut zu wissen: Willow, eine vergleichbare Diktier-App für Mac und Windows, geht in einem Punkt weiter – sie unterstützt Inline-Sprachbefehle zur Formatierung, du kannst also mitten im Satz „Aufzählungspunkt“ oder „neue Zeile“ sagen, und die Formatierung erscheint, während du diktierst. Whisper beansprucht das nicht; es fügt reinen Text ein und lässt dich von Hand formatieren. Wenn sprachgesteuerte Formatierung das ist, was du willst, ist das ein echter Grund, dir Willow anzusehen. Das sage ich lieber, als dass du es nach der Installation herausfindest.
Offline und privat

Designer arbeiten mit Texten, die das Haus nicht verlassen sollten. Ein noch nicht angekündigter Produktname. Ein Launch-Datum eines Kunden unter NDA. Eine Preiszeile, die noch nicht öffentlich ist. Wenn du das in ein reines Cloud-Tool diktierst, reist das Audio zu einem Server und zurück, um Text zu werden.
Whispers lokaler Modus läuft vollständig auf deinem Rechner. Kein Internet während der Transkription, und das Audio verlässt den Laptop nie. Die einzige Verbindung, die du brauchst, ist der einmalige Modell-Download, irgendwo zwischen etwa 140 MB und 3 GB, je nach gewähltem Modell. Danach kannst du auf einem Flug mit ausgeschaltetem WLAN die Canva-Bildunterschriften für ein ganzes Deck diktieren.
Das ist die klarste Trennlinie zwischen den Tools, die Canvas Diktat-Lücke füllen. Voice In, die Browser-Erweiterung, ist cloudbasiert. Willows Canva-Seite wirbt mit null Datenspeicherung, erwähnt aber keinen Offline-Modus. Whisper bietet ausdrücklich lokale Transkription auf dem Gerät. Für eine „Überschrift der Woche“ wird es egal sein. Für alles, das du in einem Großraumbüro nicht laut vorlesen würdest, ist auf dem Gerät der langweilige, richtige Standard. Dieselbe Rechnung zieht sich durch unsere Ratgeber zu Sprache zu Text in Figma und Sprache zu Text in Miro – das Design-Tool ändert sich, die Logik nicht.
Wann Magic Write oder das OS-Diktat mehr Sinn ergeben

Ich tue nicht so, als wäre Whisper jedes Mal die richtige Antwort. Drei Fälle, in denen es das nicht ist:
Du willst eigentlich eine vorhandene Aufnahme transkribieren. Wenn du schon eine Sprachnotiz, einen Webinar-Ausschnitt oder einen YouTube-Link hast und die Worte daraus haben willst, ist das kein Diktat – das ist Datei-Transkription, und Canvas eigenes Speech to Text erledigt das im Editor ohne Zusatz-Tool. Nutze Canvas eingebaute Funktion; sie ist die richtige für diese Aufgabe.
Du arbeitest ausschließlich im Canva-Browser-Tab und willst ein kostenloses Browser-Add-on. Voice In ist eine Chrome- und Edge-Erweiterung, genau dafür gebaut. Sie erreicht weder die Canva-Desktop-App noch irgendetwas außerhalb des Browsers, aber wenn der Browser deine ganze Welt ist, passt sie.
Du willst Sprache, die schon auf deinem Computer ist. Windows hat Voice Typing über Win+H; macOS hat Apple Dictation. Beide diktieren systemweit in Canva, ob Browser oder Desktop, kostenlos und ohne Installation. Jedes ist auf eine Plattform beschränkt und die Qualität schwankt, aber für kurze Passagen sind sie eine faire kostenlose Option.
Greif zu Whisper, wenn du willst, dass das Audio auf deinem Gerät bleibt, ein kostenloses Tool ohne Karte bei der Anmeldung, oder ein Tastenkürzel, das in der Canva-Desktop-App und in jeder anderen App, die du nutzt, gleich funktioniert.
Was es kostet
Canvas eigenes Magic Write und Speech to Text leben in den kostenlosen und Pro-Tarifstufen von Canva – Canvas Preise, nicht meine. Willows Canva-Seite bietet 2.000 kostenlose Wörter pro Woche zum Testen, ohne Karte, danach eine kostenpflichtige Stufe. Voice In ist eine Freemium-Browser-Erweiterung. Whispers gesamte lokale Pipeline – der Teil, der in deine Canva-Felder diktiert – ist bei der Anmeldung kostenlos, ohne Karte. Whisper Pro ergänzt die Cloud-Oberfläche und kommt mit einer 7-tägigen Cloud-Testphase, bei der eine Karte nur für dieses Upgrade nötig ist, nie bei der ersten Anmeldung. Verwechsle die beiden nicht: Das Diktat, das deine Canva-Arbeit erledigt, ist der kostenlose Teil. Die Zahlen findest du auf unserer Preisseite, falls du sie haben willst.
Die meisten Suchen nach „Sprache zu Text in Canva“ enden in derselben kleinen Enttäuschung: Du suchst einen Diktier-Button, findest Magic Write und merkst, dass es den Text für dich schreiben will, nicht aufschreiben, was du gesagt hast. Der Button ist nicht in Canva. Er sitzt eine Ebene tiefer, in einem Tastenkürzel. Ich habe meiner jüngeren Tochter den Trick einmal gezeigt – reinklicken, halten, reden, loslassen – und sie hatte eine Bildunterschrift für eine Geburtstagskarte geschrieben, bevor ich mit dem Erklären fertig war. Sie ist sieben. Sie hat keine einzige Rückfrage gestellt, was mehr ist, als ich von den meisten Erwachsenen sagen kann, die ich eingearbeitet habe. Wenn du die tastaturfreie Variante überall willst, hier ist, wie du mit der Stimme schneller schreibst, inklusive Sprache zu Text auf einem Mac.
Diktiere deine nächste Canva-Bildunterschrift
In das Feld klicken, Taste halten, reden, loslassen. Das Transkript landet, wo dein Cursor steht – in Canva und in jeder anderen App auch.
Kostenloser lokaler Modus für jedes angemeldete Konto. Keine Karte nötig, um zu starten.



