Tutorial
Sprache zu Text in Figma ohne Plugin
Figma hat kein eigenes Diktat, und seine einzige Audiofunktion ist der Live-Sprachchat zwischen Mitarbeitenden, kein Transkript. Um deine Worte auf die Leinwand zu bringen, installierst du ein Community-Plugin oder nutzt einen systemweiten Hotkey, der in jedes fokussierte Feld schreibt – Figma inklusive.
Zuletzt aktualisiert: Juni 2026

Sprache zu Text in Figma ist keine eingebaute Funktion. Figma hat kein eigenes Diktat, und seine einzige Audiofunktion ist der Live-Sprachchat zwischen Mitarbeitenden – das ist kein Transkript. Um in einen Figma-Kommentar, eine Anmerkung oder eine Textebene zu diktieren, installieren Designer entweder ein Community-Plugin oder nutzen einen systemweiten Diktat-Hotkey, der in jedes fokussierte Feld schreibt.
Ich habe einer Designerin vier Minuten lang dabei zugesehen, wie sie dieselben zwei Sätze zweimal in einen Figma-Kommentar tippte, weil die Autokorrektur aus „padding“ ein „pudding“ gemacht hatte. Das macht sie Dutzende Male am Tag. Kommentare, Redline-Anmerkungen, Übergabenotizen – nichts davon ist Designarbeit, alles davon ist Tippen. Die schnellsten Leute, die ich in Figma kenne, haben damit klammheimlich aufgehört, es mit den Händen zu tun.
Hier kommt der Teil, der zuerst alle verwirrt: Figma hat tatsächlich eine „Audio“-Funktion, und sie hat damit nichts zu tun. Figmas Audio ist Live-Sprachchat – du und deine Teamkolleginnen reden in Echtzeit, während ihr beide an demselben Frame herumwerkelt. Es ist ein Telefonat in einer Designdatei. Es verwandelt deine Worte nicht in Text. Wenn also jemand fragt „macht Figma nicht längst Sprache?“ – ja, nur die falsche Art. Die unspektakuläre Wahrheit ist: Diktat, also die Art, die Worte auf die Leinwand bringt, steckt überhaupt nicht im Produkt.
Figma kann kein Sprache zu Text. Hier ist, was es wirklich kann.

Figma hat kein eigenes Sprache zu Text. Die Leute fragen ständig danach – im Figma Forum gibt es offene Feature-Wünsche wie „Voice input to comment“ und „Add voice to text prompting to Figma Make“, was die höfliche Internet-Art ist, um zu bestätigen, dass es eine Funktion nicht gibt.
Was Figma sehr wohl hat, ist Audio-Chat, und der ist wirklich nützlich – nur für eine andere Aufgabe. Er lässt Mitarbeitende laut in einer Datei oder einem FigJam-Board reden, am Desktop und im Browser, statt zu einem separaten Call zu springen. Das ist Sprachchat. Es ist keine Spracherkennung. Nichts, was du in Figma-Audio sagst, landet jemals in einem Kommentarfeld oder einer Textebene.
Du hast also zwei ehrliche Wege zum echten Diktat in Figma. Weg eins: ein Community-Plugin, das in Figma lebt. Weg zwei: ein systemweites Diktat-Tool, das in jedes fokussierte Feld auf deinem Computer schreibt, Figma inklusive. Im Rest geht es um beide – inklusive der Frage, wann welcher die richtige Wahl ist.
Der Plugin-Weg: „Voice to Text for Figma“ und Verwandte
Dafür gibt es echte Plugins. „Voice to Text for Figma“ ist ein Community-Plugin, bei dem du ein Sprachwerkzeug öffnest, sprichst und das Transkript in deine ausgewählte Textebene fällt. „Hey Figma Speech Recognition“ macht im Grunde dasselbe. Sie funktionieren. Das will ich fairerweise sagen, bevor ich dir erkläre, warum sie sich umständlich anfühlen.
Hier ist der Haken, und er ist strukturell bedingt, kein Bug. Figma-Plugins können nicht auf dein Mikrofon zugreifen. Um dich also zu hören, öffnen diese Plugins ein separates Browserfenster, erkennen deine Sprache über die im Browser eingebaute Web Speech API und senden den Text dann über eine WebSocket-Verbindung zurück nach Figma. Um einen einzigen Kommentar zu diktieren, springst du zwischen einem Figma-Fenster, einem Browser-Pop-up, das zuhört, und wieder zurück. Es braucht einen modernen Browser, und es braucht überhaupt, dass du im Browser bist.
Für einen Kommentar aus fünf Wörtern – in Ordnung. Für einen Tag voller Übergabenotizen wird das Fenster-Jonglieren schnell mühsam. Außerdem gibt es überhaupt kein FigJam-spezifisches Diktat-Plugin.
Der schnellere Weg: ein systemweiter Hotkey, der in Figma schreibt
Whisper geht den anderen Weg. Es ist eine Desktop-App für Windows und macOS, kein Plugin und keine Browser-Erweiterung. Es nutzt einen einzigen systemweiten Hotkey: Halte unter Windows Ctrl+Space oder unter macOS Command+Option, sprich und lass los. Der Text erscheint genau dort, wo dein Cursor schon ist.
Dieser Teil mit „dort, wo dein Cursor ist“ ist der ganze Trick. Weil Whisper auf Betriebssystem-Ebene schreibt, ist es ihm egal, dass das Feld zu Figma gehört. Setze deinen Cursor in ein Figma-Kommentarfeld und diktiere den Kommentar. Klicke in eine ausgewählte Textebene und diktiere den Text. Lande in einer Redline-Anmerkung oder einer Entwickler-Übergabenotiz und diktiere die Spezifikation. Kein Plugin zu installieren, kein Browserfenster, das aufpoppt, kein WebSocket. Es funktioniert in der Figma-Desktop-App und in Figma in einem Browser-Tab, denn auf OS-Ebene sind beide einfach „eine App mit einem Textfeld, das den Fokus hat“.
Und derselbe Hotkey funktioniert überall sonst. Du diktierst einen Figma-Kommentar, dann Cmd-Tab zu Slack und diktierst eine Nachricht an den Entwickler, dann an deine E-Mail – gleiche Taste, gleiche Muskelerinnerung, jede App.
Das oben ist die tatsächliche Whisper-App, kein Screenshot – klick dich durch. Du wählst, wo die Transkription läuft, legst deinen Hotkey fest, und das ist schon fast die ganze Einrichtung. Es gibt keine Figma-förmige Überraschung: Es ist eine App, eine Taste, und Figma ist einfach eine der Apps, in die sie zufällig schreibt.
Was du in Figma diktieren kannst (und was nicht)
Du kannst überall dort diktieren, wo Figma dir einen Textcursor gibt. Designkommentare und Feedback. Redline-Anmerkungen. Entwickler-Übergabenotizen. Den eigentlichen Text in einer Textebene – Fließtext, Button-Beschriftungen, dieser Microcopy, den du elfmal umschreibst. Auch FigJam-Haftnotizen: FigJam hat kein eigenes Diktat und kein dediziertes Sprach-Plugin, aber eine Haftnotiz ist einfach ein ganz normales fokussiertes Textfeld, also schreibt ein systemweiter Hotkey hinein wie in jedes andere. Einen Workshop zu moderieren und Ideen schneller festzuhalten, als die Leute sie aussprechen können, ist die eine Situation, in der ich Designer wirklich mit dem Raum wetteifern gesehen habe. Wenn du mehr in Whiteboards als in Designdateien lebst, lässt sich dieselbe Idee übertragen auf das Diktieren in Miro-Boards.
Jetzt der ehrliche Teil, fett gedruckt, weil Tools in diesem Bereich gern das Gegenteil andeuten. Whisper diktiert in das Feld, das den Fokus hat. Es bedient Figma nicht. Es zeichnet keinen Frame, verschiebt keine Ebene, benennt keine Komponente um, ändert nichts in der Größe und erstellt keine Objekte per Sprache. Es schreibt Worte dorthin, wo dein Cursor sitzt – ein Feld nach dem anderen – und das ist die ganze Aufgabe. Whisper ersetzt das Tippen, nicht das Designen. (Wenn du ein Tool willst, das eine Ebene 2px nach links schubst, wenn du sagst „schieb sie 2px nach links“, dann ist das ein anderes und viel kühneres Produkt als meines.) Übrigens derselbe Ein-Feld-Umfang, den auch die Plugins und das eigene Diktat deines Betriebssystems haben – niemand in dieser Kategorie steuert den ganzen Editor.
Lokal, offline und aufgeräumt
Rohes Diktat hat Füllwörter. „Äh“, „das, äh, der Abstand“, der Moment, in dem du dich mitten im Satz korrigierst. Whisper kann nach der Transkription einen optionalen KI-Aufräumdurchlauf laufen lassen, der die Füllwörter herausschneidet und die offensichtlichen Patzer korrigiert, sodass du etwas hast, das du tatsächlich in eine Übergabenotiz einfügen würdest. Das Aufräumen läuft im kostenlosen Modus lokal auf deinem Rechner oder über die Cloud, wenn du die Pro-Funktionen aktivierst und deinen eigenen Schlüssel mitbringst. Bei Design-System-Vokabular ist das wirklich praktisch – Komponentennamen, Token-Namen, die Wörter, die die normale Autokorrektur in etwas Peinliches verwandelt. Whisper beherrscht außerdem über 90 Sprachen im lokalen und im Cloud-Modus, sodass ein Team, das UI-Texte auf Deutsch schreibt und sie auf Englisch reviewt, nicht das Tool wechseln muss.

Der lokale Modus läuft komplett offline. Kein Internet während der Transkription, und dein Audio verlässt nie den Rechner – das einzige Mal, dass du eine Verbindung brauchst, ist der einmalige Modell-Download, irgendwo zwischen etwa 140 MB und 3 GB, je nachdem, welches Modell du wählst. Danach kann das Netzwerk aus sein, und das Diktat funktioniert trotzdem im Zug, im Flugzeug, in einem Büro, das das halbe Internet blockiert.
Unter uns: Das ist der Teil, bei dem ich keine Kompromisse machen würde. Cloud-only-Diktat ist ein Datenschutz-Desaster, das nur darauf wartet, transkribiert zu werden. Die Anmerkung, die du gerade diktierst, könnte ein unveröffentlichtes Produkt beschreiben, einen Preisbildschirm, einen Sicherheitsablauf – genau das ist die Art von Sache, die nicht durch die Logs eines Anbieters laufen sollte, nur weil du dir das Tippen sparen wolltest. Der Plugin-Weg hängt von der Sprach-Engine des Browsers und einem separaten Fenster ab; lokales Diktat hält das Audio auf dem einen Gerät, das ohnehin ein Mikrofon und einen völlig brauchbaren Prozessor hat. Wenn du mit irgendetwas Sensiblem hantierst, hört dieser Unterschied auf, ein nettes Extra zu sein.
Wann ein Figma-Plugin oder OS-Diktat mehr Sinn ergibt

Ich würde Whisper nicht für jeden installieren. Wenn du nur ab und zu einen Kommentar aus fünf Wörtern diktierst und komplett in Figma in einem Browser-Tab lebst, erledigt ein kostenloses Community-Plugin wie „Voice to Text for Figma“ den Job – Sprachwerkzeug öffnen, reden, fertig. Kein Download.
Und vielleicht brauchst du nichts davon. Windows hat ein kostenloses Diktat eingebaut – drück Win+H und sprich in die meisten fokussierten Felder, Figma inklusive. macOS hat Diktat in seinen Tastatureinstellungen. Beide sind kostenlos, keines braucht eine Installation, und für kurze Schübe sind sie völlig in Ordnung. Greif zu einer Desktop-Diktat-App wie Whisper, wenn du drei Dinge willst, die die kostenlosen Optionen nicht ganz geben: dass es offline funktioniert und das Audio auf deinem Rechner bleibt, einen Hotkey über jede App hinweg statt nur Figma, und KI-Aufräumen bei technischem Design-System-Vokabular. Wenn dir nichts davon wichtig ist, spar dir den Speicherplatz – dein Trackpad übersteht noch ein Jahr.
Willow ist ein weiteres systemweites Diktat-Tool, das auf denselben Figma-Workflow zielt – Hotkey in jedem Textfeld, kein Plugin – die Kategorie sind also nicht nur wir. Die ehrliche Landschaft lautet: Plugins für browsergebundenes Schnelldiktat, dein OS für kurze kostenlose Schübe und eine Desktop-Diktat-App, wenn du es überall und offline willst.
Einrichtung: drei Schritte, kein Figma-Plugin
Du fasst dafür das Plugin-Menü von Figma gar nicht an. Der ganze Sinn ist, dass das Diktat-Tool außerhalb von Figma lebt.
- Lade Whisper auf Windows oder macOS herunter, installiere es und melde dich an. Die lokale Pipeline ist beim Anmelden kostenlos, ohne Karte; die Cloud-Funktionen sind die kostenpflichtige Pro-Ebene.
- Bestätige deinen Hotkey. Standard ist Ctrl+Space unter Windows, Command+Option unter macOS – ändere ihn in den Einstellungen, wenn er mit etwas kollidiert, das du schon nutzt.
- Öffne Figma, klicke in ein beliebiges Textfeld – einen Kommentar, eine Ebene, eine Haftnotiz – halte den Hotkey, sprich, lass los. Die Worte erscheinen am Cursor.
Das war's. Keine Plugin-Freigabe, kein Browser-Pop-up, keine Konfiguration pro App. Als ich das zum ersten Mal vorgeführt habe, griff ich aus Gewohnheit immer noch instinktiv zum Plugin-Menü von Figma und erinnerte mich dann daran, dass es nichts zu installieren gibt. Wenn du je mit deiner Stimme schneller tippen wolltest, über all deine Apps hinweg, ist der Figma-Fall nur eine Station davon. Dieselbe Einrichtung nutzen die Leute, um in ClickUp zu diktieren und in den meisten anderen Tools.
Meine Siebenjährige hat den Hotkey kapiert, bevor sie kapiert hat, welche App Figma war. Sie hielt die Taste, erzählte eine Haftnotiz über einen Drachen und ließ los, und die Worte waren einfach da – kein Menü, kein Plugin, keine Ahnung, dass irgendwas davon schwer sein sollte. Das ist die Messlatte. Wenn ein Kind einen Drachen in eine Haftnotiz diktieren kann, ohne ein Handbuch zu lesen, kann ein Designer zwischen zwei Schlucken Kaffee eine Übergabenotiz diktieren. Die Hände waren ohnehin nie der Sinn der Arbeit. Derselbe Ansatz funktioniert für Sprache zu Text auf dem Mac auch in deinen anderen Apps.
Bereit, deine Kommentare nicht mehr zu tippen?
Lade Whisper herunter, klick in ein beliebiges Figma-Feld, halte den Hotkey und sieh zu, wie das Transkript erscheint – kein Plugin, kein Browser-Pop-up.
Kostenloser lokaler Modus für jedes angemeldete Konto. Zum Starten keine Karte nötig.



