Autor: Denys Medvediev

Poradnik

Zamiana mowy na tekst w Figmie bez wtyczki

Figma nie ma natywnego dyktowania, a jej jedyna funkcja audio to czat głosowy na żywo między współpracownikami, a nie transkrypcja. Żeby przenieść swoje słowa na kanwę, instalujesz wtyczkę społecznościową albo używasz ogólnosystemowego skrótu klawiszowego, który wpisuje tekst w dowolne aktywne pole — w tym w Figmie.

Ostatnia aktualizacja: czerwiec 2026

Elegancka biurkowa przestrzeń robocza z laptopem, monitorem i akcesoriami, przygotowana do pracy projektowej

Zamiana mowy na tekst w Figmie nie jest funkcją wbudowaną. Figma nie ma natywnego dyktowania, a jej jedyna funkcja audio to czat głosowy na żywo między współpracownikami, który nie jest transkrypcją. Żeby podyktować komentarz, adnotację albo warstwę tekstową w Figmie, projektanci instalują wtyczkę społecznościową albo używają ogólnosystemowego skrótu do dyktowania, który wpisuje tekst w dowolne aktywne pole.

Patrzyłem, jak projektantka spędza cztery minuty, wpisując te same dwa zdania w komentarzu w Figmie — dwukrotnie — bo autokorekta zamieniła „padding” na „pudding”. Robi to dziesiątki razy dziennie. Komentarze, adnotacje redline, notatki do handoffu — nic z tego nie jest pracą projektową, wszystko jest pisaniem. Najszybsi ludzie, jakich znam w Figmie, po cichu przestali robić to rękami.

Oto fragment, który najpierw wszystkich myli: Figma owszem ma funkcję „audio”, i nie ma ona z tym nic wspólnego. Audio w Figmie to czat głosowy na żywo — ty i twoi koledzy rozmawiacie w czasie rzeczywistym, podczas gdy oboje grzebiecie w tej samej ramce. To rozmowa telefoniczna wewnątrz pliku projektowego. Nie zamienia twoich słów w tekst. Więc kiedy ktoś mówi „przecież Figma już ma głos” — tak, ale nie ten rodzaj. Nudna prawda jest taka, że dyktowania, tego, które przenosi słowa na kanwę, w ogóle nie ma w produkcie.

Figma nie potrafi zamieniać mowy na tekst. Oto co naprawdę potrafi.

Szczegółowe rysunki projektowe i przybory kreślarskie rozłożone na biurku, wszystko wykonane ręcznie

Figma nie ma natywnej zamiany mowy na tekst. Ludzie ciągle o to proszą — na Forum Figmy są otwarte prośby o funkcje, jak „Voice input to comment” czy „Add voice to text prompting to Figma Make”, co jest grzecznym internetowym sposobem potwierdzenia, że dana funkcja nie istnieje.

To, co Figma faktycznie ma, to czat audio, i jest on naprawdę przydatny — tyle że do innego zadania. Pozwala współpracownikom rozmawiać na głos wewnątrz pliku albo tablicy FigJam, na komputerze i w przeglądarce, zamiast przeskakiwać do osobnej rozmowy. To czat głosowy. To nie jest zamiana mowy na tekst. Nic, co powiesz do audio w Figmie, nie trafi nigdy do pola komentarza ani do warstwy tekstowej.

Masz więc dwie uczciwe drogi do faktycznego dyktowania w Figmie. Droga pierwsza: wtyczka społecznościowa, która żyje wewnątrz Figmy. Droga druga: narzędzie do dyktowania na poziomie systemu, które wpisuje tekst w dowolne aktywne pole na twoim komputerze, w tym w Figmie. Reszta tekstu jest o obu, łącznie z tym, kiedy każda z nich jest właściwym wyborem.

Droga wtyczkowa: „Voice to Text for Figma” i jej koledzy

Istnieją prawdziwe wtyczki do tego. „Voice to Text for Figma” to wtyczka społecznościowa, w której otwierasz narzędzie głosowe, mówisz, a transkrypcja ląduje w wybranej warstwie tekstowej. „Hey Figma Speech Recognition” robi to samo. Działają. Chcę być wobec nich uczciwy, zanim wyjaśnię, czemu wydają się topornie.

Oto haczyk, i jest on strukturalny, a nie to błąd. Wtyczki Figmy nie mają dostępu do twojego mikrofonu. Żeby cię usłyszeć, te wtyczki otwierają osobne okno przeglądarki, rozpoznają twoją mowę za pomocą wbudowanego w przeglądarkę Web Speech API, a potem odsyłają tekst z powrotem do Figmy przez połączenie WebSocket. Żeby podyktować jeden komentarz, skaczesz między oknem Figmy, wyskakującym oknem przeglądarki, które słucha, i z powrotem. Potrzeba do tego nowoczesnej przeglądarki i tego, żebyś w ogóle był w przeglądarce.

Przy pięciowyrazowym komentarzu — w porządku. Przy całym dniu notatek do handoffu żonglerka oknami szybko się nudzi. Nie ma też w ogóle żadnej wtyczki do dyktowania dedykowanej FigJamowi.

Szybsza droga: ogólnosystemowy skrót, który wpisuje tekst w Figmie

Cancel
Nakładka nagrywania: niewielka kapsułka, która pojawia się, gdy mówisz, żebyś wiedział, że Whisper słucha, by dyktować do aktywnego pola w Figmie.

Whisper idzie tą drugą drogą. To aplikacja desktopowa na Windows i macOS, nie wtyczka i nie rozszerzenie przeglądarki. Używa jednego ogólnosystemowego skrótu: przytrzymaj Ctrl+Space na Windowsie albo Command+Option na macOS, mów i puść. Tekst pojawia się tam, gdzie już jest twój kursor.

Ta część „tam, gdzie jest twój kursor” to cały trik. Ponieważ Whisper wpisuje tekst na poziomie systemu operacyjnego, nie obchodzi go, że pole należy do Figmy. Postaw kursor w polu komentarza w Figmie i podyktuj komentarz. Kliknij w wybraną warstwę tekstową i podyktuj tekst. Wejdź w adnotację redline albo notatkę do handoffu dla dewelopera i podyktuj specyfikację. Żadnej wtyczki do instalowania, żadnego wyskakującego okna przeglądarki, żadnego WebSocketa. Działa w aplikacji desktopowej Figmy i w Figmie uruchomionej w karcie przeglądarki, bo na poziomie systemu obie to po prostu „aplikacja z aktywnym polem tekstowym”.

I ten sam skrót działa wszędzie indziej. Dyktujesz komentarz w Figmie, potem Cmd-Tab do Slacka i dyktujesz wiadomość do dewelopera, potem do maila — ten sam klawisz, ta sama pamięć mięśniowa, w każdej aplikacji.

Whisper
Prawdziwa aplikacja desktopowa Whisper — poklikaj po niej. Wybierz, gdzie odbywa się transkrypcja, ustaw skrót i to w zasadzie cała konfiguracja.

To powyżej to prawdziwa aplikacja Whisper, a nie zrzut ekranu — poklikaj po niej. Wybierasz, gdzie odbywa się transkrypcja, ustawiasz skrót i to w zasadzie cała konfiguracja. Nie ma tu żadnej niespodzianki w kształcie Figmy: to jedna aplikacja, jeden klawisz, a Figma to po prostu jedna z aplikacji, do których akurat wpisuje tekst.

Co możesz podyktować w Figmie (a czego nie)

Możesz dyktować wszędzie tam, gdzie Figma daje ci kursor tekstowy. Komentarze projektowe i opinie. Adnotacje redline. Notatki do handoffu dla deweloperów. Sam tekst wewnątrz warstwy tekstowej — treść główną, etykiety przycisków, te mikroteksty, które przepisujesz jedenaście razy. Karteczki w FigJamie też: FigJam nie ma natywnego dyktowania ani dedykowanej wtyczki głosowej, ale karteczka to po prostu zwykłe aktywne pole tekstowe, więc ogólnosystemowy skrót wpisuje w nią tekst jak w każde inne. Prowadzenie warsztatu i zapisywanie pomysłów szybciej, niż ludzie potrafią je wypowiedzieć, to jedyny moment, kiedy widziałem, jak projektanci naprawdę ścigają się z salą. Jeśli żyjesz bardziej w tablicach niż w plikach projektowych, ten sam pomysł sprawdza się przy dyktowaniu na tablice Miro.

Teraz uczciwa część, pogrubiona, bo narzędzia w tej przestrzeni uwielbiają sugerować coś przeciwnego. Whisper dyktuje do pola, które ma fokus. Nie obsługuje Figmy. Nie narysuje ramki, nie przesunie warstwy, nie zmieni nazwy komponentu, nie zmieni rozmiaru niczego ani nie utworzy obiektów głosem. Wpisuje słowa tam, gdzie siedzi twój kursor — jedno pole naraz — i to całe zadanie. Whisper zastępuje pisanie, a nie projektowanie. (Jeśli chcesz narzędzia, które przesunie warstwę o 2px w lewo, gdy powiesz „przesuń o 2px w lewo”, to inny i znacznie odważniejszy produkt niż mój). Nawiasem mówiąc, ten sam zakres jednego pola mają wtyczki i wbudowane dyktowanie twojego systemu operacyjnego — nikt w tej kategorii nie steruje całym edytorem.

Lokalnie, offline i po sprzątnięciu

Thinking...
Opcjonalny przebieg czyszczenia AI w Whisperze, uruchamiany po dyktowaniu — wycina przerywniki i poprawia oczywiste potknięcia.

Surowe dyktowanie ma przerywniki. „Yyy”, „te, eee, te odstępy”, moment, w którym poprawiasz się w połowie zdania. Whisper może po transkrypcji uruchomić opcjonalny przebieg czyszczenia AI, który wycina przerywniki i poprawia oczywiste potknięcia, zostawiając ci coś, co naprawdę wkleiłbyś do notatki handoffowej. Czyszczenie działa lokalnie na twoim komputerze w trybie darmowym albo przez chmurę, jeśli włączysz funkcje Pro i podasz własny klucz. Jest naprawdę przydatne przy słownictwie systemu projektowego — nazwach komponentów, nazwach tokenów, słowach, które zwykła autokorekta przekręca w coś żenującego. Whisper obsługuje też ponad 90 języków w trybie lokalnym i chmurowym, więc zespół piszący teksty UI po niemiecku i sprawdzający je po angielsku nie musi przełączać narzędzi.

Mosiężna kłódka zabezpieczająca drut na słupku, symbolizująca prywatne przetwarzanie na urządzeniu

Tryb lokalny działa całkowicie offline. Żadnego internetu podczas transkrypcji, a twoje audio nigdy nie opuszcza urządzenia — jedyny raz, gdy potrzebujesz połączenia, to jednorazowe pobranie modelu, gdzieś między około 140 MB a 3 GB, zależnie od tego, który model wybierzesz. Potem sieć może być wyłączona, a dyktowanie nadal działa w pociągu, w samolocie, w biurze, które blokuje połowę internetu.

Mówiąc między nami, to ta część, na którą nie poszedłbym na żaden kompromis. Dyktowanie wyłącznie w chmurze to katastrofa prywatności czekająca na transkrypcję. Adnotacja, którą dyktujesz, może opisywać niewydany produkt, ekran cennika, przepływ bezpieczeństwa — to dokładnie ten rodzaj rzeczy, który nie powinien przechodzić przez logi dostawcy tylko dlatego, że chciałeś pominąć pisanie. Droga wtyczkowa zależy od silnika mowy przeglądarki i osobnego okna; dyktowanie lokalne trzyma audio na tym jednym urządzeniu, które i tak już ma mikrofon i całkiem dobry procesor. Jeśli masz do czynienia z czymkolwiek wrażliwym, ta różnica przestaje być miłym dodatkiem.

Kiedy wtyczka do Figmy albo dyktowanie systemowe ma więcej sensu

Widok z góry na biurko z gadżetami, notesem i przyborami do szkicowania ułożonymi obok siebie

Nie instalowałbym Whispera każdemu. Jeśli dyktujesz tylko sporadyczny pięciowyrazowy komentarz i żyjesz wyłącznie w Figmie w karcie przeglądarki, darmowa wtyczka społecznościowa jak „Voice to Text for Figma” wykona zadanie — otwórz narzędzie głosowe, mów, gotowe. Bez pobierania.

I możesz nie potrzebować niczego z tego. Windows ma wbudowane darmowe dyktowanie — naciśnij Win+H i mów do większości aktywnych pól, w tym w Figmie. macOS ma Dictation w ustawieniach klawiatury. Oba są darmowe, żaden nie wymaga instalacji, a do krótkich serii są całkowicie w porządku. Po desktopową aplikację do dyktowania jak Whisper sięgnij, gdy chcesz trzech rzeczy, których darmowe opcje nie do końca dają: żeby działało offline z audio pozostającym na twoim urządzeniu, jeden skrót w każdej aplikacji zamiast tylko w Figmie, oraz czyszczenie AI technicznego słownictwa systemu projektowego. Jeśli żadna z tych rzeczy cię nie obchodzi, oszczędź miejsce na dysku — twój gładzik przetrwa kolejny rok.

Willow to kolejne narzędzie do dyktowania na poziomie systemu wycelowane w ten sam workflow w Figmie — skrót w dowolnym polu tekstowym, bez wtyczki — więc to nie tylko my w tej kategorii. Uczciwy krajobraz jest taki: wtyczki do szybkiego dyktowania w przeglądarce, twój system operacyjny do krótkich darmowych serii i desktopowa aplikacja do dyktowania, gdy chcesz mieć to wszędzie i offline.

Konfiguracja: trzy kroki, bez wtyczki do Figmy

Nie dotykasz przy tym menu wtyczek Figmy. Cały sens jest taki, że narzędzie do dyktowania żyje poza Figmą.

  1. Pobierz i zainstaluj Whispera na Windowsie lub macOS, a potem zaloguj się. Lokalny pipeline jest darmowy, bez karty przy rejestracji; funkcje Cloud to płatna część Pro.
  2. Potwierdź swój skrót. Domyślnie to Ctrl+Space na Windowsie i Command+Option na macOS — zmień go w ustawieniach, jeśli koliduje z czymś, czego już używasz.
  3. Otwórz Figmę, kliknij w dowolne pole tekstowe — komentarz, warstwę, karteczkę — przytrzymaj skrót, mów, puść. Słowa pojawiają się przy kursorze.

I tyle. Żadnego zatwierdzania wtyczki, żadnego wyskakującego okna przeglądarki, żadnej konfiguracji per aplikacja. Za pierwszym razem, gdy to pokazywałem, wciąż odruchowo sięgałem z przyzwyczajenia do menu wtyczek Figmy, a potem przypominałem sobie, że nie ma czego instalować. Jeśli kiedykolwiek chciałeś pisać szybciej głosem we wszystkich swoich aplikacjach, przypadek Figmy to tylko jeden przystanek na tej drodze. Tej samej konfiguracji ludzie używają, by dyktować w ClickUp i w większości innych narzędzi.

Moja siedmiolatka rozgryzła skrót, zanim rozgryzła, która aplikacja to Figma. Przytrzymała klawisz, opowiedziała karteczkę o smoku i puściła, a słowa po prostu tam były — żadnego menu, żadnej wtyczki, żadnego pojęcia, że cokolwiek z tego miało być trudne. To jest poprzeczka. Jeśli dziecko potrafi podyktować smoka na karteczkę bez czytania instrukcji, projektant potrafi podyktować notatkę do handoffu między łykami kawy. Ręce i tak nigdy nie były sednem tej pracy. To samo podejście działa przy zamianie mowy na tekst na Macu w pozostałych twoich aplikacjach.

Gotowy, żeby przestać wpisywać komentarze?

Pobierz Whispera, kliknij w dowolne pole w Figmie, przytrzymaj skrót i patrz, jak pojawia się transkrypcja — bez wtyczki, bez wyskakującego okna przeglądarki.

Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.

Zdjęcie Denysa Medvedieva

Denys Medvediev

To ja czytam nasz mail wsparcia, najpewniej dyktując odpowiedzi.