Autor: Denys Medvediev

Poradnik

Głos na tekst w VS Code, wersja bez ściemy

VS Code Speech dyktuje wprost w edytorze, lokalnie i za darmo. Szczera część: do wiadomości commita, terminala i przeglądarki ogólnosystemowy skrót sięga tam, gdzie rozszerzenie edytora nie dotrze.

Ostatnia aktualizacja: czerwiec 2026

Kolorowy kod programu wyświetlony na ekranie komputera w edytorze kodu, czyli codzienne środowisko pracy programisty

Głos na tekst w VS Code działa dzięki VS Code Speech, darmowemu oficjalnemu rozszerzeniu Microsoftu, które dyktuje do edytora lokalnie i obsługuje czat głosowy z Copilotem. Do dyktowania poza edytorem — w terminalu, przeglądarce czy wiadomości commita gdzie indziej — ogólnosystemowe narzędzie takie jak Whisper wkleja tekst pod kursorem w dowolnej aplikacji. Oba działają offline.

Krótka odpowiedź brzmi: tak, i działa to dobrze. Jeśli zakładałeś, że VS Code nie radzi sobie z głosem, przestań szukać. Microsoft wydał VS Code Speech wraz z wersją 1.87 w lutym 2024, działa lokalnie i jest za darmo. Większość programistów, którzy chcą dyktować wewnątrz edytora, skończy lekturę po dwóch akapitach. Nie mam z tym problemu. Ciekawiej robi się wtedy, gdy to, co chcesz podyktować, w ogóle nie znajduje się w edytorze.

Oto rzecz, o której nikt nie mówi wprost. Dyktowanie kodu to kiepski pomysł — spróbuj powiedzieć na głos „nawias otwierający, camelCase, user ID, nawias zamykający”, a poddasz się przed lunchem. Ale głos do tekstu wokół kodu — wiadomości commitów, komentarze, pliki README, opis PR-a, który od dawna odkładasz — bije pisanie na klawiaturze. Dyktowanie idzie w tempie około 145 słów na minutę wobec mniej więcej 40 przy pisaniu. Ta różnica to cały powód, dla którego warto poświęcić dziesięć minut na konfigurację.

Sytuacja z głosem w VS Code: rozszerzenie VS Code Speech

Zbliżenie na laptopa z uruchomionym oprogramowaniem do programowania obok kubka kawy, typowe środowisko edytora przed dodaniem wprowadzania głosowego

VS Code domyślnie nie ma włączonej zamiany głosu na tekst. Dodajesz ją jednym oficjalnym rozszerzeniem. Otwórz widok Rozszerzenia, wyszukaj VS Code Speech, upewnij się, że wydawcą jest Microsoft (wpis ms-vscode.vscode-speech w Marketplace), i zainstaluj. Bez klucza API, bez rejestracji i bez planu płatnego. Pobierze się niewielki lokalny model mowy i już działasz.

Aby dyktować do edytora, uruchom polecenie Voice: Start Dictation in EditorCtrl+Alt+V na Windows i Linux, Opt+Cmd+V na Macu. Zatrzymujesz poleceniem Voice: Stop Dictation in Editor, przypisanym do Escape. Naciśnij i przytrzymaj ten sam skrót, by uruchomić to, co Microsoft nazywa „trybem krótkofalówki”: rozpoznawanie działa, dopóki trzymasz klawisze, i zatwierdza w chwili, gdy je puścisz. To najbliższe odpowiednikowi przycisku push-to-talk, jaki ma edytor.

To samo rozszerzenie robi jeszcze jedną, osobną rzecz: czat głosowy z GitHub Copilotem. Uruchom Chat: Start Voice Chat (Ctrl+I / Cmd+I), albo włącz słowo aktywujące „Hey Code” i rozmawiaj z Copilot Chat bez użycia rąk. Żadne ogólne narzędzie do dyktowania tego nie powtórzy. Jeśli przyszedłeś tu po rozmowę z Copilotem, odpowiedzią jest VS Code Speech — i drugiej nie ma.

Jedna uwaga porządkowa: oficjalna dokumentacja VS Code wymienia 26 obsługiwanych języków, ustawianych przez accessibility.voice.speechLanguage. Możesz trafić na starszą stronę wiki microsoft/vscode, która mówi „tylko angielski” — jest nieaktualna. Wygrywa żywa dokumentacja.

Działa na Twoim komputerze, offline — i ma to mniejsze znaczenie, niż myślisz

Kłódka zabezpieczająca biało-niebieskie drzwi w paski, symbol prywatnego dyktowania pozostającego na Twoim komputerze

VS Code Speech działa lokalnie. Według oficjalnej dokumentacji obsługi głosu w VS Code „nagrania nigdy nie są wysyłane do żadnej usługi online, lecz przetwarzane lokalnie na Twoim komputerze”. Po pobraniu modelu internet nie jest potrzebny; Twoje wypowiedziane komentarze zostają na laptopie.

Chcę być w tej kwestii uczciwy, bo właśnie tu wiele „alternatywnych” artykułów zaczyna kombinować. Tryb lokalny Whispera również jest w pełni offline, a dźwięk nigdy nie opuszcza komputera. Czyli offline to nie przewaga wyłącznie Whispera. To remis. Tak samo z ceną — VS Code Speech jest darmowy, a lokalny pipeline Whispera jest darmowy i nie wymaga karty przy rejestracji. Jeśli ktoś każe Ci zmienić narzędzie, „bo działa offline i jest za darmo”, sprzedaje Ci coś, co już masz.

Prawdziwa różnica to zasięg. VS Code Speech działa lokalnie i za darmo wewnątrz VS Code. Pytanie brzmi: co robisz, gdy tekst trafia gdzie indziej.

Czego VS Code Speech nie dosięgnie: wszystkiego poza VS Code

VS Code Speech dyktuje do edytora i do czatu. Taki jest jego zakres, z założenia — nie wpisuje tekstu do zintegrowanego terminala jako ogólnego wejścia, nie sięga przeglądarki i nie dotyka Slacka, Jiry ani Twojego klienta git z GUI. Nic z tego nie jest wadą. Rozszerzenie edytora, które po cichu przejęłoby całą klawiaturę, byłoby gorszym rozszerzeniem.

Ale pomyśl, gdzie tak naprawdę żyje proza programisty. Wiadomość commita w terminalu albo w osobnym kliencie git. Opis PR-a na GitHubie w przeglądarce. Sposób na odtworzenie błędu, który wklejasz do zgłoszenia w Jirze albo issue na GitHubie. Wiadomość na Slacku tłumacząca, dlaczego build jest na czerwono. Niemal nic z tego nie dzieje się w panelu edytora. Dzieje się w pięciu innych oknach, a rozszerzenie edytora nie pójdzie tam za Tobą.

To właśnie ta luka — edytor to jedno okno z ośmiu.

Whisper do prozy wokół kodu, w dowolnej aplikacji

Whisper to aplikacja desktopowa na Windows i macOS, nie rozszerzenie do VS Code. Ponieważ działa na poziomie systemu operacyjnego, wkleja transkrypcję pod kursorem w każdej aplikacji, w której da się pisać — w edytorze VS Code i zintegrowanym terminalu, owszem, ale też w przeglądarce, Slacku, Teams, Gmailu, Twoim IDE od JetBrains czy w Notion. Jeden skrót, każde okno.

Cancel
Nakładka nagrywania: mała kapsułka, która pojawia się, gdy mówisz, byś wiedział, że Whisper słucha.

Skrót to Ctrl+Space na Windows i Command+Option (push-to-talk) na macOS. Przytrzymaj, mów, puść, a tekst ląduje tam, gdzie już był Twój kursor. Jeśli Command+Option wygląda bardzo podobnie do Opt+Cmd+V z VS Code Speech — dobre oko. Te same klawisze modyfikujące, różne mechanizmy: jeden to polecenie wewnętrzne VS Code, drugi to ogólnosystemowy skrót, który możesz zmienić w Ustawieniach. Nie kłócą się ze sobą; żyją na różnych warstwach.

To jedyna opinia, na którą sobie tu pozwolę: najlepszy trik na produktywność to mniej kroków, a nie szybsze kroki. Przełączanie okien, szukanie właściwej komendy głosowej dla danej aplikacji, pamiętanie, które narzędzie dyktuje gdzie — to wszystko są kroki. Jeden ogólnosystemowy skrót, który działa tak samo w terminalu jak w przeglądarce, usuwa ten krok. Prędkość jest miła, ale prawdziwa wygrana to brak konieczności zastanawiania się, w którym oknie właśnie jesteś.

Cała aplikacja, na żywo

Whisper
Prawdziwa aplikacja desktopowa Whisper — wybierz ścieżkę transkrypcji, a potem przytrzymaj skrót gdziekolwiek, a tekst pojawi się pod kursorem.

Powyżej widzisz prawdziwą aplikację desktopową — ustawienia, tryby, wszystko. Whisper obsługuje ponad 90 języków zarówno w trybie lokalnym, jak i chmurowym (linia modeli wielojęzycznych sięga 99+; wersje .en są tylko po angielsku). VS Code Speech obejmuje 26. Nigdy jednak nie namawiałbym Cię do zmiany ze względu na liczbę. Zmieniłbyś dla zasięgu.

Posprzątaj dyktowanie automatycznie

Thinking...

Oto jedna rzecz, której surowe dyktowanie za Ciebie nie zrobi. Whisper ma opcjonalny przebieg porządkujący z udziałem AI, który zmienia rozwlekle podyktowaną wiadomość commita w czysty tekst — lokalnie przez Ollama w trybie darmowym albo przez OpenAI w wersji Pro. Mówisz „eee, napraw to, gdzie przycisk logowania, no wiesz, nie działa na Safari”, a wychodzi z tego zdanie, które naprawdę dałbyś do commita. Kiedyś wypchnąłem commit, który brzmiał po prostu „napraw to coś”. Ja z przyszłości nie podziękowałem mi z przeszłości. VS Code Speech robi czyste dyktowanie; przebieg porządkujący to funkcja Whispera. Dla wiadomości commitów i opisów PR-ów to różnica między dyktowaniem, które oszczędza czas, a dyktowaniem, które poprawiasz ręcznie.

Nie dyktuj samego kodu

To jest granica, a programistyczna publiczność wyczuje ją natychmiast, jeśli zacznę owijać w bawełnę, więc powiem wprost: nie pisz kodu źródłowego głosem i nie ufaj żadnemu narzędziu, które twierdzi, że się da. Siedemnaście symboli w jednej linijce TypeScriptu sprawia, że dyktowanie kodu jest wolniejsze niż gładzik, którego unikałeś. Whisper jest do prozy wokół kodu, nie do kodu. Komentarze, wiadomości commitów, dokumenty markdown, pliki README, tekst PR-a, wątek na Slacku. Tam, gdzie piszesz po angielsku, wygrywa głos. Tam, gdzie piszesz składnię, klawiatura już dawno wygrała.

I żeby było równie jasno w drugą stronę: Whisper nie obsługuje czatu głosowego z Copilotem. To nie zamiennik VS Code Speech — to narzędzie do pozostałych ośmiu okien.

Kiedy VS Code Speech jest lepszym wyborem

Szczegółowe zbliżenie na klawisze strzałek czarnej klawiatury, kojarzące się z poleceniami edytora i skrótami w narzędziu

Wolę stracić Cię na rzecz właściwego narzędzia niż zatrzymać przy niewłaściwym. Więc wprost: jeśli wszystko, czego potrzebujesz, to dyktować wewnątrz edytora VS Code albo rozmawiać głosem z Copilot Chat, zainstaluj VS Code Speech i całkowicie pomiń Whispera. Jest darmowy, oficjalny, działa lokalnie, obsługuje 26 języków i ma słowo aktywujące „Hey Code”, którego żadne ogólne narzędzie do dyktowania nie powtórzy. Nie dodawaj drugiej aplikacji do zadania, które wbudowana robi już sama.

Jeszcze dwa przypadki. Po pierwsze, Linux — VS Code Speech jest dostępny na Linuksie; Whisper desktop działa tylko na Windows i macOS. Jeśli jesteś na Linuksie, pytanie samo się rozstrzyga. Po drugie, praca wyłącznie w edytorze — jeśli Twoje dyktowanie naprawdę odbywa się tylko w panelu edytora, ogólnosystemowy skrót rozwiązuje problem, którego nie masz. Sięgnij po Whispera, gdy proza żyje poza VS Code. W przeciwnym razie wbudowane rozwiązanie wystarczy, a „wystarczy” to dobre miejsce, żeby się zatrzymać.

Jeśli edytor to jedyne miejsce, w którym dyktujesz, ten artykuł skończyłeś trzy sekcje temu i to dobry wynik. VS Code Speech jest właściwym domyślnym wyborem, jest darmowy i rozmawia z Copilotem. Tego dnia, gdy Twój głos musi wylądować w terminalu, w przeglądarce i w wiadomości commita bez śledzenia, w którym oknie jesteś — wtedy ogólnosystemowy skrót zarabia na siebie. Większość tego artykułu podyktowałem, nie dotykając edytora. Kod, rzecz jasna, napisałem na klawiaturze.

Podyktuj swoją następną wiadomość commita

Pobierz Whispera, przytrzymaj skrót i patrz, jak transkrypcja ląduje w terminalu, przeglądarce albo edytorze — tam, gdzie już jest Twój kursor.

Jeśli jesteś na Macu, oto konfiguracja dla macOS.

Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.

Zdjęcie Denysa Medvedieva

Denys Medvediev

To ja czytam nasze maile z pomocą techniczną, najpewniej dyktując odpowiedzi.