Autor: Denys Medvediev

Rozwiązywanie problemów

Dyktowanie w Windows utknęło na inicjalizacji

Pisanie głosowe (Win+H), które zawiesza się na komunikacie „Inicjowanie”, to prawie zawsze zablokowany proces w tle. Zakończ proces Microsoft Text Input Application w Menedżerze zadań, naciśnij ponownie Win+H i zwykle ruszy. Jeśli problem wraca, głębszą przyczyną jest usługa rozpoznawania mowy online, od której zależy ta funkcja.

Ostatnia aktualizacja: czerwiec 2026

Osoba przy laptopie sfrustrowana zawieszonym procesem na ekranie, bez twarzy w kadrze

Dyktowanie w Windows zawieszone na inicjalizacji naprawisz, kończąc proces Microsoft Text Input Application w Menedżerze zadań i naciskając ponownie Win+H. Jeśli problem wraca, wyłącz i włącz ponownie Rozpoznawanie mowy online w sekcji Prywatność i zabezpieczenia, a następnie uruchom komputer ponownie. Dedykowane narzędzie do dyktowania offline omija ten problem całkowicie, bo lokalna transkrypcja nigdy nie czeka na usługę rozpoznawania mowy online firmy Microsoft.

Naciskasz Win+H, pojawia się mały pasek Pisania głosowego i… po prostu stoi w miejscu. „Inicjowanie”. Może „Przygotowywanie”. Kropki migają. Czekasz. Mówisz mimo wszystko, z nadzieją, jak do inteligentnego głośnika, który najwyraźniej śpi. Nic się nie pojawia. Widziałem dokładnie to samo na trzech różnych komputerach, a za pierwszym razem kosztowało mnie to dobre dwadzieścia minut, zanim zorientowałem się, co tak naprawdę się zacięło.

Oto krótka wersja, zanim przejdę do długiej: to prawie nigdy nie jest mikrofon, a prawie zawsze proces w tle, który Windows uruchomił, nie dokończył i nie spróbuje ponowić sam z siebie. Naprawa zajmuje około trzydziestu sekund w Menedżerze zadań. Powód, dla którego problem ciągle wraca, to inna, wolniejsza historia o usłudze rozpoznawania mowy online, od której Win+H po cichu zależy — i to też omówię.

Rzecz, której nikt nie mówi wprost w pierwszym wyniku wyszukiwania: Pisanie głosowe w Windows nie jest samodzielną funkcją. Gdy naciskasz Win+H, Windows uruchamia proces pomocniczy i w tle łączy się z chmurową usługą rozpoznawania mowy firmy Microsoft, by wykonać właściwe rozpoznawanie. „Inicjowanie” to ekran, który widzisz, gdy ta wymiana danych się odbywa. Gdy proces pomocniczy się zatnie — zwykle po aktualizacji Windows albo po cyklu uśpienia i wybudzenia — uzgodnienie nigdy się nie kończy, a pasek stoi w miejscu w nieskończoność.

Prawdziwe pytania brzmią więc: jak odblokować to tu i teraz, jak sprawić, żeby nie wracało, i czy istnieje sposób dyktowania, który w ogóle od tego nie zależy. Odpowiem na wszystkie trzy, z dokładnymi krokami od Microsoftu, i będę szczery co do tego, kiedy wbudowana funkcja naprawdę w zupełności wystarcza.

Dlaczego dyktowanie w Windows zacina się na „Inicjowaniu”

Ekran laptopa pokazujący zawieszony stan ładowania, sugerujący zacięty proces

W Windows 11 Dyktowanie nazywa się Pisaniem głosowym i zamienia mowę na tekst za pomocą rozpoznawania mowy online. Ta ostatnia część to cała historia. Win+H to tylko interfejs. Rozpoznawanie odbywa się przez chmurową usługę mowy firmy Microsoft, a lokalny pomocnik o nazwie Microsoft Text Input Application pośredniczy w połączeniu. Gdy ten pomocnik się zawiesza, dostajesz „Inicjowanie” bez końca w zasięgu wzroku.

Z własnych wątków pomocy technicznej i dokumentacji Microsoftu wynika, że powracające przyczyny są krótkie i konkretne. Proces Microsoft Text Input Application się zacina, zwykle po aktualizacji Windows albo gdy komputer wybudzi się z uśpienia. Przełącznik prywatności Rozpoznawanie mowy online jest wyłączony, więc uzgodnienie z chmurą nigdy nie może się rozpocząć. Język wprowadzania lub mowy nie pasuje do zainstalowanego pakietu rozpoznawania. Dostęp do mikrofonu jest zablokowany na poziomie prywatności. Albo aktualizacja Windows zostawiła usługę mowy w złym stanie, a ponowne uruchomienie tego nie naprawiło.

Warto powiedzieć wprost: to nie wina sprzętu. Jeśli mikrofon działa podczas rozmowy, działa też przy dyktowaniu. Awaria jest powyżej mikrofonu, w tej części Windows, która ma za zadanie obudzić moduł rozpoznawania. To też tłumaczy, dlaczego poniższe poprawki dotyczą restartowania procesów i przełączania usług, a nie kupowania nowych słuchawek.

Szybka naprawa, która działa u większości osób

Zrestartuj proces pomocniczy. To rozwiązanie naprawia problem u zdecydowanej większości osób i zajmuje mniej niż minutę. Kroki, prosto z wątku pomocy technicznej Microsoftu:

Otwórz Menedżer zadań (kliknij prawym przyciskiem pasek zadań i wybierz Menedżer zadań albo naciśnij Ctrl+Alt+Delete i wybierz go z listy). Kliknij „Więcej szczegółów”, jeśli masz widok kompaktowy. W sekcji Procesy w tle znajdź „Microsoft Text Input Application”, kliknij prawym przyciskiem i wybierz „Zakończ zadanie”. Następnie naciśnij ponownie Win+H. Pasek Pisania głosowego uruchamia pomocnika od nowa, uzgodnienie się kończy, a pasek przechodzi z „Inicjowania” do nasłuchiwania. Jeśli proces nie pojawia się na liście, zwykłe ponowne uruchomienie komputera daje ten sam efekt — po prostu trwa dłużej.

Cancel
Dedykowana nakładka do dyktowania pokazuje, że naprawdę nasłuchuje — żadnego niejednoznacznego stanu „Inicjowanie”, na który trzeba czekać.

To naprawa, która rozwiązuje natychmiastowy problem. Nakładka powyżej pochodzi z innego narzędzia — ogólnosystemowej aplikacji do dyktowania — i jest tu po to, by pokazać jeden kontrast: lokalny rejestrator albo pokazuje, że nasłuchuje, albo pokazuje błąd. Nie ma trzeciego stanu, w którym stoi w nieskończoność, udając, że się uruchamia, bo nie ma żadnej usługi w chmurze, którą musiałby najpierw obudzić. Więcej o tym w następnej sekcji, bo jeśli zdarza ci się to co tydzień, trwałą odpowiedzią jest przestać polegać na czymś, co ciągle się zawiesza.

Trwała naprawa: dyktowanie, które nigdy się nie inicjalizuje

Jeśli kończysz to samo zadanie co drugi dzień, trwałą naprawą jest przestać polegać na funkcji, która zanim zadziała, musi zadzwonić do domu. Lokalne narzędzie do dyktowania wykonuje transkrypcję na twoim komputerze — nie ma usługi rozpoznawania mowy online, którą trzeba budzić, więc nie ma żadnego „Inicjowania”, na którym można utknąć. Potrzebujesz komputera z Windows 10 lub nowszym oraz działającego mikrofonu. Oto konfiguracja w czterech krokach z Whisper.

Krok 1 — Zainstaluj Whisper i zaloguj się.

Pobierz ze strony pobierania, zainstaluj i załóż darmowe konto. Bez karty. Cały lokalny proces transkrypcji otwiera się od razu.

Poznasz, że się udało, gdy w zasobniku systemowym pojawi się ikona aplikacji, a kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz lokalną ścieżkę transkrypcji.

Aplikacja nie wybiera za ciebie. Dla rozwiązania offline wybierz Local Parakeet (najszybszy dla angielskiego) lub Local Whisper (wielojęzyczny, z tłumaczeniem). Oba działają w całości na twoim komputerze. Dostępna jest też chmura, ale to jedyna ścieżka, która korzysta z sieci.

Poznasz, że się udało, gdy model zakończy pobieranie i wyświetli się jako gotowy.

Krok 3 — Ustaw skrót klawiszowy.

Domyślny skrót w Windows to Ctrl+Space, przytrzymywany jak przycisk „naciśnij i mów”. Wybierz coś innego w Ustawieniach, jeśli Ctrl+Space koliduje z inną aplikacją. To dedykowany klawisz, więc nie przejmie fokusu ani nie zatrzyma się automatycznie, jak potrafi Win+H.

Poznasz, że się udało, gdy testowe nagranie wklei się w dowolne pole tekstowe.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Kliknij w dowolne pole tekstowe — e-mail, dokument, pasek wyszukiwania — przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja wkleja się tam, gdzie jest kursor, przepisana lokalnie, bez ekranu inicjalizacji.

Poznasz, że się udało, gdy wypowiedziane zdanie pojawi się jako tekst, bez czekania na uzgodnienie z chmurą.

Whisper
Prawdziwa aplikacja desktopowa Whisper na ekranie ustawień, z otwartymi panelami Transkrypcji i AI.

Jedyną wolną częścią jest jednorazowe pobranie modelu. Potem aplikacja działa lokalnie, więc tryb awarii, który cię tu przywiódł — zacięty pomocnik czekający na serwer — po prostu nie istnieje w tym projekcie. Nagrywa, przepisuje na twoim procesorze i wkleja. Nie ma w obiegu żadnej usługi rozpoznawania mowy online, która mogłaby się zawiesić.

Jeśli wolisz naprawić wbudowaną funkcję

Wiele osób chce po prostu, żeby Win+H znowu działało, i nie chce kolejnej aplikacji. W porządku. Oto głębsze rozwiązywanie problemów po stronie Windows, w kolejności, w jakiej sam bym próbował, wszystko z własnej dokumentacji i wątków pomocy technicznej Microsoftu. Nic z tego nie dotyka rejestru, więc nie ma tu niczego, co mogłoby uszkodzić komputer.

Najpierw przełącznik, który większość osób pomija. Pisanie głosowe wymaga włączonego rozpoznawania mowy online. Przejdź do Start, Ustawienia, Prywatność i zabezpieczenia, Mowa i włącz Rozpoznawanie mowy online. Jeśli jest już włączone, a dyktowanie się zacina, wyłącz je, odczekaj chwilę i włącz ponownie, by zmusić usługę do ponownego nawiązania połączenia. Po drugie, sprawdź język. W Ustawienia, Czas i język, Mowa upewnij się, że język mowy pasuje do języka, w którym piszesz, oraz że pakiet rozpoznawania dla niego jest zainstalowany. Niezgodność w tym miejscu to cicha przyczyna zawieszonego paska.

Po trzecie, uprawnienia mikrofonu na poziomie systemu. W Ustawienia, Prywatność i zabezpieczenia, Mikrofon potwierdź, że „Dostęp do mikrofonu” jest włączony i że aplikacje mogą korzystać z mikrofonu — Pisanie głosowe to jedna z tych aplikacji. Po czwarte, uruchom wbudowany debuger Mowy: w starszych wersjach znajdziesz go w Ustawienia, Aktualizacja i zabezpieczenia, Rozwiązywanie problemów, Dodatkowe narzędzia do rozwiązywania problemów, Mowa. Po piąte, upewnij się, że Windows jest w pełni zaktualizowany, bo kilka z tych wątków kończy się słowami „naprawiła to późniejsza aktualizacja” — a druga strona medalu jest taka, że to czasem aktualizacja problem spowodowała. A jeśli to wszystko zawiedzie, ponowne uruchomienie naprawia usługę mowy, którą aktualizacja zostawiła w złym stanie. Szczery haczyk przy każdym z tych kroków: naprawiają objaw, a nie zależność. Win+H wciąż wymaga uzgodnienia z chmurą za każdym razem, gdy je naciśniesz, a to właśnie ta rzecz ciągle się psuje.

Lokalnie czy w chmurze: który tryb naprawdę tego unika

Jeśli powodem, dla którego tu jesteś, jest funkcja, która nie przestaje czekać na serwer, odpowiedzią jest tryb lokalny, kropka. Oba lokalne silniki działają w całości na twoim komputerze, nic nigdzie nie jest wysyłane, i o to właśnie chodzi — brak usługi rozpoznawania mowy online oznacza brak „Inicjowania”, na którym można utknąć. Oto czym faktycznie różnią się trzy ścieżki, między którymi aplikacja każe ci wybierać.

Aplikacja każe wybrać, więc oto jak ja bym o tym myślał w kontekście tego konkretnego problemu:

  • Local ParakeetSilnik TDT od NVIDIA, około 600 MB, najszybsza opcja lokalna — od 5 do 10 razy szybsza od Whisper na procesorze. Obsługuje angielski plus 24 inne języki europejskie, łącznie 25. Bez tłumaczenia na angielski. W pełni offline. Jeśli mówisz po angielsku lub w innym języku europejskim, to najszybsza droga do zejścia z karuzeli uzgodnień z chmurą.
  • Local Whisperwolniejszy od Parakeet na tym samym komputerze, ale wersje wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski. Wersje tylko angielskie obsługują wyłącznie angielski, nie 99 języków. Wybierz to do chińskiego, japońskiego, koreańskiego albo dowolnej pracy z tłumaczeniem, której Parakeet nie potrafi. Domyślny model angielski to około 480 MB. Również w pełni offline.
  • Chmura (OpenAI, BYOK)najlepsza dokładność i dostęp do sieci, z użyciem twojego własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Transkrypcja domyślnie działa na gpt-4o-mini-transcribe. Wymaga internetu — więc to jedyna ścieżka, która, podobnie jak Win+H, zależy od sieci. Powierzchnia chmurowa jest częścią Whisper Pro.

Nudna prawda jest taka, że do codziennego dyktowania tryb lokalny w zupełności wystarcza, a na konkretną frustrację, która cię tu przywiodła, lokalny jest faktycznym lekarstwem. Chmura zasługuje na swoje miejsce, gdy chcesz najwyższej dokładności przy trudnym nagraniu albo gdy potrzebujesz wyciągnąć fakt z sieci w połowie zdania. Ale jeśli twoja skarga brzmi „ciągle czeka na serwer”, wybór kolejnej ścieżki zależnej od serwera mijałby się z celem. Zacznij od lokalnego.

Czystszy tekst, gdy dyktowanie już działa

Gdy dyktowanie działa — wbudowane czy inne — napotykasz kolejną rzeczywistość: surowa mowa wychodzi jako jeden ciąg bez końca. Mówisz „dobra więc zresetuj hasło odpisz klientowi i powiedz że załatwione przed obiadem”, i to jest ta nieinterpunkcyjna ściana, którą wręcza ci każdy silnik mowy. Sprzątanie tego to miejsce, w którym narzędzia się różnią.

Pisanie głosowe w Windows potrafi dodawać interpunkcję w trakcie mówienia, gdy już działa. Do cięższego sprzątania — usuwania „yyy”, naprawiania ciągów bez końca, zamiany mówionego akapitu w coś, co naprawdę byś wysłał — Whisper może wykonać przejście AI, zanim tekst wyląduje. Powiedz frazę aktywującą „Hey whisper”, a tekst zostanie najpierw ulepszony. Na modelu lokalnym działa to przez Ollama; w trybie chmurowym jest to domyślnie gpt-5-mini.

Thinking...
Surowy

dobra więc zresetuj hasło odpisz klientowi i powiedz że załatwione przed obiadem yyy i dodaj do kopii mojego managera

Oczyszczony

Dobra, więc zresetuj hasło, odpisz klientowi i powiedz, że załatwione przed obiadem — i dodaj do kopii mojego managera.

Krok oczyszczania to też powód, dla którego dedykowane narzędzie zarabia na siebie nie tylko przez unikanie zawieszki na „Inicjowaniu”. Dostajesz nie tylko niezawodne nagrywanie; dostajesz tekst bliższy gotowemu. Jeśli chcesz szerszej wersji tego, ten sam przepływ mów-i-czyść pozwala ci pisać szybciej głosem w każdej aplikacji, którą otworzysz, a nie tylko w jednym oknie, w którym akurat wylądowało Win+H.

A ponieważ wkleja się przy kursorze w dowolnym polu, ten sam przepływ działa również w karcie przeglądarki — dyktowanie do Google Docs działa tak samo jak dyktowanie do edytora na komputerze, czego Win+H nie zawsze potrafi obiecać, gdy fokus się przesunie.

Kiedy wbudowana funkcja wystarcza

Spokojne stanowisko pracy z laptopem, sugerujące rozwiązany problem

Oto fragment, w którym odradzam ci instalowanie czegokolwiek. Jeśli zakończenie procesu Microsoft Text Input Application naprawiło sprawę i problem nie wrócił, nie potrzebujesz kolejnej aplikacji. Jednorazowe zacięcie na inicjalizacji po aktualizacji jest dokładnie tym — jednorazowe. Win+H jest darmowe, wbudowane i do krótkich zrywów naprawdę w porządku. Nie będę ci mówił, żebyś instalował oprogramowanie do podyktowania dwuwierszowej odpowiedzi.

Wbudowana droga to dobry wybór, gdy spełnionych jest kilka warunków: dyktujesz głównie krótkie teksty, i tak zawsze jesteś online, i nie masz nic przeciwko temu, by twoja mowa trafiała do chmury Microsoftu w celu rozpoznania. Ten ostatni punkt to prawdziwe rozstaje. Win+H z założenia kieruje twój głos przez usługę rozpoznawania mowy online firmy Microsoft — w porządku przy liście zakupów, wart drugiej myśli przy e-mailu do klienta czy czymkolwiek, co wolałbyś zachować na własnym komputerze.

Sięgnij po dedykowane narzędzie offline, gdy wbudowane zaczyna boleć na powtórkę: zawieszka wraca po każdej aktualizacji, dyktujesz długie fragmenty, pracujesz offline albo chcesz, by twój głos pozostał lokalny, albo chcesz jednego skrótu, który zachowuje się tak samo w każdej aplikacji, zamiast paska, który czasem się inicjalizuje, a czasem nie. Poniżej tej poprzeczki korzystaj z tego, co darmowe. Wcześniejsze poprawki w tym przewodniku są tu właśnie po to, żebyś mógł.

Jeśli prawdziwy problem jest szerszy niż ta jedna zawieszka — Win+H nic nie robi, brak jakiegokolwiek tekstu albo zły język — szersza lista kontrolna w zamiana mowy na tekst nie działa w Windows obejmuje pozostałe tryby awarii, które nie są ściśle zacięciem na „Inicjowaniu”.

Dalsza lektura

Windows dostarczył funkcję głosową, która musi obudzić usługę w chmurze, zanim napisze choć słowo, a potem nie zbudował sposobu, by ponawiała próbę, gdy obudzenie się nie uda. Więc kończymy zadanie w tle o nazwie o trzy słowa za długiej, naciskamy te same dwa klawisze ponownie i nazywamy to naprawą. Zwykle nią jest. Ale za pierwszym razem, gdy funkcja każe ci otworzyć Menedżer zadań, żeby z niej skorzystać, zaczynasz po cichu rozglądać się za taką, która tego nie wymaga. Większość tego przewodnika podyktowałem narzędziem, które ani razu nie pokazało mi słowa „Inicjowanie”. I to cała oferta.

Dyktuj bez ekranu inicjalizacji

Przytrzymaj skrót, mów, puść. Transkrypcja ląduje przy twoim kursorze w dowolnej aplikacji — przepisana lokalnie, bez usługi w chmurze do obudzenia.

Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.

Zdjęcie Denysa Medvedieva

Denys Medvediev

To ja czytam nasze maile na pomoc techniczną, najpewniej dyktując odpowiedzi.