Wyjaśnienie
Jak uruchomić Whisper lokalnie
Są dwa uczciwe sposoby na uruchomienie Whisper na własnym komputerze: ścieżka deweloperska przez Python i wiersz poleceń albo aplikacja desktopowa, która robi to za ciebie bez terminala. Oba zostawiają dźwięk na twoim komputerze. Tu omawiam każdą z opcji i kiedy wybrać którą.
Ostatnia aktualizacja: czerwiec 2026

Uruchomienie Whisper lokalnie oznacza transkrypcję audio na własnym komputerze, a nie na serwerze w chmurze. Są dwie ścieżki: zainstalowanie open-source'owego Whisper od OpenAI za pomocą Python, pip i ffmpeg i uruchamianie z wiersza poleceń, albo użycie aplikacji desktopowej jak Whisper by Remskill, która dołącza modele i dyktuje w miejscu kursora bez żadnego terminala. Oba rozwiązania trzymają audio na urządzeniu.
Whisper to open-source'owy model zamiany mowy na tekst od OpenAI, wydany na licencji MIT. Powodem, dla którego fraza "jak uruchomić Whisper lokalnie" jest tak często wyszukiwana, jest to, że faktycznie działa na własnym sprzęcie, za darmo. Bez klucza API, bez opłat za minutę, bez wysyłania audio poza laptopa. To naprawdę uczciwa oferta, a oficjalny projekt na GitHubie daje ci wszystko od razu.
Haczyk tkwi w tym, co "uruchomić" oznacza. Oficjalna ścieżka to narzędzie wiersza poleceń. Instalujesz Python, wpisujesz `pip install openai-whisper`, instalujesz ffmpeg, kierujesz terminal na plik audio. To świetne, jeśli masz folder nagrań do przetworzenia wsadowego. Mniej świetne, jeśli tak naprawdę chciałeś mówić do maila i mieć słowa, które się pojawiają. To dwa różne zadania i uczciwie omówię oba.
Oto rozwidlenie, które większość stron przemilcza. "Uruchom Whisper lokalnie" może oznaczać dwie zupełnie różne rzeczy, zależnie od tego, kto pyta. Dla dewelopera: pobierz model na dysk i transkrybuj pliki ze skryptu. Dla pisarza czy handlowca: przestań pisać i niech mój głos zamieni się w tekst w dowolnej aplikacji, którą mam otwartą.
Prawdziwe pytanie to nie tylko "jak zainstalować Whisper", ale "którego lokalnego Whisper szukam — CLI do przetwarzania wsadowego i skryptów, czy skrótu klawiszowego dyktującego w miejscu kursora". Pierwsza opcja to oficjalny projekt OpenAI i jest świetna w tym, do czego służy. Druga to aplikacja desktopowa uruchamiająca tę samą rodzinę modeli bez wiersza poleceń. Skonfigurujemy oba, pokażę ci realia sprzętowe i powiem wprost, kiedy terminal jest lepszym wyborem.
Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Uruchomienie Whisper lokalnie oznacza, że transkrypcja odbywa się na procesorze twojego komputera, a nie na jakimś serwerze. Dajesz mu audio, model zamienia je w tekst i nic nie opuszcza maszyny. Na tym polega urok. Arkusz wynagrodzeń szefa przeczytany na głos, mail do szkoły dziecka, nagrana rozmowa z klientem — żadna z tych rzeczy nie trafi do logów dostawcy tylko dlatego, że chciałeś pisać głosem. Lokalnie albo wcale — tak to widzę, i otaguje tę opinię numerem nieco dalej.
Whisper sam w sobie to tylko model. OpenAI go wytrenowało i wydało wagi na licencji MIT, dlatego każdy może go pobrać i uruchomić bez płacenia. Istnieje kilka rozmiarów modeli — od małego z 39 milionami parametrów po duży z 1,55 miliarda — i wybierasz zależnie od tego, ile dokładności potrzebujesz versus ile twój sprzęt jest w stanie udźwignąć. Model jest ten sam niezależnie od tego, czy uruchamiasz go z terminala, czy z aplikacji. Zmienia się tylko opakowanie.
I właśnie to opakowanie jest sednem pytania. Istnieją dwa, oba uzasadnione. Oficjalne narzędzie wiersza poleceń OpenAI: bezpłatne, skryptowalne, oparte na Python, stworzone do transkrypcji plików. I aplikacje desktopowe, które ładują ten sam rodzaj modelu za zwykłym oknem, tak żebyś naciskał klawisz i mówił zamiast wpisywać polecenia. Nudna prawda jest taka, że większość osób szukających tej frazy chce jednej z tych dwóch rzeczy i jeszcze nie wie której. Kolejne dwie sekcje to dokładnie te dwie ścieżki.
Ścieżka dewelopera: Python, pip i ffmpeg
Jeśli czujesz się swobodnie w terminalu, oficjalny projekt to najczystsza odpowiedź i jest naprawdę bezpłatny. Potrzebujesz trzech rzeczy: Python (projekt celuje w wersje 3.8–3.11), sam pakiet Whisper i ffmpeg, czyli narzędzie audio, na którym Whisper opiera się do odczytu plików. Instalacja to dwa polecenia. `pip install -U openai-whisper` pobiera pakiet i jego zależność PyTorch. Potem ffmpeg, zależnie od systemu — `brew install ffmpeg` na Mac, `choco install ffmpeg` lub `scoop install ffmpeg` na Windows, `sudo apt install ffmpeg` na Ubuntu.
Po zainstalowaniu uruchamiasz go na pliku. `whisper audio.mp3 --model turbo` transkrybuje nagranie i wypisuje tekst. Dodaj `--language Japanese`, żeby pominąć automatyczne wykrywanie języka, albo `--task translate`, żeby nagranie w innym języku wyszło po angielsku. To sedno narzędzia. Plik wchodzi, tekst wychodzi — i jest w tym naprawdę dobry. Skieruj go na folder notatek głosowych na noc, a przetworzy każdą bez twojego nadzoru.
Realia sprzętowe to miejsce, gdzie oczekiwania rozbijają się o ścianę. Oficjalne rozmiary modeli to tiny (39M parametrów), base (74M), small (244M), medium (769M), large (1,55B) i turbo (809M). To, ile VRAM każdy potrzebuje, mówi ci prawdę: mniej więcej 1 GB dla tiny, około 2 GB dla small, około 5 GB dla medium i mniej więcej 10 GB dla large. Liczby te są pisane z myślą o GPU. Mniejsze modele możesz uruchomić na CPU, ale dyskretna karta graficzna sprawia, że te większe stają się znośne. Raz narysowałem czystą konfigurację "po prostu uruchomię large na laptopie", a potem patrzyłem, jak czołga się na zintegrowanej grafice. Diagram zawsze okazuje się błędny po drugim commicie. CPU skończy w końcu; duży model na cienkim laptopie to nie jest plan na wtorkowe popołudnie.
Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej
Jeśli nigdy nie chcesz widzieć wiersza poleceń, to jest ta druga uczciwa opcja. Whisper by Remskill to aplikacja desktopowa dla Windows 10 lub nowszego i Maców z Apple Silicon, która uruchamia Whisper lokalnie za ciebie — modele pobierają się wewnątrz aplikacji, bez pip, bez ffmpeg, bez Python. Obsługuje też Parakeet, drugi lokalny silnik, do którego dojdę. Cały lokalny pipeline jest bezpłatny dla każdego zalogowanego konta, bez wymagania danych płatniczych przy rejestracji. Oto sekwencja.
Krok 1 — Zainstaluj Whisper i zaloguj się.
Pobierz ze strony pobierania, zainstaluj i utwórz bezpłatne konto. Bez karty. Lokalny pipeline transkrypcji otwiera się od razu.
Wszystko zadziałało, gdy ikona aplikacji pojawi się w zasobniku i kreator konfiguracji zaproponuje wybór modelu.
Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.
Aplikacja nie wybiera za ciebie. Masz trzy opcje: Cloud (OpenAI, własny klucz), Local Parakeet lub Local Whisper. Żeby wszystko działało na własnym komputerze, wybierz jeden z dwóch lokalnych silników i pozwól modelowi pobrać się w aplikacji.
Wszystko zadziałało, gdy model skończy się pobierać i pokaże się jako gotowy.
Krok 3 — Potwierdź swój skrót klawiszowy.
Na Windows domyślny to Ctrl+Space, na Mac Command+Option trzymane jako naciśnij-i-mów. Na Mac przyznaj uprawnienie Dostępności gdy zostaniesz o to poproszony; bez niego wklejanie w miejscu kursora nie dotrze do innych aplikacji.
Wszystko zadziałało, gdy testowe nagranie wklei się do dowolnego pola tekstowego.
Krok 4 — Ustaw kursor gdziekolwiek i mów.
Kliknij w dowolne pole tekstowe — mail, dokument, czat — przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja pojawia się tam, gdzie jest kursor.
Wszystko zadziałało, gdy powiedziane zdanie siedzi w polu tekstowym jako tekst.
Wolna część to pobieranie modelu — tak samo jak na ścieżce CLI, bo wagi to wagi. Reszta to cztery kroki powyżej. Różnica polega na tym, że nie ma terminala między tobą a modelem, a zamiast plik-wchodzi-tekst-wychodzi, dostajesz skrót klawiszowy dyktujący wszędzie tam, gdzie akurat jest kursor. Ten sam Whisper pod spodem, inne zadanie na wierzchu.
Który model i jakiego sprzętu potrzebujesz
Obie ścieżki wymagają wyboru modelu i wybór sprowadza się do tego samego kompromisu: większe modele są dokładniejsze i wolniejsze, mniejsze szybsze i lżejsze. W oficjalnym CLI duży model chce mniej więcej 10 GB VRAM, a mały około 2 GB, więc karta graficzna wyznacza sufit. W aplikacji desktopowej modele Whisper dzielą się na anglojęzyczne i wielojęzyczne, przy czym domyślny model angielski waży około 480 MB na dysku, a największy wielojęzyczny około 3 GB. Warianty wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski; warianty anglojęzyczne — wyłącznie angielski.
Warto tu wspomnieć o drugim lokalnym silniku aplikacji, bo omija problem sprzętowy wielu osób. Parakeet to model TDT firmy NVIDIA, około 600 MB, działający 5 do 10 razy szybciej niż Whisper na CPU. Obsługuje angielski plus 24 inne europejskie języki, łącznie 25, bez tłumaczenia na angielski. Jeśli głównie mówisz po angielsku i nie masz potężnego GPU, Parakeet to szybki wybór lokalny. Jeśli potrzebujesz chińskiego, japońskiego, koreańskiego lub tłumaczenia — to terytorium wielojęzycznego Whisper, na które Parakeet nie dociera. Podczas mówienia pojawia się mała kapsułka sygnalizująca nasłuchiwanie:
Najlepsza rzecz, jaką możesz zrobić dla dokładności, to wcale nie większy model. Mikrofon USB za kilkadziesiąt złotych robi więcej dla twojej transkrypcji niż przeskoczenie o dwa rozmiary modelu — czyste audio wchodzące do systemu bije cięższy model karmiony bełkotem wbudowanego mikrofonu laptopa. Najpierw wydaj pieniądze na mikrofon, potem martw się o model. To jedyna rada sprzętowa, za którą publicznie ręczę.
Lokalnie czy w chmurze: który tryb do którego zadania
Jeśli twój komputer to Apple Silicon lub PC z ostatnich kilku lat, najpierw spróbuj lokalnie. Chmura to wyjście awaryjne, nie domyślna opcja. Ale aplikacja desktopowa każe ci wybierać spośród trzech ścieżek i wolę, żebyś wybrał świadomie — oto czym się różnią.
Oto jak różnią się te trzy ścieżki, bo aplikacja każe ci wybrać:
- Local Parakeet — Silnik TDT firmy NVIDIA, około 600 MB — najszybsza opcja lokalna, 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski plus 24 inne europejskie języki, łącznie 25. Bez tłumaczenia na angielski. Jeśli dyktuj po angielsku lub innym języku europejskim i zależy ci na szybkości bez GPU — to w pełni offline'owy wybór.
- Local Whisper — wolniejszy niż Parakeet na tym samym sprzęcie, ale warianty wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski. Warianty anglojęzyczne obsługują tylko angielski, nie 99. Wybierz go do chińskiego, japońskiego, koreańskiego lub jakiegokolwiek tłumaczenia, czego Parakeet nie potrafi. Domyślny model angielski waży około 480 MB, największy wielojęzyczny — około 3 GB.
- Cloud (OpenAI, BYOK) — najlepsza dokładność i dostęp do internetu, przy użyciu własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Transkrypcja domyślnie działa na gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, która opuszcza twój komputer. Funkcja Cloud jest częścią Whisper Pro.
Nudna prawda jest taka, że do codziennego dyktowania lokalne jest w zupełności wystarczające, a oba lokalne silniki działają całkowicie na twoim komputerze, nie wysyłając nic na serwer. Chmura zasługuje na swoje miejsce, gdy chcesz najwyższej dokładności przy trudnym nagraniu albo potrzebujesz, żeby model wyciągnął jakiś fakt z internetu w środku zdania. Niezależnie od tego, którą ścieżką uruchomiłeś Whisper lokalnie — CLI czy aplikacją — historia prywatności jest ta sama: audio zostaje na miejscu. Jeśli bycie offline to główny powód, dla którego tu jesteś, zamiana mowy na tekst offline zagłębia się w ten temat.
Dokładność, interpunkcja i porządkowanie surowej transkrypcji
Cokolwiek uruchamia Whisper, surowe dyktowanie wychodzi jako jeden ciąg. Mówisz "dobra to transkrybuj nagranie ze standupu potem wyślij podsumowanie do zespołu przed lunchem", i to jest ta nieprzerwana ściana, którą dostarcza ci każdy silnik mowy. Oficjalne CLI daje ci ten tekst i na tym się zatrzymuje — porządkowanie to twoja robota, w skrypcie lub ręcznie. To w porządku przy transkrypcji wsadowej, gdzie i tak przetworzysz wynik później.
Aplikacja desktopowa może zrobić za ciebie ten krok porządkowania, zanim tekst wyląduje. Powiedz frazę aktywacyjną "Hey whisper", a przebieg AI usuwa zapychacze, naprawia urwane zdania i dodaje interpunkcję. W trybie lokalnym działa to przez Ollama na twoim komputerze; w trybie chmury domyślnie przez gpt-5-mini. Różnica między surowym a oczyszczonym to różnica między transkryptem, który musisz edytować, a takim, który możesz od razu wysłać:
okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager
Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.
Dokładność to głównie kwestia modelu i mikrofonu, a mikrofon już omówiłem. Po stronie modelu większe wielojęzyczne warianty Whisper radzą sobie dobrze w 99 językach, a tryb chmury dodaje najwyższej klasy transkrypcję OpenAI, gdy nagranie jest naprawdę trudne. Ale przy czystym audio i normalnej mowie nawet małe modele są solidne, a ściganie największego modelu na słabym sprzęcie daje wolniejszy wynik za dokładność, której prawdopodobnie nie zauważysz. Dobierz model do zadania, nie do bragging rights z karty specyfikacji.
Jeśli twoim głównym celem jest mówienie zamiast pisania przez cały dzień, ten sam przepływ mów-potem-oczyść to właśnie to, co pozwala ci zamieniać głos w tekst na Windows bez otwierania terminala — o to właśnie chodzi w ścieżce bez CLI.
Kiedy wiersz poleceń to właściwy wybór

Czasem terminal jest naprawdę lepszym narzędziem i udawanie czegoś innego tylko po to, żeby sprzedać ci aplikację, byłoby nieuczciwe. Oficjalny CLI OpenAI jest bezpłatny, na licencji MIT i stworzony do zadania, którego aplikacja desktopowa nie wykonuje: transkrypcji plików wsadowo, ze skryptu. Jeśli to twoja praca — pomiń aplikację.
Sięgnij po wiersz poleceń, gdy masz folder nagrań do przetworzenia wsadowego przez noc, gdy chcesz Whisper wewnątrz większego pipeline'u Python lub na serwerze, który kontrolujesz, gdy potrzebujesz konkretnej flagi modelu, której GUI nie udostępnia, albo gdy po prostu żyjesz w terminalu i nie chcesz kolejnego okna. To też właściwy wybór na Linuksie, na który aplikacja desktopowa nie jest dostępna. CLI działa wszędzie, gdzie działają Python i ffmpeg. Żadne z tego nie jest krytyką aplikacji — to po prostu inny kształt problemu.
Sięgnij po aplikację desktopową, gdy zadaniem jest dyktowanie, nie przetwarzanie plików: chcesz mówić do maila, dokumentów, chatu i mieć słowa pojawiające się w miejscu kursora jednym klawiszem. CLI nie może wklejać w miejscu kursora innego programu — to nigdy nie było jego zadaniem. Uczciwy podział wygląda więc tak: pliki i skrypty — terminal; mówienie zamiast pisania — aplikacja. Większość ludzi, gdy już wie, czego chciała, od razu wie, po której jest stronie.
Ta sama logika na urządzeniu bez chmury sprawdza się też, gdy konfigurujesz to na Macu — poradnik w artykule zamiana głosu w tekst na Mac omawia stronę Apple Silicon, w tym uprawnienie Dostępności potrzebne skrótowi klawiszowemu.
Whisper działający na własnym komputerze to jeden z lepszych kąsków w oprogramowaniu w tej chwili — model, który OpenAI rozdało za darmo, ten sam, który duże narzędzia chmurowe po cichu wywołują, siedzący na twoim dysku za nic. Jedyna prawdziwa decyzja to które opakowanie pasuje do twojego dnia. Uruchamiam CLI, gdy mam pliki do przerobienia, i aplikację przez pozostałe 95% czasu, bo przełączam programy mniej więcej czterdzieści razy na godzinę i nie chcę za każdym razem wpisywać polecenia. Większość tego poradnika podyktowałem skrótem klawiszowym, do pola tekstowego, które nie było terminalem, z modelem działającym przez cały czas na tym samym laptopie.
Uruchom Whisper lokalnie bez terminala
Przytrzymaj skrót, mów, puść. Model działa na twoim komputerze, a transkrypcja ląduje tam, gdzie jest kursor — bez Python, pip ani ffmpeg.
Bezpłatny tryb lokalny dla każdego zalogowanego konta. Do startu nie potrzeba karty.



