Is Whisper free to run locally?

Yes. OpenAI released Whisper under the MIT license, so the model is free to download and run on your own hardware with no API key and no per-minute fee. The official command-line tool is free, and Whisper by Remskill's local pipeline is free for any signed-in account with no card at sign-up. The only cost is your own electricity and disk space.

How do I install Whisper on my computer?

For the developer route, install Python 3.8–3.11, run `pip install -U openai-whisper`, and install ffmpeg for your OS (`brew install ffmpeg` on Mac, `choco install ffmpeg` on Windows). For the no-terminal route, download the Whisper by Remskill desktop app, which bundles the models and needs no Python, pip, or ffmpeg.

What hardware do I need to run Whisper locally?

It depends on the model. The official VRAM guidance runs from about 1 GB for the tiny model up to roughly 10 GB for the large one, so a discrete GPU helps for the bigger models. Smaller models run on a CPU. The desktop app's Parakeet engine runs 5 to 10 times faster than Whisper on a CPU, which is the practical pick if you don't have a strong GPU.

Do I need ffmpeg to run Whisper?

For the official command-line Whisper, yes — ffmpeg is a required dependency it uses to read audio files, installed separately via your OS package manager. The Whisper by Remskill desktop app handles audio internally, so you don't install ffmpeg yourself when using it.

Which Whisper model should I use?

Bigger models are more accurate and slower; smaller ones are faster and lighter. The official sizes are tiny, base, small, medium, large, and turbo. In the desktop app, the default English model is around 480 MB and the largest multilingual one is around 3 GB. For most clean-audio dictation, a small or medium model is plenty — and a good microphone helps accuracy more than a bigger model.

Can Whisper run completely offline?

Yes. Once the model is downloaded, both the official CLI and the desktop app's local engines transcribe entirely on your machine with nothing sent to a server. That's the main reason to run it locally rather than through a cloud API. Cloud mode in the app is the only path that needs internet, and it's optional.

Can the local Whisper translate other languages to English?

Yes, the multilingual Whisper models can. On the official CLI, add `--task translate` to a non-English recording. In the desktop app, the multilingual Whisper builds cover 99 languages and can translate to English; the English-only builds and the Parakeet engine cannot translate.

What's the difference between the Whisper CLI and a desktop app?

The CLI transcribes audio files from the command line — ideal for batch jobs and scripting. A desktop app like Whisper by Remskill runs the same kind of model behind a normal window and dictates at your cursor with a hotkey, so you talk into any app instead of processing files. Same model family, two different jobs.

Autor: Denys Medvediev5 kwietnia 2026

Wyjaśnienie

Jak uruchomić Whisper lokalnie

Są dwa uczciwe sposoby na uruchomienie Whisper na własnym komputerze: ścieżka deweloperska przez Python i wiersz poleceń albo aplikacja desktopowa, która robi to za ciebie bez terminala. Oba zostawiają dźwięk na twoim komputerze. Tu omawiam każdą z opcji i kiedy wybrać którą.

Ostatnia aktualizacja: czerwiec 2026

Laptop na ciemnym biurku z wierszami kodu w oknie terminala, nawiązujący do konfiguracji wiersza poleceń

Uruchomienie Whisper lokalnie oznacza transkrypcję audio na własnym komputerze, a nie na serwerze w chmurze. Są dwie ścieżki: zainstalowanie open-source'owego Whisper od OpenAI za pomocą Python, pip i ffmpeg i uruchamianie z wiersza poleceń, albo użycie aplikacji desktopowej jak Whisper by Remskill, która dołącza modele i dyktuje w miejscu kursora bez żadnego terminala. Oba rozwiązania trzymają audio na urządzeniu.

Whisper to open-source'owy model zamiany mowy na tekst od OpenAI, wydany na licencji MIT. Powodem, dla którego fraza "jak uruchomić Whisper lokalnie" jest tak często wyszukiwana, jest to, że faktycznie działa na własnym sprzęcie, za darmo. Bez klucza API, bez opłat za minutę, bez wysyłania audio poza laptopa. To naprawdę uczciwa oferta, a oficjalny projekt na GitHubie daje ci wszystko od razu.

Haczyk tkwi w tym, co "uruchomić" oznacza. Oficjalna ścieżka to narzędzie wiersza poleceń. Instalujesz Python, wpisujesz `pip install openai-whisper`, instalujesz ffmpeg, kierujesz terminal na plik audio. To świetne, jeśli masz folder nagrań do przetworzenia wsadowego. Mniej świetne, jeśli tak naprawdę chciałeś mówić do maila i mieć słowa, które się pojawiają. To dwa różne zadania i uczciwie omówię oba.

Oto rozwidlenie, które większość stron przemilcza. "Uruchom Whisper lokalnie" może oznaczać dwie zupełnie różne rzeczy, zależnie od tego, kto pyta. Dla dewelopera: pobierz model na dysk i transkrybuj pliki ze skryptu. Dla pisarza czy handlowca: przestań pisać i niech mój głos zamieni się w tekst w dowolnej aplikacji, którą mam otwartą.

Prawdziwe pytanie to nie tylko "jak zainstalować Whisper", ale "którego lokalnego Whisper szukam — CLI do przetwarzania wsadowego i skryptów, czy skrótu klawiszowego dyktującego w miejscu kursora". Pierwsza opcja to oficjalny projekt OpenAI i jest świetna w tym, do czego służy. Druga to aplikacja desktopowa uruchamiająca tę samą rodzinę modeli bez wiersza poleceń. Skonfigurujemy oba, pokażę ci realia sprzętowe i powiem wprost, kiedy terminal jest lepszym wyborem.

Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Osoba pracująca na laptopie przy biurku, symbolizująca przetwarzanie na urządzeniu zamiast w chmurze

Uruchomienie Whisper lokalnie oznacza, że transkrypcja odbywa się na procesorze twojego komputera, a nie na jakimś serwerze. Dajesz mu audio, model zamienia je w tekst i nic nie opuszcza maszyny. Na tym polega urok. Arkusz wynagrodzeń szefa przeczytany na głos, mail do szkoły dziecka, nagrana rozmowa z klientem — żadna z tych rzeczy nie trafi do logów dostawcy tylko dlatego, że chciałeś pisać głosem. Lokalnie albo wcale — tak to widzę, i otaguje tę opinię numerem nieco dalej.

Whisper sam w sobie to tylko model. OpenAI go wytrenowało i wydało wagi na licencji MIT, dlatego każdy może go pobrać i uruchomić bez płacenia. Istnieje kilka rozmiarów modeli — od małego z 39 milionami parametrów po duży z 1,55 miliarda — i wybierasz zależnie od tego, ile dokładności potrzebujesz versus ile twój sprzęt jest w stanie udźwignąć. Model jest ten sam niezależnie od tego, czy uruchamiasz go z terminala, czy z aplikacji. Zmienia się tylko opakowanie.

I właśnie to opakowanie jest sednem pytania. Istnieją dwa, oba uzasadnione. Oficjalne narzędzie wiersza poleceń OpenAI: bezpłatne, skryptowalne, oparte na Python, stworzone do transkrypcji plików. I aplikacje desktopowe, które ładują ten sam rodzaj modelu za zwykłym oknem, tak żebyś naciskał klawisz i mówił zamiast wpisywać polecenia. Nudna prawda jest taka, że większość osób szukających tej frazy chce jednej z tych dwóch rzeczy i jeszcze nie wie której. Kolejne dwie sekcje to dokładnie te dwie ścieżki.

Ścieżka dewelopera: Python, pip i ffmpeg

Jeśli czujesz się swobodnie w terminalu, oficjalny projekt to najczystsza odpowiedź i jest naprawdę bezpłatny. Potrzebujesz trzech rzeczy: Python (projekt celuje w wersje 3.8–3.11), sam pakiet Whisper i ffmpeg, czyli narzędzie audio, na którym Whisper opiera się do odczytu plików. Instalacja to dwa polecenia. `pip install -U openai-whisper` pobiera pakiet i jego zależność PyTorch. Potem ffmpeg, zależnie od systemu — `brew install ffmpeg` na Mac, `choco install ffmpeg` lub `scoop install ffmpeg` na Windows, `sudo apt install ffmpeg` na Ubuntu.

Po zainstalowaniu uruchamiasz go na pliku. `whisper audio.mp3 --model turbo` transkrybuje nagranie i wypisuje tekst. Dodaj `--language Japanese`, żeby pominąć automatyczne wykrywanie języka, albo `--task translate`, żeby nagranie w innym języku wyszło po angielsku. To sedno narzędzia. Plik wchodzi, tekst wychodzi — i jest w tym naprawdę dobry. Skieruj go na folder notatek głosowych na noc, a przetworzy każdą bez twojego nadzoru.

Realia sprzętowe to miejsce, gdzie oczekiwania rozbijają się o ścianę. Oficjalne rozmiary modeli to tiny (39M parametrów), base (74M), small (244M), medium (769M), large (1,55B) i turbo (809M). To, ile VRAM każdy potrzebuje, mówi ci prawdę: mniej więcej 1 GB dla tiny, około 2 GB dla small, około 5 GB dla medium i mniej więcej 10 GB dla large. Liczby te są pisane z myślą o GPU. Mniejsze modele możesz uruchomić na CPU, ale dyskretna karta graficzna sprawia, że te większe stają się znośne. Raz narysowałem czystą konfigurację "po prostu uruchomię large na laptopie", a potem patrzyłem, jak czołga się na zintegrowanej grafice. Diagram zawsze okazuje się błędny po drugim commicie. CPU skończy w końcu; duży model na cienkim laptopie to nie jest plan na wtorkowe popołudnie.

Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej

Jeśli nigdy nie chcesz widzieć wiersza poleceń, to jest ta druga uczciwa opcja. Whisper by Remskill to aplikacja desktopowa dla Windows 10 lub nowszego i Maców z Apple Silicon, która uruchamia Whisper lokalnie za ciebie — modele pobierają się wewnątrz aplikacji, bez pip, bez ffmpeg, bez Python. Obsługuje też Parakeet, drugi lokalny silnik, do którego dojdę. Cały lokalny pipeline jest bezpłatny dla każdego zalogowanego konta, bez wymagania danych płatniczych przy rejestracji. Oto sekwencja.

Krok 1 — Zainstaluj Whisper i zaloguj się.

Pobierz ze strony pobierania, zainstaluj i utwórz bezpłatne konto. Bez karty. Lokalny pipeline transkrypcji otwiera się od razu.

Wszystko zadziałało, gdy ikona aplikacji pojawi się w zasobniku i kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.

Aplikacja nie wybiera za ciebie. Masz trzy opcje: Cloud (OpenAI, własny klucz), Local Parakeet lub Local Whisper. Żeby wszystko działało na własnym komputerze, wybierz jeden z dwóch lokalnych silników i pozwól modelowi pobrać się w aplikacji.

Wszystko zadziałało, gdy model skończy się pobierać i pokaże się jako gotowy.

Krok 3 — Potwierdź swój skrót klawiszowy.

Na Windows domyślny to Ctrl+Space, na Mac Command+Option trzymane jako naciśnij-i-mów. Na Mac przyznaj uprawnienie Dostępności gdy zostaniesz o to poproszony; bez niego wklejanie w miejscu kursora nie dotrze do innych aplikacji.

Wszystko zadziałało, gdy testowe nagranie wklei się do dowolnego pola tekstowego.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Kliknij w dowolne pole tekstowe — mail, dokument, czat — przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja pojawia się tam, gdzie jest kursor.

Wszystko zadziałało, gdy powiedziane zdanie siedzi w polu tekstowym jako tekst.

Whisper

Prawdziwa aplikacja desktopowa Whisper na ekranie ustawień z otwartymi panelami Transkrypcja i AI.

Wolna część to pobieranie modelu — tak samo jak na ścieżce CLI, bo wagi to wagi. Reszta to cztery kroki powyżej. Różnica polega na tym, że nie ma terminala między tobą a modelem, a zamiast plik-wchodzi-tekst-wychodzi, dostajesz skrót klawiszowy dyktujący wszędzie tam, gdzie akurat jest kursor. Ten sam Whisper pod spodem, inne zadanie na wierzchu.

Który model i jakiego sprzętu potrzebujesz

Obie ścieżki wymagają wyboru modelu i wybór sprowadza się do tego samego kompromisu: większe modele są dokładniejsze i wolniejsze, mniejsze szybsze i lżejsze. W oficjalnym CLI duży model chce mniej więcej 10 GB VRAM, a mały około 2 GB, więc karta graficzna wyznacza sufit. W aplikacji desktopowej modele Whisper dzielą się na anglojęzyczne i wielojęzyczne, przy czym domyślny model angielski waży około 480 MB na dysku, a największy wielojęzyczny około 3 GB. Warianty wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski; warianty anglojęzyczne — wyłącznie angielski.

Warto tu wspomnieć o drugim lokalnym silniku aplikacji, bo omija problem sprzętowy wielu osób. Parakeet to model TDT firmy NVIDIA, około 600 MB, działający 5 do 10 razy szybciej niż Whisper na CPU. Obsługuje angielski plus 24 inne europejskie języki, łącznie 25, bez tłumaczenia na angielski. Jeśli głównie mówisz po angielsku i nie masz potężnego GPU, Parakeet to szybki wybór lokalny. Jeśli potrzebujesz chińskiego, japońskiego, koreańskiego lub tłumaczenia — to terytorium wielojęzycznego Whisper, na które Parakeet nie dociera. Podczas mówienia pojawia się mała kapsułka sygnalizująca nasłuchiwanie:

Cancel

Nakładka nagrywania: mała kapsułka pojawiająca się podczas mówienia, żebyś wiedział, że aplikacja słucha.

Najlepsza rzecz, jaką możesz zrobić dla dokładności, to wcale nie większy model. Mikrofon USB za kilkadziesiąt złotych robi więcej dla twojej transkrypcji niż przeskoczenie o dwa rozmiary modelu — czyste audio wchodzące do systemu bije cięższy model karmiony bełkotem wbudowanego mikrofonu laptopa. Najpierw wydaj pieniądze na mikrofon, potem martw się o model. To jedyna rada sprzętowa, za którą publicznie ręczę.

Lokalnie czy w chmurze: który tryb do którego zadania

Jeśli twój komputer to Apple Silicon lub PC z ostatnich kilku lat, najpierw spróbuj lokalnie. Chmura to wyjście awaryjne, nie domyślna opcja. Ale aplikacja desktopowa każe ci wybierać spośród trzech ścieżek i wolę, żebyś wybrał świadomie — oto czym się różnią.

Oto jak różnią się te trzy ścieżki, bo aplikacja każe ci wybrać:

Local Parakeet — Silnik TDT firmy NVIDIA, około 600 MB — najszybsza opcja lokalna, 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski plus 24 inne europejskie języki, łącznie 25. Bez tłumaczenia na angielski. Jeśli dyktuj po angielsku lub innym języku europejskim i zależy ci na szybkości bez GPU — to w pełni offline'owy wybór.
Local Whisper — wolniejszy niż Parakeet na tym samym sprzęcie, ale warianty wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski. Warianty anglojęzyczne obsługują tylko angielski, nie 99. Wybierz go do chińskiego, japońskiego, koreańskiego lub jakiegokolwiek tłumaczenia, czego Parakeet nie potrafi. Domyślny model angielski waży około 480 MB, największy wielojęzyczny — około 3 GB.
Cloud (OpenAI, BYOK) — najlepsza dokładność i dostęp do internetu, przy użyciu własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Transkrypcja domyślnie działa na gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, która opuszcza twój komputer. Funkcja Cloud jest częścią Whisper Pro.

Nudna prawda jest taka, że do codziennego dyktowania lokalne jest w zupełności wystarczające, a oba lokalne silniki działają całkowicie na twoim komputerze, nie wysyłając nic na serwer. Chmura zasługuje na swoje miejsce, gdy chcesz najwyższej dokładności przy trudnym nagraniu albo potrzebujesz, żeby model wyciągnął jakiś fakt z internetu w środku zdania. Niezależnie od tego, którą ścieżką uruchomiłeś Whisper lokalnie — CLI czy aplikacją — historia prywatności jest ta sama: audio zostaje na miejscu. Jeśli bycie offline to główny powód, dla którego tu jesteś, zamiana mowy na tekst offline zagłębia się w ten temat.

Dokładność, interpunkcja i porządkowanie surowej transkrypcji

Cokolwiek uruchamia Whisper, surowe dyktowanie wychodzi jako jeden ciąg. Mówisz "dobra to transkrybuj nagranie ze standupu potem wyślij podsumowanie do zespołu przed lunchem", i to jest ta nieprzerwana ściana, którą dostarcza ci każdy silnik mowy. Oficjalne CLI daje ci ten tekst i na tym się zatrzymuje — porządkowanie to twoja robota, w skrypcie lub ręcznie. To w porządku przy transkrypcji wsadowej, gdzie i tak przetworzysz wynik później.

Aplikacja desktopowa może zrobić za ciebie ten krok porządkowania, zanim tekst wyląduje. Powiedz frazę aktywacyjną "Hey whisper", a przebieg AI usuwa zapychacze, naprawia urwane zdania i dodaje interpunkcję. W trybie lokalnym działa to przez Ollama na twoim komputerze; w trybie chmury domyślnie przez gpt-5-mini. Różnica między surowym a oczyszczonym to różnica między transkryptem, który musisz edytować, a takim, który możesz od razu wysłać:

Thinking...

Surowe

okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager

Oczyszczone

Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.

Dokładność to głównie kwestia modelu i mikrofonu, a mikrofon już omówiłem. Po stronie modelu większe wielojęzyczne warianty Whisper radzą sobie dobrze w 99 językach, a tryb chmury dodaje najwyższej klasy transkrypcję OpenAI, gdy nagranie jest naprawdę trudne. Ale przy czystym audio i normalnej mowie nawet małe modele są solidne, a ściganie największego modelu na słabym sprzęcie daje wolniejszy wynik za dokładność, której prawdopodobnie nie zauważysz. Dobierz model do zadania, nie do bragging rights z karty specyfikacji.

Jeśli twoim głównym celem jest mówienie zamiast pisania przez cały dzień, ten sam przepływ mów-potem-oczyść to właśnie to, co pozwala ci zamieniać głos w tekst na Windows bez otwierania terminala — o to właśnie chodzi w ścieżce bez CLI.

Kiedy wiersz poleceń to właściwy wybór

Dwie rozchodzące się ścieżki ilustrujące wybór między wierszem poleceń a aplikacją desktopową

Czasem terminal jest naprawdę lepszym narzędziem i udawanie czegoś innego tylko po to, żeby sprzedać ci aplikację, byłoby nieuczciwe. Oficjalny CLI OpenAI jest bezpłatny, na licencji MIT i stworzony do zadania, którego aplikacja desktopowa nie wykonuje: transkrypcji plików wsadowo, ze skryptu. Jeśli to twoja praca — pomiń aplikację.

Sięgnij po wiersz poleceń, gdy masz folder nagrań do przetworzenia wsadowego przez noc, gdy chcesz Whisper wewnątrz większego pipeline'u Python lub na serwerze, który kontrolujesz, gdy potrzebujesz konkretnej flagi modelu, której GUI nie udostępnia, albo gdy po prostu żyjesz w terminalu i nie chcesz kolejnego okna. To też właściwy wybór na Linuksie, na który aplikacja desktopowa nie jest dostępna. CLI działa wszędzie, gdzie działają Python i ffmpeg. Żadne z tego nie jest krytyką aplikacji — to po prostu inny kształt problemu.

Sięgnij po aplikację desktopową, gdy zadaniem jest dyktowanie, nie przetwarzanie plików: chcesz mówić do maila, dokumentów, chatu i mieć słowa pojawiające się w miejscu kursora jednym klawiszem. CLI nie może wklejać w miejscu kursora innego programu — to nigdy nie było jego zadaniem. Uczciwy podział wygląda więc tak: pliki i skrypty — terminal; mówienie zamiast pisania — aplikacja. Większość ludzi, gdy już wie, czego chciała, od razu wie, po której jest stronie.

Ta sama logika na urządzeniu bez chmury sprawdza się też, gdy konfigurujesz to na Macu — poradnik w artykule zamiana głosu w tekst na Mac omawia stronę Apple Silicon, w tym uprawnienie Dostępności potrzebne skrótowi klawiszowemu.

Whisper działający na własnym komputerze to jeden z lepszych kąsków w oprogramowaniu w tej chwili — model, który OpenAI rozdało za darmo, ten sam, który duże narzędzia chmurowe po cichu wywołują, siedzący na twoim dysku za nic. Jedyna prawdziwa decyzja to które opakowanie pasuje do twojego dnia. Uruchamiam CLI, gdy mam pliki do przerobienia, i aplikację przez pozostałe 95% czasu, bo przełączam programy mniej więcej czterdzieści razy na godzinę i nie chcę za każdym razem wpisywać polecenia. Większość tego poradnika podyktowałem skrótem klawiszowym, do pola tekstowego, które nie było terminalem, z modelem działającym przez cały czas na tym samym laptopie.

Uruchom Whisper lokalnie bez terminala

Przytrzymaj skrót, mów, puść. Model działa na twoim komputerze, a transkrypcja ląduje tam, gdzie jest kursor — bez Python, pip ani ffmpeg.

Pobierz Whisper Zobacz, jak to działa

Bezpłatny tryb lokalny dla każdego zalogowanego konta. Do startu nie potrzeba karty.

Denys Medvediev

To ja czytam nasze maile do supportu — najprawdopodobniej dyktując odpowiedzi.

Dalsza lektura

Najczęściej zadawane pytania

Tak. OpenAI wydało Whisper na licencji MIT, więc model można bezpłatnie pobrać i uruchomić na własnym sprzęcie bez klucza API i bez opłat za minutę. Oficjalne narzędzie wiersza poleceń jest bezpłatne, a lokalny pipeline Whisper by Remskill jest bezpłatny dla każdego zalogowanego konta bez karty przy rejestracji. Jedynym kosztem jest własna energia elektryczna i miejsce na dysku.

Autor: Denys Medvediev5 kwietnia 2026

Wyjaśnienie

Jak uruchomić Whisper lokalnie

Ostatnia aktualizacja: czerwiec 2026

Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Ścieżka dewelopera: Python, pip i ffmpeg

Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej

Krok 1 — Zainstaluj Whisper i zaloguj się.

Pobierz ze strony pobierania, zainstaluj i utwórz bezpłatne konto. Bez karty. Lokalny pipeline transkrypcji otwiera się od razu.

Wszystko zadziałało, gdy ikona aplikacji pojawi się w zasobniku i kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.

Wszystko zadziałało, gdy model skończy się pobierać i pokaże się jako gotowy.

Krok 3 — Potwierdź swój skrót klawiszowy.

Wszystko zadziałało, gdy testowe nagranie wklei się do dowolnego pola tekstowego.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Kliknij w dowolne pole tekstowe — mail, dokument, czat — przytrzymaj skrót, powiedz zdanie, puść. Transkrypcja pojawia się tam, gdzie jest kursor.

Wszystko zadziałało, gdy powiedziane zdanie siedzi w polu tekstowym jako tekst.

Whisper

Prawdziwa aplikacja desktopowa Whisper na ekranie ustawień z otwartymi panelami Transkrypcja i AI.

Który model i jakiego sprzętu potrzebujesz

Cancel

Nakładka nagrywania: mała kapsułka pojawiająca się podczas mówienia, żebyś wiedział, że aplikacja słucha.

Lokalnie czy w chmurze: który tryb do którego zadania

Oto jak różnią się te trzy ścieżki, bo aplikacja każe ci wybrać:

Local Parakeet — Silnik TDT firmy NVIDIA, około 600 MB — najszybsza opcja lokalna, 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski plus 24 inne europejskie języki, łącznie 25. Bez tłumaczenia na angielski. Jeśli dyktuj po angielsku lub innym języku europejskim i zależy ci na szybkości bez GPU — to w pełni offline'owy wybór.
Local Whisper — wolniejszy niż Parakeet na tym samym sprzęcie, ale warianty wielojęzyczne obsługują 99 języków i potrafią tłumaczyć na angielski. Warianty anglojęzyczne obsługują tylko angielski, nie 99. Wybierz go do chińskiego, japońskiego, koreańskiego lub jakiegokolwiek tłumaczenia, czego Parakeet nie potrafi. Domyślny model angielski waży około 480 MB, największy wielojęzyczny — około 3 GB.
Cloud (OpenAI, BYOK) — najlepsza dokładność i dostęp do internetu, przy użyciu własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI. Transkrypcja domyślnie działa na gpt-4o-mini-transcribe. Wymaga internetu, więc to jedyna ścieżka, która opuszcza twój komputer. Funkcja Cloud jest częścią Whisper Pro.

Dokładność, interpunkcja i porządkowanie surowej transkrypcji

Thinking...

Surowe

okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager

Oczyszczone

Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.

Kiedy wiersz poleceń to właściwy wybór

Uruchom Whisper lokalnie bez terminala

Przytrzymaj skrót, mów, puść. Model działa na twoim komputerze, a transkrypcja ląduje tam, gdzie jest kursor — bez Python, pip ani ffmpeg.

Pobierz Whisper Zobacz, jak to działa

Bezpłatny tryb lokalny dla każdego zalogowanego konta. Do startu nie potrzeba karty.

Denys Medvediev

To ja czytam nasze maile do supportu — najprawdopodobniej dyktując odpowiedzi.

Jak uruchomić Whisper lokalnie

Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Ścieżka dewelopera: Python, pip i ffmpeg

Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej

Krok 1 — Zainstaluj Whisper i zaloguj się.

Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.

Krok 3 — Potwierdź swój skrót klawiszowy.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Który model i jakiego sprzętu potrzebujesz

Lokalnie czy w chmurze: który tryb do którego zadania

Dokładność, interpunkcja i porządkowanie surowej transkrypcji

Kiedy wiersz poleceń to właściwy wybór

Uruchom Whisper lokalnie bez terminala

Dalsza lektura

Najczęściej zadawane pytania

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie

Jak uruchomić Whisper lokalnie

Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Ścieżka dewelopera: Python, pip i ffmpeg

Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej

Krok 1 — Zainstaluj Whisper i zaloguj się.

Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.

Krok 3 — Potwierdź swój skrót klawiszowy.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Który model i jakiego sprzętu potrzebujesz

Lokalnie czy w chmurze: który tryb do którego zadania

Dokładność, interpunkcja i porządkowanie surowej transkrypcji

Kiedy wiersz poleceń to właściwy wybór

Uruchom Whisper lokalnie bez terminala

Dalsza lektura

Najczęściej zadawane pytania

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie

Jak uruchomić Whisper lokalnie

Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Ścieżka dewelopera: Python, pip i ffmpeg

Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej

Krok 1 — Zainstaluj Whisper i zaloguj się.

Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.

Krok 3 — Potwierdź swój skrót klawiszowy.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Który model i jakiego sprzętu potrzebujesz

Lokalnie czy w chmurze: który tryb do którego zadania

Dokładność, interpunkcja i porządkowanie surowej transkrypcji

Kiedy wiersz poleceń to właściwy wybór

Uruchom Whisper lokalnie bez terminala

Dalsza lektura

Najczęściej zadawane pytania

Czytaj dalej

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie

Jak uruchomić Whisper lokalnie

Co tak naprawdę oznacza "uruchomienie Whisper lokalnie"

Ścieżka dewelopera: Python, pip i ffmpeg

Ścieżka bez terminala: uruchom Whisper w aplikacji desktopowej

Krok 1 — Zainstaluj Whisper i zaloguj się.

Krok 2 — Wybierz ścieżkę transkrypcji i pobierz model.

Krok 3 — Potwierdź swój skrót klawiszowy.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Który model i jakiego sprzętu potrzebujesz

Lokalnie czy w chmurze: który tryb do którego zadania

Dokładność, interpunkcja i porządkowanie surowej transkrypcji

Kiedy wiersz poleceń to właściwy wybór

Uruchom Whisper lokalnie bez terminala

Dalsza lektura

Najczęściej zadawane pytania

Czytaj dalej

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie