Porównanie
Whisper kontra Google Speech-to-Text
Google Cloud Speech-to-Text to API dla programistów, które wywołujesz z kodu i za które płacisz za każdą minutę. Whisper, otwartoźródłowy model OpenAI, na którym działa nasza aplikacja na Twoim własnym komputerze, powstał z myślą o osobie, która dyktuje tekst do Worda albo Slacka. Jedno to instalacja hydrauliczna dla inżynierów. Drugie to aplikacja do dyktowania na komputerze.
Ostatnia aktualizacja: czerwiec 2026

Google Cloud Speech-to-Text to API dla programistów. Wywołujesz je z kodu, a ono nalicza opłatę za każdą minutę dźwięku wysłaną na serwery Google. Whisper, otwartoźródłowy model OpenAI, na którym działa nasza aplikacja na Twoim własnym komputerze, powstał z myślą o osobie, która dyktuje tekst do Worda albo Slacka. Jedno to instalacja hydrauliczna dla inżynierów. Drugie to aplikacja do dyktowania na komputerze.
Google Speech-to-Text to chmurowe API dla programistów, którzy wbudowują transkrypcję w aplikacje i serwery. Działa strumieniowo, przetwarza wsadowo długie pliki, obsługuje wiele języków i nalicza opłaty za minutę. Whisper w naszej aplikacji jest dla użytkownika końcowego, który chce prywatnego, działającego offline i darmowego dyktowania na komputerze. Jeśli piszesz kod i potrzebujesz transkrypcji na dużą skalę, wygrywa Google. Jeśli chcesz po prostu mówić i patrzeć, jak tekst pojawia się przy kursorze, wygrywa Whisper. To dwie różne kategorie.
Prowadzę Whisper by Remskill, aplikację, która zamienia otwartoźródłowy model Whisper w dyktowanie na komputerze: skrót klawiszowy, mówisz, tekst pojawia się tam, gdzie masz kursor. Mam więc w tym swój interes. Mimo to postaram się być szczery, bo szczera odpowiedź jest tą bardziej przydatną. Większość osób, które wpisują w wyszukiwarce „Whisper vs Google Speech-to-Text”, za chwilę porówna dwie rzeczy, które nie należą do tego samego worka.
Google Speech-to-Text to API, a nie aplikacja, którą się otwiera
Najpierw wyjaśnijmy jedno: Google Cloud Speech-to-Text nie ma okna. Nie ma ikony w docku, nie ma skrótu klawiszowego, nie ma „naciśnij, by mówić”. To usługa, z którą Twoje oprogramowanie rozmawia przez sieć. Wysyłasz do niej dźwięk za pomocą kodu, a ona odsyła tekst. Dokumentacja Google opisuje ją jako rozpoznawanie synchroniczne, strumieniowe i asynchroniczne, dostępne przez API.
Ten projekt sprawdza się w tym, do czego został stworzony. Rozpoznawanie strumieniowe zwraca wyniki pośrednie w czasie rzeczywistym, co jest przydatne, gdy budujesz funkcję napisów na żywo albo komendę głosową we własnym produkcie. Rozpoznawanie asynchroniczne radzi sobie z długimi nagraniami: wgrywasz dźwięk, Google mozolnie przerabia go w tle, a Ty odpytujesz o wynik, gdy jest gotowy. Google dokumentuje tę ścieżkę wsadową jako obsługującą nagrania do ośmiu godzin w jednym zadaniu. To prawdziwa zaleta. Jeśli masz magazyn nagranych rozmów do przetranskrybowania przez noc, aplikacja do dyktowania dla użytkownika końcowego to złe narzędzie, a API takie jak Google to właściwe.
Obsługuje długą listę języków i regionalnych wariantów lokalizacji, kody BCP-47, które znają inżynierowie, jak en-US, en-GB czy es-MX. Nie zamierzam podawać tu dokładnej liczby języków ani ceny za minutę i ostrożnie podchodziłbym do każdego artykułu, który to robi. Strony Google z cenami i językami się zmieniają, a liczby krążące po sieci nie zawsze prowadzą do pierwotnego źródła, za którym bym się obstawał. Co mogę powiedzieć bez wahania: to rozliczanie chmurowe oparte na zużyciu. Płacisz za to, co wysyłasz, Twój dźwięk trafia na serwery Google i nie ma darmowego trybu lokalnego.
Dwie osoby, dwa różne problemy
Oto najprostszy sposób, jaki znalazłem, by stwierdzić, po której stronie tej linii jesteś. Wyobraź sobie dwie osoby.
Pierwsza to programistka. Buduje narzędzie obsługi klienta, które zamienia nagrane rozmowy w przeszukiwalny tekst. Transkrypcja odbywa się na jej serwerze, wewnątrz jej kodu, bez nadzoru człowieka. Chce mieć punkt końcowy, do którego może wysłać dźwięk, i odpowiedź JSON, którą może zapisać w bazie danych. Nigdy nie będzie „otwierać” transkryptora. Żyje on wewnątrz produktu, który dostarcza własnym klientom. To zadanie dla Google Speech-to-Text. API jest komponentem; jej produkt jest aplikacją.
Druga to autor tekstów. Albo prawnik piszący w pociągu, albo student zamieniający wykład w notatki, albo rodzic odpowiadający na e-mail od nauczyciela, mieszając jednocześnie obiad. Nie ma serwera. Ma migający kursor w dokumencie i woli mówić niż pisać. Chce nacisnąć jeden klawisz, powiedzieć zdanie i patrzeć, jak pojawia się w pliku, który ma już otwarty. Nigdy nie będzie pisać kodu i nie powinien być do tego zmuszany. To nasze zadanie.
Zamieszanie w tym haśle bierze się stąd, że „Whisper” pełni podwójną rolę. Google STT to gotowa usługa chmurowa. Whisper to model, a model nie jest aplikacją. Ktoś musi zbudować wokół niego aplikację: podłączyć mikrofon, oprogramować skrót klawiszowy, wkleić tekst przy kursorze. To właśnie ta część, którą zrobiliśmy.
Whisper w naszej aplikacji to dyktowanie na komputerze i działa na Twoim sprzęcie
Whisper to model mowy, który OpenAI udostępniło jako otwartoźródłowy. Nasza aplikacja uruchamia go lokalnie: czysty Rust, bez dodatkowego procesu w Pythonie, bez serwera w obiegu przy zwykłym dyktowaniu. Naciskasz skrót klawiszowy (domyślnie Ctrl+Space w Windows, w pełni przemapowalny), mówisz, puszczasz, a tekst ląduje tam, gdzie masz już kursor. Bez kodu. Bez klucza API dla ścieżki lokalnej. Dźwięk nigdy nie opuszcza laptopa.
Ta ostatnia rzecz to cały sens i akurat ona nie pojawia się w tabeli funkcji.
Na poziomie lokalnym wybierasz spośród ośmiu modeli Whisper, od około 140 MB do 3 GB; wymieniasz rozmiar pobierania i czas pracy procesora na dokładność. Cztery są dostrojone pod angielski; cztery wielojęzyczne obejmują szeroki zakres języków i potrafią przetłumaczyć mowę na angielski w jednym geście, czego API Google nie składa w jedno naciśnięcie do dyktowania, a większość narzędzi konsumenckich pomija zupełnie. Jest też Parakeet, osobny silnik NVIDIA, który jest 5 do 10 razy szybszy od Whispera na procesorze dla angielskiego i 24 innych języków europejskich, i działa bez karty graficznej.
Cały lokalny proces jest darmowy dla każdego zalogowanego użytkownika, bez karty przy rejestracji: każdy model, oczyszczanie tekstu przez AI z Ollama, historia, własne słowa kluczowe, wszystko. Jeśli chcesz powierzchni chmurowej, to jest Whisper Pro: chmurowa transkrypcja OpenAI (gpt-4o-mini-transcribe albo gpt-4o-transcribe), chmurowe oczyszczanie przez AI i wyszukiwanie w sieci, wszystko na Twoim własnym kluczu OpenAI, a Remskill nie pobiera żadnej prowizji. To opcjonalne. Domyślnie jest lokalnie i za darmo.
Nudna prawda jest taka, że do jednego akapitu dyktowanego tekstu Twój laptop ma już mikrofon i procesor. Nie potrzebuje centrum danych.
Modele kosztowe nie mają tego samego kształtu
To miejsce, w którym porównanie przestaje być zestawianiem jabłek z jabłkami. Chmurowe API nalicza opłatę za każdą minutę dźwięku. Lokalna aplikacja do dyktowania nalicza najwyżej raz.
Widziałem, jak model za minutę raz ugryzł. Zespół, z którym pracowałem, zlecił podwykonawcy zbudowanie wewnętrznego prototypu „dyktowania AI”, który wywoływał chmurowe API przy każdej wypowiedzi. Procedura „inteligentnego ponawiania” zrobiła się zbyt agresywna i przetranskrybowała te same nagrania ze spotkań standupowych cztery razy. Kierownik zespołu otworzył pod koniec kwartału panel kosztów i znalazł pięciocyfrowy rachunek. Poprawka podwykonawcy brzmiała: „powinniśmy zoptymalizować prompt”. Poprawka dyrektora finansowego brzmiała: „albo nie powinniśmy płacić za chmurową transkrypcję spotkań, które już mają notatki”.
To nie zarzut wobec API Google. Używane zgodnie z przeznaczeniem, przez inżynierów pilnujących licznika, jest sensownie wycenione do produkcyjnych potoków. To zarzut wobec używania płatnej usługi chmurowej do czegoś, co lokalna aplikacja robi za darmo. Transkrypcja wyłącznie w chmurze to katastrofa prywatności czekająca na rachunek. Twoje projekty umów, arkusz z wynagrodzeniami, e-mail do szkoły Twojego dziecka, wszystko opuszczające Twój komputer tylko dlatego, że chciałeś mówić zamiast pisać. Dla osoby dyktującej przez cały dzień podejście lokalne jest właściwym ustawieniem domyślnym, a licznik nigdy nie rusza.
Bok w bok
Oto uczciwy układ. Zauważ, że tabela tak naprawdę nie mówi „co jest lepsze”. Mówi „w której kategorii jesteś”.
| Cecha | Google Speech-to-Text | Whisper (w naszej aplikacji) |
|---|---|---|
| Rodzaj produktu | Chmurowe API dla programistów | Aplikacja do dyktowania na komputerze |
| Jak się tego używa | Wywołujesz z własnego kodu | Naciskasz skrót klawiszowy i mówisz |
| Dokąd trafia Twój dźwięk | Na serwery Google | Zostaje na Twoim komputerze (tryb lokalny) |
| Model kosztowy | Rozliczanie chmurowe oparte na zużyciu, za minutę | Darmowy poziom lokalny; jedna aplikacja, zobacz stronę z cennikiem |
| Działa offline | Nie | Tak (modele lokalne) |
| Dla kogo jest | Dla programistów wbudowujących transkrypcję w aplikacje lub serwery | Dla osoby dyktującej do dowolnej aplikacji |
| Konfiguracja | Projekt w chmurze, poświadczenia, kod | Zainstaluj, zaloguj się, wybierz model |
W tej tabeli celowo nie ma konkretnych liczb Google. Liczy się kształt: serwer kontra komputer, kod kontra skrót klawiszowy, licznik kontra darmowe. Jeśli te wiersze kierują Cię do API, świetnie, czytaj dalej następną sekcję. Jeśli kierują Cię do aplikacji, przycisk pobierania jest na dole.
Kiedy Google Speech-to-Text to właściwe narzędzie
Sięgnąłbym po API Google, a nie po naszą aplikację, w kilku jasnych przypadkach. To sekcja, którą artykuły AI pomijają, więc oto ona, wyłożona wprost.
Budujesz produkt, a nie dyktujesz do niego
Jeśli jesteś inżynierem wpinającym transkrypcję w backend (potok analityki call center, funkcja automatycznych napisów, głosowy interfejs własnego oprogramowania), chcesz API, a to Google jest dojrzałe. Naszej aplikacji desktopowej nie da się wywołać z Twojego serwera. Nie ma punktu końcowego, nie ma SDK, nie ma sposobu, by Twój kod poprosił ją o tekst. To celowy zabieg; to aplikacja dla osoby, a nie usługa dla programu.
Musisz przetwarzać wsadowo długie nagrania na dużą skalę
Osiem godzin dźwięku w jednym zadaniu asynchronicznym to dokładnie to, do czego stworzono rozpoznawanie asynchroniczne Google. Jeśli masz dziesięć tysięcy nagranych rozmów do przemielenia przez noc, chcesz usługi, która skaluje się na cudzych serwerach, a nie laptopa uruchamiającego jeden model naraz.
Potrzebujesz strumieniowania w czasie rzeczywistym wewnątrz własnego kodu
Jeśli Twoja aplikacja musi wyświetlać wyniki pośrednie w trakcie mówienia (napisy na żywo podczas rozmowy wideo, którą budujesz), rozpoznawanie strumieniowe to powierzchnia API do tego. Nasza aplikacja wkleja gotowy blok tekstu po puszczeniu klawisza, co jest złym zachowaniem dla funkcji napisów na żywo i właściwym dla dyktowania.
Potrzebujesz programowej kontroli i dzienników audytu
Limity na żądanie, rozliczanie po stronie serwera, centralny rejestr tego, kto co przetranskrybował: zarządzane chmurowe API daje operacyjne rusztowanie, którego potrzebuje regulowane lub wielkoskalowe wdrożenie. Aplikacja desktopowa trzyma to na komputerze danej osoby, co jest odwrotnym kompromisem.
Jeśli to o Tobie, zamknij tę kartę i otwórz dokumentację Google. My nie obsługujemy strony serwerowej. To nie fałszywa skromność; to po prostu inny produkt.
Kiedy Whisper w naszej aplikacji to właściwe narzędzie
Druga strona. Nie budujesz oprogramowania. Próbujesz przestać pisać na klawiaturze.
Chcesz dyktować e-maile, notatki, wiadomości, komentarze w kodzie i mieć je tam, gdzie pojawiają się w aplikacji, w której już jesteś. Wolałbyś, żeby Twój dźwięk nie trafiał na niczyje serwery. Nie chcesz licznika za minutę bijącego, gdy myślisz. Chcesz, żeby start był darmowy, i nie chcesz pisać ani linijki kodu, żeby z tego korzystać.
Wybierz Parakeet dla szybkości i angielskiego; wybierz wielojęzyczny model Whisper, gdy potrzebujesz tłumaczenia, mniej popularnych języków albo precyzyjniejszej kontroli. Lokalny proces nic nie kosztuje; poziom chmurowy (transkrypcja OpenAI na Twoim własnym kluczu) jest opcjonalny i wyceniony na stronie z cennikiem.
Dla offline'owej, lokalnej i darmowej strony tego pytania opisałem szersze kompromisy w lokalna kontra chmurowa transkrypcja. A jeśli wybierasz między dwoma lokalnymi silnikami, które dostarczamy, Whisper kontra Parakeet omawia szybkość kontra zasięg językowy.
Jeśli masz zapamiętać tylko jedno
Google Speech-to-Text to API dla inżynierów; Whisper w naszej aplikacji to dyktowanie dla ludzi. Pytanie, co jest „lepsze”, jest jak pytanie, czy silnik samochodu jest lepszy od samochodu. Wszystko zależy od tego, czy budujesz daną rzecz, czy nią jeździsz.
Wybierz to, co pasuje do Twojego zadania
Jeśli Twoim zadaniem jest dyktowanie do aplikacji, których już używasz, prywatnie, offline, z darmowym startem, zainstaluj Whispera i naciśnij klawisz. Jeśli Twoim zadaniem jest wbudowanie transkrypcji w oprogramowanie, już wiesz, gdzie jest dokumentacja Google.
Darmowa lokalna transkrypcja na zawsze. Bez metody płatności przy rejestracji. Poziom chmurowy jest opcjonalny i działa na Twoim własnym kluczu.



