Przewodnik
Oprogramowanie do transkrypcji spotkań
Jedno hasło w wyszukiwarce, dwa zupełnie różne zadania. Jedne narzędzia wysyłają bota, który dołącza do rozmowy i sporządza wspólne notatki. Inne działają na nagraniu, które już masz — lokalnie, na twoim laptopie, bez chmury. Oto jak rozpoznać, czego naprawdę potrzebujesz.
Ostatnia aktualizacja: czerwiec 2026

Oprogramowanie do transkrypcji spotkań zamienia mówione rozmowy w przeszukiwalny tekst. Działa na dwa sposoby: w czasie rzeczywistym — transkrypcja pojawia się na bieżąco podczas rozmowy — oraz po spotkaniu, gdy nagranie jest przetwarzane po fakcie, by uzyskać czystsze, oznaczone głosowo notatki ze znacznikami czasu. Większość narzędzi auto-dołącza do rozmów przez synchronizację kalendarza i bota; kilka działa bez bota — na podstawie nagrania, które już posiadasz.
Kiedy po raz pierwszy patrzyłem, jak team generuje poważny rachunek za transkrypcję spotkań, liczba miała pięć cyfr — a te spotkania i tak były notowane. Jakiś programista podłączył wewnętrzny prototyp dyktowania AI, który wywoływał cloudowe API przy każdej wypowiedzi, z logiką ponowień tak agresywną, że transkrybowała ten sam standup cztery razy. Manager otworzył dashboard kosztów na koniec kwartału. W pokoju zrobiło się cicho.
Nuda prawda o tej kategorii jest taka: wybór złego narzędzia kosztuje — w pieniądzach, prywatności albo czasie — i zwykle nikt nie zauważa tego od razu.
To właśnie jest sens tego artykułu. Teamy chciały automatycznych notatek ze spotkań od dekady i narzędzia w końcu dobrze sobie z tym radzą. Haczyk jest taki, że pod jednym hasłem wyszukiwarki kryją się zupełnie różne zadania. Jedne dołączają do rozmowy wideo jako bot i tworzą wspólne notatki dla wszystkich. Inne działają na nagraniu po fakcie — offline, na twoim własnym laptopie.
Poniżej omawiam obie ścieżki, wymieniam narzędzia warte uwagi i uczciwie mówię o jednej rzeczy, której nasza aplikacja nie robi: nie jest botem do spotkań. Jako osoba czytająca naszą skrzynkę supportową mogę powiedzieć, że większość zamieszania w tej kategorii wynika z wyboru złego rodzaju narzędzia od samego początku. Wystarczyło mi kilka takich samych e-maili, żebym rozpoznawał problem już po temacie wiadomości.
Co robi oprogramowanie do transkrypcji spotkań (i dwa sposoby działania)
Patrząc poza marketing, każde narzędzie w tej kategorii robi jedną rzecz: pobiera audio i tworzy tekst. Audio to mowa ludzka z rozmowy. Tekst to transkrypcja. Wszystko inne — podsumowania, zadania do wykonania, oznaczenia mówców, wyszukiwanie — jest zbudowane na tej jednej konwersji.
Kategoria dzieli się ze względu na to, kiedy ta konwersja następuje.
- Transkrypcja w czasie rzeczywistym działa podczas rozmowy. Słowa pojawiają się na ekranie z sekundowym lub dwusekundowym opóźnieniem względem mówcy. To właśnie daje żywa ścieżka napisów w Zoom lub Microsoft Teams i boty-notatnicy pokazujące bieżący przebieg rozmowy. Przydaje się w danej chwili — dla dostępności, śledzenia wątku, wyłapania nazwy, której nie dosłyszałeś.
- Transkrypcja po spotkaniu działa na nagraniu po zakończeniu rozmowy. Narzędzie ma cały plik, więc może pracować spokojnie. Czyści urwane zdania, oznacza, kto co powiedział, dodaje znaczniki czasu i składa czytelny dokument. Przetwarzanie po spotkaniu daje czystszy, opatrzony znacznikami czasu i oznaczeniami mówców tekst niż wersja na żywo. Ceną jest oczekiwanie.
Większość popularnych narzędzi — Otter, Fireflies, Fathom, tl;dv — robi jedno i drugie, a audio pobiera w ten sam sposób: bot dołącza do rozmowy. Łączysz kalendarz Google lub Outlook, narzędzie widzi spotkanie z linkiem wideo i wysyła uczestnika do pokoju, by słuchał i nagrywał. Ten mały kafelek z nagrywaniem, który widziałeś w siatce Zooma, to cały ten model w jednym kadrze.
Za hasłem wyszukiwarki kryje się jeszcze trzecia, cichsza ścieżka: transkrybowanie nagrania, które już masz, na własnym komputerze, bez bota i bez rozmowy. To oprogramowanie do dyktowania i transkrypcji, a nie notatnik spotkań — i właśnie tu żyje nasza aplikacja. Więcej o tym poniżej, łącznie z uczciwą częścią o tym, kiedy to zły wybór.
Kiedy bot do spotkań to właściwy wybór (i kiedy Whisper nim nie jest)
Maria 10:02 Zacznijmy od daty premiery.
Tom 10:02 Myślę, że przesuniemy o tydzień.
Jeśli twój problem brzmi: „coś powinno dołączyć do mojej rozmowy na Zoom, Teams lub Google Meet, nagrać wszystkich i przekazać całemu teamowi wspólne notatki” — potrzebujesz bota do spotkań. Whisper tego nie robi. Nie dołącza automatycznie do rozmów, nie nagrywa innych uczestników i nie wykonuje diaryzacji wielu mówców podczas spotkania wideo. Udawanie czegoś innego zmarnowałoby twoje popołudnie.
Do tego zadania właściwy wybór to notatniki oparte na botach. Otter.ai dołącza do Zoom, Microsoft Teams i Google Meet, automatycznie pisze i udostępnia notatki, a jego darmowy plan Basic pozwala przetestować model przed zakupem. Fireflies.ai dołącza przez zaproszenie lub automatycznie z kalendarza, a darmowy tier oferuje nieograniczoną transkrypcję z ograniczonymi podsumowaniami AI. tl;dv nagrywa Google Meet, Zoom i Teams, oferuje tryb bez bota i darmowy plan bez limitu czasu. Fathom ma darmowy plan z nieograniczoną liczbą nagrań i wyborem między trybem bez bota (w wersji beta) a botem.
To ta część artykułu, w której celowo odsyłam cię gdzie indziej. Otter jest do spotkań. Whisper jest do pisania. To różne kategorie i płacenie za złą to najczęstszy błąd w całej tej przestrzeni. Jeśli potrzebujesz diaryzacji wielu mówców z nagranej rozmowy, automatycznego dołączania z kalendarza i podsumowania w kanale teamowym zanim spotkanie się skończy — bot-notatnik robi zadanie, do którego nasza aplikacja nigdy nie była stworzona. My przyspieszamy pisanie głosem; one automatyzują nagrywanie pokoju. Najpierw wybierz kategorię, potem narzędzie.
Jak dokładna jest transkrypcja AI spotkań — naprawdę?
Uczciwa odpowiedź: lepsza niż się spodziewasz przy czystym audio, gorsza niż masz nadzieję przy prawdziwym spotkaniu. Kategoria osiąga około 85–95% dokładności przy wyraźnym, jednojęzycznym nagraniu i spada przy hałasie w tle, akcentach, żargonie i nakładających się mówcach. Usługi z weryfikacją ludzką wspinają się z powrotem do 99%, bo człowiek poprawia to, co model pominął.
Nasz lokalny tryb osiąga dokładność zwykle między 95 a 99 procentami, przy czym większe modele wypadają lepiej. Chcę być tu ostrożny. To nasze własne pomiary na naszym oprogramowaniu, nie niezależne porównanie z Otter czy Fireflies — i nie zamierzam czegoś takiego wymyślać. Ktokolwiek podaje ci jeden procent dokładności dla transkrypcji spotkań bez podania warunków audio — sprzedaje, nie mierzy.
I tu jest coś, czego nikt nie reklamuje, bo nie ma tu na co namawiać. Mikrofon liczy się bardziej niż model. Dwudziestozłotowy mikrofon USB zrobi więcej dla twojej transkrypcji niż przeskok z małego modelu na największy. Większość złych transkrypcji, jakie widziałem, to nie był błąd modelu. To był mikrofon laptopa łapiący klimatyzację, cztery osoby w jednym pokoju i jeden głośnik, albo słuchawka Bluetooth ucinająca pierwsze słowo każdego zdania. Najpierw napraw audio. AI nie cofnie dźwięku czajnika.
Dwa inne czynniki wpływają na dokładność w tle. Jeden to sposób, w jaki narzędzie określa, gdzie kończy się jeden mówca, a zaczyna następny — co trudnieje, gdy mówcy się nakładają (stąd każda transkrypcja mojej rodziny przy obiedzie wyglądałaby jak jeden 400-słowny ciąg bez przecinka). Drugi to obsługa własnego słownika: możliwość podania nazw produktów, nazwisk i akronimów, których żaden ogólny model nigdy nie widział. Whisper pozwala ustawić własny słownik i faworyzować słowa kluczowe w lokalnym silniku Whisper, i wiele botów do spotkań też to umożliwia. Jeśli twoje rozmowy pełne są żargonu, to jedno ustawienie jest warte więcej niż zmiana modelu.
Bez bota i offline: transkrypcja nagrania, które już masz
To jest ścieżka, o której hasło wyszukiwarki milczy, i ta, do której nasza aplikacja jest zbudowana. Nie zawsze potrzebujesz oprogramowania dołączającego do spotkania. Czasem masz już nagranie — notatkę głosową z rozmowy jeden na jeden, wywiad, eksport webinaru, klip od kolegi — i potrzebujesz po prostu czystego tekstu na własnym komputerze, bez bota w czyjejkolwiek rozmowie.
Oprogramowanie do dyktowania i transkrypcji, takie jak Whisper, wpisuje się tu idealnie i zasługuje na swoją pozycję dzięki prywatności. W trybie lokalnym wszystko działa na twoim laptopie. Audio nie opuszcza urządzenia: żadnego serwera po drodze, żadnych logów dostawcy, żadnego licznika kosztów w chmurze. Dyskusja o wynagrodzeniu szefa, nagranie prawne, rozmowa z HR — nic z tego nie powinno trafiać do zewnętrznego magazynu tylko dlatego, że potrzebowałeś transkrypcji. „Local-first” nie jest tu funkcją. To cały sens.
Whisper uruchamia dwa lokalne silniki, oba w czystym Rust przez transcribe-rs, bez sidecara Pythona spowalniającego start. Pierwszy to open-source'owy Whisper od OpenAI, który w wersji wielojęzycznej obsługuje 99 języków i może tłumaczyć na angielski, z rozmiarami modeli od Base (~140 MB) do Large v3 (~3 GB). Wersje tylko po angielsku są dokładnie tym — tylko angielski — i zwykle działają trochę wydajniej. Drugi silnik to Parakeet TDT od NVIDIA, około 600 MB, opisywany w aplikacji jako 5–10 razy szybszy niż Whisper na CPU, obsługujący angielski plus 24 języki europejskie (25 łącznie) bez opcji tłumaczenia na angielski. Wybierz Parakeet dla szybkości, jeśli pracujesz głównie po angielsku. Wybierz Whisper, jeśli potrzebujesz tłumaczenia lub języka, którego Parakeet nie obsługuje.
Interakcja jest taka sama jak ta, której używam cały dzień. Przytrzymujesz klawisz skrótu — Ctrl+Space na Windows lub akord push-to-talk Command+Option na Macu, przytrzymując oba klawisze i puszczając którykolwiek, żeby zakończyć — mówisz, a tekst ląduje przy kursorze w dowolnej aktywnej aplikacji. Mały overlay pokazuje stan podczas pracy. Dla nagrania zamiast mowy na żywo wskazujesz plik i otrzymujesz transkrypcję. Jeśli interesuje cię konkretnie aspekt dyktowania, nasz przewodnik po offline speech-to-text omawia szczegółowo uruchamianie wszystkiego na urządzeniu.
Istnieje też opcja Cloud — dla osób chcących najnowszych modeli OpenAI i wyszukiwania w sieci sterowanego głosem w tym samym narzędziu. Podaj własny klucz OpenAI, powiedz „Hey whisper”, żeby tekst trafił przez AI. Ale do transkrypcji nagrania, które już masz, tryb lokalny jest odpowiedzią — i jest bezpłatny dla każdego zalogowanego użytkownika.
Inne narzędzia warte uwagi
Ta kategoria jest zatłoczona, a wyniki wyszukiwania zdominowane przez listy rankingowe sześciu–dziesięciu narzędzi. Oto prosta mapa, żebyś nie musiał czytać dziesięciu recenzji, by dowiedzieć się, do czego każde służy. Wszystkie podane możliwości pochodzą ze stron samych narzędzi.
- Otter.ai — domyślny notatnik spotkań. Bot dołącza do Zoom, Teams i Meet; darmowy plan Basic z 300 minutami miesięcznie, płatne poziomy Pro i Business powyżej. Transkrypcja w sześciu językach: angielskim, hiszpańskim, francuskim, niemieckim, japońskim i chińskim.
- Fireflies.ai — bot dołącza przez zaproszenie lub automatycznie z kalendarza. Darmowy plan z nieograniczoną transkrypcją i ograniczonymi podsumowaniami AI; reklamuje 100+ języków na różnych poziomach.
- tl;dv — nagrywa Meet, Zoom i Teams, oferuje tryb bez bota, transkrybuje w 30+ językach, darmowy plan bez limitu czasu i bez wymagania karty.
- Fathom — darmowy plan z nieograniczoną liczbą nagrań i wyborem między trybem bez bota (beta) a botem; płatne poziomy Premium, Team i Business powyżej.
- Notta — ma bota do spotkań dla Zoom, Teams i Meet oraz darmowy tier; własne centrum pomocy wymienia około 58 języków.
- Zoom i Teams — wbudowane — zanim cokolwiek kupisz, sprawdź, za co już płacisz. Zoom transkrybuje nagrania w chmurze i oferuje transkrypcję w czasie rzeczywistym przez AI Companion w 46 językach na uprawnionych płatnych planach. Microsoft Teams ma wbudowaną transkrypcję na żywo w około 50+ językach mówionych; przetłumaczona transkrypcja na żywo wymaga Teams Premium.
Oto ta sama mapa w formie tabeli, tylko z danymi, które możesz zweryfikować na stronach każdego narzędzia. Bez liczb dokładności ani szybkości, bo nikt nie testował ich łeb w łeb na tym samym audio — i nie zamierzam wymyślać takiego testu.
| Narzędzie | Przechwytywanie | Lokalnie/Chmura | Działa offline | Model cenowy | Języki | Najlepsze do |
|---|---|---|---|---|---|---|
| Otter.ai | Bot dołącza do rozmowy | Chmura | Nie | Darmowy tier + płatny per użytkownik | 6 | Domyślny notatnik dla teamu |
| Fireflies.ai | Bot przez zaproszenie lub auto-dołącz | Chmura | Nie | Darmowy tier + płatny per użytkownik | 100+ | Hojna darmowa transkrypcja |
| tl;dv | Nagrywa rozmowę, tryb bez bota | Chmura | Nie | Darmowy na zawsze + płatny | 30+ | Bez bota w siatce spotkania |
| Fathom | Bez bota (beta) lub z botem | Chmura | Nie | Darmowy na zawsze + płatny | Niepodane na stronie cenowej | Nieograniczone darmowe nagrania |
| Notta | Bot dołącza do rozmowy | Chmura | Nie | Darmowy tier + płatny | ~58 (centrum pomocy) | Bot plus darmowy tier |
| Zoom / Teams (wbudowane) | Natywne w rozmowie | Chmura | Nie | Wliczone w uprawnionych płatnych planach | Zoom 46, Teams 50+ | To, za co już płacisz |
| Whisper by Remskill | Bez rozmowy; transkrybuje plik lub dyktowanie | Lokalnie (Chmura opcjonalnie) | Tak | Darmowy tier lokalny + Pro | 99 multilingual, 25 Parakeet | Prywatnie, bez bota, na urządzeniu |
Jeśli twoje spotkania już działają na płatnym planie Zoom lub Teams, wbudowana transkrypcja może być wszystkim, czego potrzebujesz — bez kolejnej subskrypcji i bez kolejnego bota w rozmowie.
Co bym wybrał w każdej sytuacji
Czytam skrzynkę supportową, więc widzę żal po złym wyborze narzędzia wystarczająco często, żeby mieć na ten temat zdanie. Oto jak bym wybierał.
- Chcesz automatycznych notatek z firmowej wideorozmowy, udostępnionych wszystkim. Użyj bota-notatnika. Otter — jeśli chcesz dopracowanego domyślnego, Fireflies lub Fathom — jeśli zależy ci na hojnym darmowym tierze, tl;dv — jeśli ważne jest, żeby bota nie było widać w siatce spotkania.
- Masz już płatny plan Zoom lub Teams. Wypróbuj wbudowaną transkrypcję, zanim zapłacisz za trzecie narzędzie.
- Masz nagranie i chcesz czysty tekst — prywatnie, na własnym komputerze. To jest ścieżka offline bez bota: Whisper albo inne lokalne narzędzie do transkrypcji. Audio zostaje na urządzeniu.
- Chcesz pisać głosem (e-maile, dokumenty, notatki podczas lub po rozmowie) przy kursorze, w dowolnej aplikacji. To jest dyktowanie i właśnie do tego Whisper był zbudowany. Nasze porównanie oprogramowania do transkrypcji szczegółowo omawia różnicę między dyktowaniem a notatkami ze spotkań.
- Potrzebujesz gwarantowanej niemal idealnej transkrypcji do celów prawnych lub compliance. Użyj usługi z weryfikacją ludzką. AI sama z siebie nie przekroczy 99% na prawdziwym audio.
Błąd, którego należy unikać, to płacenie za bota spotkań do dyktowania albo oczekiwanie, że narzędzie do dyktowania dołączy do rozmów. Różne kategorie. Wybierz tę, która pasuje do zadania. Buduję oprogramowanie od piętnastu lat i sam kupiłem w zeszłym roku złe narzędzie do konkretnego zadania — więc to nie jest wykład kogoś, kto nigdy się nie mylił.
Ceny, konkretne liczby
Większość narzędzi ma darmowy tier, który warto wypróbować przed podaniem karty. Otter, Fireflies, tl;dv i Fathom — wszystkie oferują darmowy plan, a płatne poziomy pojawiają się, gdy potrzebujesz więcej minut, więcej miejsc lub nieograniczonej przestrzeni. Notatniki oparte na botach zwykle pobierają opłatę per użytkownik miesięcznie, co szybko narasta w całym teamie.
Whisper jest bezpłatny dla każdego zalogowanego użytkownika w całym lokalnym potoku — oba silniki, ulepszanie AI przez Ollama, historia, presety, własny słownik, klawisz skrótu, wszystko — bez wymagania metody płatności przy rejestracji. Płatny tier dodaje powierzchnię Cloud dla osób chcących modeli OpenAI i wyszukiwania w sieci głosem. Dokładne kwoty dla planów miesięcznych, rocznych, dożywotnich i miejsc dla teamu znajdziesz na stronie z cenami. Wolę, żebyś zaczął za darmo i sam zdecydował, niż żebym podawał cenę wyrwaną z kontekstu.
Najpierw wybierz rodzaj narzędzia, potem markę. Jeśli bot powinien dołączyć do twojej rozmowy — użyj notatnika. Jeśli nagranie na twoim laptopie ma stać się prywatnym tekstem — użyj czegoś offline. Pięciocyfrowy rachunek, który obserwowałem, wziął się stąd, że nikt nigdy nie zapytał, za jakie zadanie płaci — i to jest spotkanie, którego nikt nie potrzebował transkrybować.
Wypróbuj ścieżkę bez bota na nagraniu, które już masz
Pobierz Whisper, wskaż nagranie i obserwuj, jak czysty tekst wraca do ciebie — na twoim własnym komputerze, żaden bot w niczyjej rozmowie.
Bezpłatny dla każdego zalogowanego użytkownika w całym lokalnym potoku. Bez metody płatności przy rejestracji.



