What is the best real-time transcription app?

There is no single best. It depends on the job. For capturing live meetings, Otter is the standard, with live captions for Zoom and Google Meet. For dictation at your cursor while you write, you want a near-instant push-to-talk tool like Whisper. Decide whether you are reading speech or writing it first; the answer falls out of that.

Is there a free real-time transcription app?

Yes, several. Whisper by Remskill is free across its entire local pipeline for signed-in users, no card at signup. Windows 11 ships Live Captions free and on-device. Otter has a free tier capped at 300 minutes a month, and Maestra advertises a free live transcription tier.

Do real-time transcription apps work offline?

Some do, many do not. Whisper's local mode runs entirely on-device and works fully offline after the one-time model download. Windows 11 Live Captions also work offline on-device. Cloud tools like Otter, Maestra and Notta need an internet connection because the audio is processed on their servers.

Can it transcribe a live meeting as people speak?

That is continuous live captioning, and Whisper does not do it. It transcribes on hotkey release and pastes at your cursor, which is a writing tool, not a meeting recorder. For mid-meeting captions, use Otter, Maestra, or Google Meet's built-in captions.

How fast is local transcription compared to cloud?

Local can be near-instant. In the Whisper app, the Parakeet engine's own description is 5-10 times faster than Whisper on CPU for English and 24 European languages. Cloud transcription adds a network round-trip, so on a strong connection it is comparable, but it always depends on your bandwidth, and your audio leaves the device.

How many languages does it support?

Depends on the engine. Whisper's multilingual models handle 99 languages with auto-detect; the English-only builds handle one. Parakeet covers 25: English plus 24 European, no Asian languages and no translate-to-English. The cloud path uses OpenAI's models, which list 50-plus supported languages.

Which platforms does it run on?

Whisper by Remskill ships on Windows and macOS on Apple Silicon today. Intel Macs and Linux are not supported. If you are on Windows, the Windows voice-to-text walkthrough covers setup end to end.

작성자: Denys Medvediev2026년 4월 19일

가이드

실시간 받아쓰기, 제대로 이해하기

같은 이름을 쓰지만 하는 일은 정반대인 앱이 두 가지 있습니다. 라이브 자막과 즉각 받아쓰기를 구분하고, 내 문제에 맞는 도구를 고르는 법을 알려드립니다.

최종 업데이트: 2026년 6월

노트북 앞에 앉아 타이핑하는 익명의 사람을 위에서 내려다본 모습 — 단축키로 빠르게 받아쓰는 장면을 연상시킵니다

실시간 받아쓰기 앱은 말하는 즉시 음성을 텍스트로 변환합니다. 업로드하고 기다릴 필요가 없습니다. 두 가지 종류가 있습니다. 회의 중에 스크립트를 스트리밍하는 연속 라이브 자막, 그리고 단축키를 놓는 순간 텍스트가 커서 위치에 붙여넣어지는 즉각 받아쓰기입니다. 어느 쪽이 필요한지는 대화를 듣고 있는지, 아니면 직접 무언가를 쓰고 있는지에 따라 달라집니다.

한번은 함께 일하던 재무팀이 자체적으로 "실시간 받아쓰기" 도구를 만들었습니다. 외주 개발자가 GPT-4를 모든 노트북 마이크에 연결해 계속 실행되게 했습니다. 분기가 끝날 무렵 매니저가 클라우드 대시보드를 열었더니 다섯 자리 청구서가 기다리고 있었습니다. 대부분은 한 팀이 스탠드업 녹화 파일을 네 번씩 중복으로 받아쓴 탓이었는데, "스마트 재시도" 로직이 너무 공격적으로 작동했기 때문이었습니다. 개발자는 프롬프트를 최적화해야 한다고 했고, CFO는 훨씬 짧은 한마디를 했습니다. "실시간 받아쓰기"라는 말이 팀원들 각자에게 전혀 다른 의미였던 것입니다.

이 엇갈린 인식이 이 카테고리의 핵심 문제입니다. 두 사람이 "실시간 받아쓰기 앱"이라고 말해도 머릿속에 그리는 도구는 서로 다릅니다. 한 사람은 동료가 Zoom 회의에서 말하는 동안 화면에 글자가 올라오길 바랍니다. 다른 사람은 키를 누르고, 문장을 말하고, 키를 놓으면 이미 쓰던 이메일에 바로 텍스트가 나타나길 원합니다. 이 글은 두 가지를 명확히 구분하고, 빠른 로컬 방식이 어떻게 작동하는지 보여주며, 언제 회의 도구를 써야 하는지 알려줍니다. 다 읽고 나면 어떤 카테고리가 내 상황에 맞는지 알게 됩니다. 대부분의 사람들은 처음에 잘못된 도구를 고릅니다. 저도 압니다. 지원 이메일 대부분이 그런 분들에게서 왔고, 차이를 미리 설명할 생각을 하기 전까지 첫 달 내내 한 통씩 직접 답했으니까요.

이 구분이 중요한 이유는 두 방식이 서로 정반대의 일에 특화되어 있기 때문입니다. 라이브 자막은 멈추지 않는 것이 목적입니다. 한 시간 동안 회의를 따라가며 읽어나갑니다. 받아쓰기는 빨리 끝나는 것이 목적입니다. 15초 말하면 텍스트가 나오고, 다시 일로 돌아갑니다. 처음 보내는 영업 이메일은 80단어짜리 변형 12개를 만드는데, 음성으로 하면 12분, 손으로 치면 45분입니다. 강의 요약은 90분 녹음을 600단어 메모로 압축합니다. 검색창에 치는 단어는 같아도, 필요한 도구는 전혀 다릅니다.

'실시간'이 실제로 의미하는 것

음성이 실시간으로 캡처되고 변환되는 과정을 나타내는, 선명한 음파가 표시된 디지털 오디오 인터페이스

"실시간"에는 두 가지 정직한 정의가 있고, 이를 내세우는 앱들은 두 진영으로 나뉩니다.

첫 번째는 연속 라이브 자막입니다. 오디오가 재생되는 동안 단어 단위로 스크립트가 화면에 나타납니다. 회의, 강의, 동영상처럼 말이 흘러가는 동안 텍스트를 읽어나갑니다. Otter는 통화 중에 이 방식으로 작동하며 Zoom과 Google Meet에 라이브 자막을 제공합니다. Maestra는 125개 이상의 언어로 실시간 받아쓰기와 번역을 제공하며 무료 라이브 티어도 운영합니다. Windows 11에는 약 21개 언어를 지원하는 라이브 자막이 기기 내에서 오프라인으로 작동합니다. 이 도구들은 스트림을 보면서 내용을 기록합니다.

두 번째는 즉각 받아쓰기입니다. 단축키를 누르고, 문장이나 단락을 말하고, 손을 떼면 커서가 있던 자리에 완성된 텍스트가 나타납니다. 스트리밍 자막이 아닙니다. 1~2초의 짧은 간격 뒤에 전체 블록이 한꺼번에 나옵니다. Whisper by Remskill이 하는 일이 바로 이것입니다. 단축키를 놓는 순간 받아쓰기를 시작해 커서 위치에 붙여넣습니다. 마이크는 키를 놓고 나서도 500밀리초 동안 열려 있어, 문장 끝에 흐려지는 마지막 단어까지 잡아냅니다.

두 방식 모두 사람이 느끼기에 "실시간"입니다. 파일을 녹음해 업로드하고 기다릴 필요가 없으니까요. 하지만 해결하는 문제가 다릅니다. 라이브 자막은 읽기 도구입니다. 다른 사람의 말을 소비합니다. 받아쓰기는 쓰기 도구입니다. 내 말을 생산합니다. 이 둘을 혼동하면 한 줄짜리 이메일에 답하려고 회의 요약 구독료를 내거나, 웨비나 자막을 달려다 받아쓰기 앱과 씨름하게 됩니다.

여기에 실시간이 아닌 세 번째 종류도 같이 묶입니다. 파일 받아쓰기입니다. 인터뷰를 녹음해 오디오를 업로드하면 몇 분 뒤에 스크립트가 돌아옵니다. Rev나 Trint 같은 도구가 이 용도에 더 맞고, 이건 다른 일입니다. 말이 일어나는 순간 포착하는 게 아니라, 완성된 녹음을 편집하는 것이죠. 명확히 구분해야 제외할 수 있습니다. 업로드 진행 바를 기다리고 있다면, 마케팅 문구가 뭐라고 해도 실시간 앱을 쓰는 게 아닙니다.

이렇게 보면 카테고리의 구조가 보입니다. 지금 일어나는 말을 읽기: 라이브 자막. 지금 내가 하는 말을 쓰기: 받아쓰기. 이전에 녹음한 내용 정리하기: 파일 받아쓰기. "실시간 받아쓰기 앱"이라는 검색어는 앞의 두 가지를 뒤섞고 세 번째까지 끌어들입니다. 무엇을 설치하기 전에 자신이 어느 쪽인지 파악하는 것이 가장 유용한 첫걸음입니다.

단축키 누르면 커서에 텍스트가

받아쓰기 루프를 처음부터 끝까지 보겠습니다. 단축키를 누릅니다. Windows에서는 Ctrl+Space, macOS에서는 Command+Option을 동시에 누른 채로 말하고, 어느 쪽 키든 놓으면 멈추는 푸시투토크 방식입니다. 말을 합니다. 손을 뗍니다. 앱이 받아쓰는 동안 작은 오버레이가 표시되고, 1~2초 뒤에 텍스트가 이미 열려 있던 앱에 그대로 자리를 잡습니다. 이메일, 문서, 채팅창, 코드 주석 어디든요.

CancelTranscribing

받아쓰기 중인 Whisper 라이브 오버레이 — 스크린샷이 아닙니다. 키를 놓고 텍스트가 나타나기까지 반초 동안 실제로 보이는 화면입니다.

전환할 창이 없습니다. "받아쓰기 탭에서 복사해서 다시 붙여넣기"도 없습니다. 텍스트가 커서에 바로 나타나는 것, 그게 전부입니다. 당신은 글을 쓰고 있었고, 이제 더 빠르게 쓸 뿐입니다. 위의 오버레이는 스크린샷이 아닌 라이브 앱 화면입니다. 받아쓰기 중인 그 상태가 키를 놓고 텍스트가 나타나기까지 반초 동안 실제로 보이는 것입니다.

"실시간"이 자막 스트림과 다르게 느껴지는 이유가 여기 있습니다. 자막은 다른 사람에게 일어나는 일을 지켜보는 것입니다. 받아쓰기는 내가 말한 문장에 일어나는 일인데, 말의 흐름을 놓치지 않을 만큼 빠릅니다. 500밀리초 테일 버퍼가 존재하는 이유입니다. 사람들은 문장 끝에서 목소리가 작아지는데, 키를 놓는 즉시 마이크를 끊으면 마지막 단어가 잘립니다. 작은 차이처럼 보이지만, "준비해 주셔서 감사합니다, 정말 잘"과 완성된 문장의 차이입니다.

타이밍이 왜 그렇게 맞아 떨어지는지 이해하면 도움이 됩니다. 키를 놓는 순간, 방금 말한 오디오는 이미 메모리에 담겨 있습니다. 모델은 라이브 스트림이 아닌 그 짧은 클립 — 문장 하나 또는 단락 하나 — 을 처리합니다. 그래서 결과가 단어 단위로 스크롤되는 게 아니라 완성된 블록 하나로 도착합니다. 짧은 클립은 빠르게 처리됩니다. 그게 핵심입니다. 라이브 자막 도구는 열린 스트림을 계속 디코딩하면서 오디오가 더 들어올수록 수정하는 부분 추측을 보여줘야 합니다. 받아쓰기는 그 모든 과정을 건너뜁니다. 말이 끝날 때까지 기다렸다가 한 번에, 깔끔하게 처리합니다.

이 설계 선택이 집중력을 유지시켜 줍니다. 제 경험상 받아쓰기를 방해하는 건 지연입니다. 간격이 1~2초를 넘으면 원래 있던 앱으로 주의가 돌아가면서 쓰던 문장의 흐름을 잃게 됩니다. 이건 매일 루프를 사용하며 얻은 개인적인 경험이지, 공식 사양이 아닙니다. 짧은 클립과 빠른 로컬 엔진이 그 간격을 짧게 유지합니다. 그 간격이 진짜 중요한 부분이고, 루프가 받아쓰고 기다리는 것이 아니라 글을 쓰는 것처럼 느껴지는 이유입니다.

전체 파이프라인이 어떻게 맞물리는지 더 자세히 알고 싶다면, 별도로 쓴 글을 읽어보세요. Whisper가 단축키 누름을 붙여넣기 텍스트로 만드는 방법. 짧게 정리하면 이렇습니다. 누르고, 말하고, 놓으면, 끝.

Parakeet이 가장 빠른 로컬 옵션인 이유

로컬 받아쓰기는 한때 느리다는 뜻이었습니다. NVIDIA의 Parakeet 모델이 등장하면서 그 말은 옛말이 됐습니다. Whisper 앱에서 Parakeet의 자체 설명은 "CPU에서 Whisper보다 5~10배 빠름"이며, 영어와 24개 유럽 언어를 지원하고 디스크 용량은 약 600MB입니다. 이 속도 덕분에 로컬 받아쓰기가 커피 한 잔을 끓일 때쯤 끝나는 게 아니라 즉각적으로 느껴집니다. 위에서 설명한 단축키 루프가 서버 없이 작동할 수 있는 전부가 이 이유 때문입니다.

Whisper

실제 Whisper 앱 — 설정과 모델 선택기를 열면 로컬 엔진들을 나란히 볼 수 있습니다. 스크린샷이 아닌 라이브 프론트엔드입니다.

엔진 하나에 고정될 필요가 없습니다. Whisper by Remskill은 두 가지 로컬 옵션을 제공합니다. Parakeet은 25개 언어(영어와 24개 유럽 언어)를 지원하지만 아시아 언어와 영어 번역 기능은 없습니다. faster-whisper 엔진은 더 넓은 범위를 커버합니다. 다국어 빌드는 자동 감지로 99개 언어를 지원하고, .en 빌드는 영어만 지원하는 대신 더 작고 빠릅니다. Whisper 모델은 약 140MB의 영어 Base부터 약 3GB의 다국어 Large v3까지 있으며, 정확도와 속도 사이에서 균형을 원하는 분들을 위한 약 1.62GB의 Large v3 Turbo도 있습니다.

앱이 대신 고르지 않는 건 의도적입니다. 위에 삽입된 것은 실제 설정 화면입니다. 주로 영어를 쓰고 속도가 중요하다면 Parakeet, 99개 언어 지원이나 영어 번역이 필요하다면 Whisper 모델을 선택하면 됩니다. 사람들에게 "최적" 엔진을 자동으로 골라주려다 결국 포기한 적이 있습니다. 어느 쪽이 맞는지 아는 사람은 실제로 말하는 사람뿐이라는 걸 인정했기 때문입니다. 트레이드오프는 분명합니다. Parakeet은 가장 빠르고 용량도 작지만 중국어, 일본어, 한국어를 지원하지 않고 번역도 안 됩니다. 다국어 Whisper 빌드는 이 모든 걸 할 수 있지만 모델이 크고 클립당 처리 시간이 더 걸립니다. 추상적으로 어느 쪽이 "더 낫다"고 할 수 없습니다. 내 언어 환경에 맞는 쪽이 더 나은 겁니다.

자신의 OpenAI 키를 가져오는 클라우드 경로도 있습니다. gpt-4o-mini-transcribe 또는 gpt-4o-transcribe로 받아쓰기를 하고, 텍스트 정리는 기본적으로 gpt-5-mini가 담당합니다. 클라우드는 인터넷이 필요하고 로컬 엔진은 필요하지 않습니다. 클라우드 경로는 비상구지 출발점이 아닙니다. 4년 된 노트북도 로컬 엔진을 잘 돌리고, 대부분 그렇습니다. 이메일 한 단락을 위해 서버가 필요한 경우는 없습니다.

잠깐 여기서 멈춰 생각해 보세요. 클라우드 전용 받아쓰기는 개인정보 측면에서 재앙입니다. 상사의 급여 스프레드시트, 자녀 학교에 보내는 이메일, 기차에서 작성하는 법률 문서. 음성으로 타이핑하고 싶다는 이유로 이 내용이 외부 벤더의 로그에 남아서는 안 됩니다. 로컬 모드는 기기 내에서 실행되고 최초 모델 다운로드 후에는 오프라인에서도 완전히 작동합니다. 로컬 받아쓰기 중에는 어떤 서버에도 데이터가 전송되지 않습니다. 앞서 말한 재무팀의 다섯 자리 분기 청구서는 말이 건물 밖으로 나갔기 때문에 생겼습니다. 피할 수 있었던 일이었습니다.

더 긴 논거가 궁금하다면, 여기 저희의 주장을 담은 글이 있습니다. 외부로 연결되지 않는 오프라인 음성 텍스트 변환.

회의 라이브 자막 vs. 커서 받아쓰기

라이브 자막이 사용되는 회의 환경인, 프로젝션 스크린이 있는 넓고 현대적인 회의실

어느 쪽이 "실시간"을 더 크게 외치는지가 아니라, 내가 지금 무엇을 하고 있는지를 기준으로 도구를 고르세요.

회의 중에 대화를 실시간으로 기록해야 한다면 — 여러 명이 말하고, 한 시간 동안 이어지고, 끝나면 요약이 필요한 — 연속 라이브 자막이 필요합니다. 읽고 기록하는 일이니까요. Otter, Maestra, Google Meet 내장 자막, Windows 11 라이브 자막은 스트림을 따라가며 받아씁니다. Windows 11은 화면에 재생되는 모든 오디오를 기기 내에서 오프라인으로 자막 처리하지만, 읽기 전용입니다. 작업 중인 앱에 텍스트를 입력해 주지는 않습니다.

이 Windows의 차이가 많은 분들을 헷갈리게 합니다. 라이브 자막은 재생 중인 오디오(동영상, 통화, 스피커를 통해 들리는 동료 목소리)를 읽어 화면에 표시해 줍니다. 작성 중인 문서에 텍스트를 넣어주지 않습니다. 읽기 도구와 쓰기 도구의 경계가 바로 이것입니다. 내부에서 같은 기기 내 받아쓰기 엔진을 쓰더라도, 텍스트의 목적지가 다릅니다. 하나는 내가 읽을 자막 바로 보내고, 다른 하나는 내가 타이핑하는 커서로 보냅니다.

이메일, 문서, Slack 메시지, 커밋 노트를 작성 중이라면 받아쓰기가 필요합니다. 다른 사람의 말을 기록하는 게 아니라 내 말을 생산하는 것이니까요. 커서에, 빠르게, 그리고 끝. 그게 단축키 루프입니다. 라이브 자막 도구도 어떤 의미에서는 받아쓰기를 하지만, 결과를 자체 창에 보여주고 복사해 오게 만듭니다. 그러면 속도 때문에 쓴 의미가 없어집니다.

구체적인 사례 몇 가지를 보면 구분이 명확해집니다. 통화 사이에 CRM 메모를 받아쓰는 영업 사원(50단어, 키 한 번, 30초)은 받아쓰기입니다. 검색 가능한 스크립트와 후속 조치가 필요한 주간 계획 회의를 운영하는 팀은 라이브 자막입니다. 90분 강의를 600단어 요약으로 만들려는 학생은 강의 중에 자막이 필요하고 그다음엔 압축 도구가 필요합니다. 도시락을 싸면서 선생님 이메일에 답장하는 부모는 받아쓰기가 필요합니다. 회의를 녹화하는 게 아니라 답장을 쓰고 있으니까요. 같은 사람이 하루에 두 가지 모두 필요할 수 있습니다. 그래도 여전히 두 가지 다른 도구입니다.

규칙은 이렇습니다. 말을 보는 것 → 라이브 자막, 말로 쓰는 것 → 받아쓰기. 경계를 흐리는 앱도 있지만, 이 카테고리에서 생기는 불만의 대부분은 회의 도구로 글을 쓰거나 글쓰기 도구로 회의 자막을 달려다 생깁니다. Whisper는 쓰기 진영에 속합니다. 즉각적이고, 커서 우선이며, 푸시투토크 방식입니다. Gmail에서든 텍스트 필드가 있는 곳이라면 어디서든 루프는 동일합니다.

알아두면 좋은 다른 실시간 받아쓰기 앱들

제 말을 그냥 믿지 않아도 됩니다. 결정을 내리기 전에 주요 도구들을 각각 어디에 두어야 할지 알 수 있도록, 솔직한 한 줄 정리를 드립니다.

OtterMaestraNottaRevTrint

Otter Zoom과 Google Meet 라이브 자막, iOS·Android·Web 앱, 영어·스페인어·프랑스어·독일어·일본어·중국어 AI 받아쓰기로 회의 받아쓰기를 커버합니다. 무료 티어는 월 300분 받아쓰기로 제한됩니다.
Maestra 125개 이상의 언어로 실시간 받아쓰기와 번역, 자막, 더빙을 제공하며, 회사 측은 라이브 받아쓰기 티어가 무료라고 밝힙니다. 자막과 서브타이틀에 특화되어 있으며 커서 받아쓰기는 해당하지 않습니다.
Notta 실시간 오디오·비디오를 텍스트로 변환하며 번역 포함 58개 언어 지원을 보고합니다. 클라우드 기반의 회의·녹음 도구입니다.
Rev and Trint 커서 받아쓰기보다 녹음 미디어 중심으로 포지셔닝합니다. Rev는 회의와 녹음 받아쓰기로 잘 알려져 있고, Trint는 저널리즘과 뉴스룸에서 인터뷰 녹음 작업에 널리 쓰입니다. 둘 다 읽고 편집하는 도구이며, 키를 누르면 앱에 바로 입력되는 루프는 아닙니다.

패턴이 보이시나요. 이 도구들의 대부분은 클라우드에 사는 회의·녹음 도구입니다. "라이브 받아쓰기 앱" 시장이 바로 그것입니다. 커서 받아쓰기 진영, 즉 쓰기 도구는 더 작고 조용한 카테고리이며, 이 검색어를 찾는 사람 대부분이 이름도 모른 채 실제로 필요로 하는 것이 바로 이겁니다.

만들어낸 속도나 정확도 점수가 아니라, 직접 확인할 수 있는 사실들로 나란히 비교해 보겠습니다.

도구	플랫폼	로컬 / 클라우드	오프라인 지원	요금 방식	언어 수	최적 용도
Whisper by Remskill	Windows, macOS (Apple Silicon)	로컬 + 선택적 클라우드 (BYOK)	가능, 로컬 모드	무료 로컬 티어; 유료 클라우드 부가	99개 (Whisper 다국어) / 25개 (Parakeet)	커서 받아쓰기
Otter	iOS, Android, Web	클라우드	불가	무료 티어 + 유료 플랜	6	회의 라이브 자막
Maestra	Web	클라우드	불가	무료 라이브 티어 + 유료 플랜	125+	자막, 더빙, 캡션
Notta	Web, 모바일	클라우드	불가	무료 티어 + 유료 플랜	58개 (보고 기준)	회의 및 녹음 메모
Windows 11 Live Captions	Windows 11	로컬 (기기 내)	가능	OS에 내장	~21	화면에서 읽는 자막

검증 가능한 사실로 비교한 실시간 받아쓰기 앱들 — 꾸며낸 점수 없음.

이 시장이 왜 이런 모습인지 한 마디로 설명할 가치가 있습니다. 돈이 있는 곳은 회의입니다. 기업은 모든 통화를 기록하고, 요약하고, 액션 아이템을 프로젝트 트래커에 연동하는 데 인당 비용을 지불합니다. 이는 반복 지출로 처리 가능한 항목입니다. 개인의 음성 글쓰기는 그렇지 않습니다. 그래서 이 카테고리에서 목소리가 크고 자금이 풍부한 절반은 회의실을 위해 만들어졌고, 한 사람이 이메일에 더 빨리 답할 수 있도록 돕는 절반은 마케팅 주목을 덜 받습니다. "실시간 받아쓰기 앱"이라는 말이 두 가지 위에 동시에 걸쳐 있어서, 글쓰기 도구를 원했던 사람이 회의 도구로 가는 일이 생깁니다. 더 넓은 범위를 카테고리별로 정리한 내용을 보고 싶다면 카테고리별 받아쓰기 소프트웨어 가이드를 운영 중입니다.

Whisper 대신 회의 도구를 써야 할 때

대안이 잘못된 것을 팔아드리는 일이 되니, 직접적으로 말하겠습니다. 라이브 회의를 기록하는 것이 목적이라면 — 여러 명이 말하고, 한 시간 동안 이어지고, 깔끔한 요약이 필요한 경우 — Whisper를 쓰지 마세요. Otter를 쓰세요. Zoom과 Google Meet 라이브 자막, 모든 플랫폼 앱이 갖춰져 있고, 무료 티어로 월 300분을 테스트할 수 있습니다. 다국어 자막이나 더빙이 필요하다면 Maestra의 라이브 티어가 125개 이상의 언어를 커버합니다. Windows 화면에 재생 중인 오디오 자막만 필요하다면 Windows 11 라이브 자막은 무료에 기기 내 작동, 이미 설치되어 있습니다. 저희는 쓰기 도구를 만듭니다. 읽기 도구가 필요할 때는 그쪽이 더 나은 선택이며, 맞는 도구를 쓰시길 바랍니다. (회의 경우에 대한 나란히 비교는 별도로 작성한 Otter.ai 대안 비교를 참고하세요.)

비용

Whisper by Remskill은 로그인한 모든 사용자에게 전체 로컬 파이프라인(Parakeet, 모든 Whisper 모델, 기기 내 AI 정리, 히스토리, 프리셋, 커스텀 단축키)을 무료로 제공하며 가입 시 결제 수단을 묻지 않습니다. 유료 티어인 Whisper Pro는 클라우드 기능을 추가합니다. 자체 키를 사용하는 OpenAI 받아쓰기와 웹 검색이 포함됩니다. 정확한 금액은 요금제 페이지에 있으며 "부터" 같은 주석 없이 명시되어 있습니다. 참고로 다른 도구들의 경우, Otter의 무료 티어는 월 300분에서 멈추고 그 이상은 유료 플랜이 필요합니다. 무료 로컬 파이프라인의 의미는 이것입니다. 단축키를 누르고 말하고 붙여넣는 전체 쓰기 루프를 먼저 써보고, 클라우드가 나한테 그만한 가치가 있는지 결정하면 됩니다.

이 글을 읽은 두 사람이 원하는 앱은 서로 다릅니다. 한 명은 스탠드업 자막을 달려고 합니다. 다른 한 명은 학교 마치기 전에 이메일 30개를 단축키 한 번씩 눌러가며 답하려 합니다. 유일한 실수는 둘 다 상자에 "실시간"이라고 써 있다는 이유로 잘못된 도구를 집어 들고, 3개월 뒤 클라우드 대시보드를 열면서 청구서가 어디서 왔는지 의아해하는 것입니다. 지금 무엇을 하는지를 기준으로 고르세요. 말을 보는 것인지, 아니면 쓰는 것인지. 나머지는 거기서 따라옵니다.

내 노트북에서 쓰기 루프를 직접 써보세요

Whisper를 다운로드하고, 키를 누르고, 문장을 말하고, 커서가 있던 자리에 텍스트가 나타나는 것을 확인하세요.

Whisper 다운로드 작동 방식 보기

전체 로컬 파이프라인 무료. 가입 시 결제 수단 불필요.

Denys Medvediev

저는 지원 이메일을 읽는 사람입니다. 아마도 답장은 받아쓰기로 작성했을 겁니다.

더 읽어보기

자주 묻는 질문

최고 한 가지는 없습니다. 무엇을 하느냐에 달려 있습니다. 라이브 회의 기록에는 Zoom과 Google Meet 라이브 자막을 제공하는 Otter가 표준입니다. 글을 쓰는 동안 커서에 받아쓰고 싶다면 Whisper 같은 즉각적인 푸시투토크 도구가 필요합니다. 말을 읽고 있는지, 쓰고 있는지부터 결정하세요. 답은 거기서 나옵니다.

작성자: Denys Medvediev2026년 4월 19일

가이드

실시간 받아쓰기, 제대로 이해하기

최종 업데이트: 2026년 6월

'실시간'이 실제로 의미하는 것

"실시간"에는 두 가지 정직한 정의가 있고, 이를 내세우는 앱들은 두 진영으로 나뉩니다.

단축키 누르면 커서에 텍스트가

CancelTranscribing

받아쓰기 중인 Whisper 라이브 오버레이 — 스크린샷이 아닙니다. 키를 놓고 텍스트가 나타나기까지 반초 동안 실제로 보이는 화면입니다.

Parakeet이 가장 빠른 로컬 옵션인 이유

Whisper

실제 Whisper 앱 — 설정과 모델 선택기를 열면 로컬 엔진들을 나란히 볼 수 있습니다. 스크린샷이 아닌 라이브 프론트엔드입니다.

더 긴 논거가 궁금하다면, 여기 저희의 주장을 담은 글이 있습니다. 외부로 연결되지 않는 오프라인 음성 텍스트 변환.

회의 라이브 자막 vs. 커서 받아쓰기

어느 쪽이 "실시간"을 더 크게 외치는지가 아니라, 내가 지금 무엇을 하고 있는지를 기준으로 도구를 고르세요.

알아두면 좋은 다른 실시간 받아쓰기 앱들

제 말을 그냥 믿지 않아도 됩니다. 결정을 내리기 전에 주요 도구들을 각각 어디에 두어야 할지 알 수 있도록, 솔직한 한 줄 정리를 드립니다.

OtterMaestraNottaRevTrint

Otter Zoom과 Google Meet 라이브 자막, iOS·Android·Web 앱, 영어·스페인어·프랑스어·독일어·일본어·중국어 AI 받아쓰기로 회의 받아쓰기를 커버합니다. 무료 티어는 월 300분 받아쓰기로 제한됩니다.
Maestra 125개 이상의 언어로 실시간 받아쓰기와 번역, 자막, 더빙을 제공하며, 회사 측은 라이브 받아쓰기 티어가 무료라고 밝힙니다. 자막과 서브타이틀에 특화되어 있으며 커서 받아쓰기는 해당하지 않습니다.
Notta 실시간 오디오·비디오를 텍스트로 변환하며 번역 포함 58개 언어 지원을 보고합니다. 클라우드 기반의 회의·녹음 도구입니다.
Rev and Trint 커서 받아쓰기보다 녹음 미디어 중심으로 포지셔닝합니다. Rev는 회의와 녹음 받아쓰기로 잘 알려져 있고, Trint는 저널리즘과 뉴스룸에서 인터뷰 녹음 작업에 널리 쓰입니다. 둘 다 읽고 편집하는 도구이며, 키를 누르면 앱에 바로 입력되는 루프는 아닙니다.

만들어낸 속도나 정확도 점수가 아니라, 직접 확인할 수 있는 사실들로 나란히 비교해 보겠습니다.

도구	플랫폼	로컬 / 클라우드	오프라인 지원	요금 방식	언어 수	최적 용도
Whisper by Remskill	Windows, macOS (Apple Silicon)	로컬 + 선택적 클라우드 (BYOK)	가능, 로컬 모드	무료 로컬 티어; 유료 클라우드 부가	99개 (Whisper 다국어) / 25개 (Parakeet)	커서 받아쓰기
Otter	iOS, Android, Web	클라우드	불가	무료 티어 + 유료 플랜	6	회의 라이브 자막
Maestra	Web	클라우드	불가	무료 라이브 티어 + 유료 플랜	125+	자막, 더빙, 캡션
Notta	Web, 모바일	클라우드	불가	무료 티어 + 유료 플랜	58개 (보고 기준)	회의 및 녹음 메모
Windows 11 Live Captions	Windows 11	로컬 (기기 내)	가능	OS에 내장	~21	화면에서 읽는 자막

검증 가능한 사실로 비교한 실시간 받아쓰기 앱들 — 꾸며낸 점수 없음.

Whisper 대신 회의 도구를 써야 할 때

비용

내 노트북에서 쓰기 루프를 직접 써보세요

Whisper를 다운로드하고, 키를 누르고, 문장을 말하고, 커서가 있던 자리에 텍스트가 나타나는 것을 확인하세요.

Whisper 다운로드 작동 방식 보기

전체 로컬 파이프라인 무료. 가입 시 결제 수단 불필요.

Denys Medvediev

저는 지원 이메일을 읽는 사람입니다. 아마도 답장은 받아쓰기로 작성했을 겁니다.

실시간 받아쓰기, 제대로 이해하기

'실시간'이 실제로 의미하는 것

단축키 누르면 커서에 텍스트가

Parakeet이 가장 빠른 로컬 옵션인 이유

회의 라이브 자막 vs. 커서 받아쓰기

알아두면 좋은 다른 실시간 받아쓰기 앱들

Whisper 대신 회의 도구를 써야 할 때

비용

내 노트북에서 쓰기 루프를 직접 써보세요

더 읽어보기

자주 묻는 질문

Word에서 음성으로 입력하기

운영체제별 음성 입력 단축키 총정리

Google 음성 입력 대안: 어디서나 받아쓰기

실시간 받아쓰기, 제대로 이해하기

'실시간'이 실제로 의미하는 것

단축키 누르면 커서에 텍스트가

Parakeet이 가장 빠른 로컬 옵션인 이유

회의 라이브 자막 vs. 커서 받아쓰기

알아두면 좋은 다른 실시간 받아쓰기 앱들

Whisper 대신 회의 도구를 써야 할 때

비용

내 노트북에서 쓰기 루프를 직접 써보세요

더 읽어보기

자주 묻는 질문

Word에서 음성으로 입력하기

운영체제별 음성 입력 단축키 총정리

Google 음성 입력 대안: 어디서나 받아쓰기

실시간 받아쓰기, 제대로 이해하기

'실시간'이 실제로 의미하는 것

단축키 누르면 커서에 텍스트가

Parakeet이 가장 빠른 로컬 옵션인 이유

회의 라이브 자막 vs. 커서 받아쓰기

알아두면 좋은 다른 실시간 받아쓰기 앱들

Whisper 대신 회의 도구를 써야 할 때

비용

내 노트북에서 쓰기 루프를 직접 써보세요

더 읽어보기

자주 묻는 질문

계속 읽기

Word에서 음성으로 입력하기

운영체제별 음성 입력 단축키 총정리

Google 음성 입력 대안: 어디서나 받아쓰기

실시간 받아쓰기, 제대로 이해하기

'실시간'이 실제로 의미하는 것

단축키 누르면 커서에 텍스트가

Parakeet이 가장 빠른 로컬 옵션인 이유

회의 라이브 자막 vs. 커서 받아쓰기

알아두면 좋은 다른 실시간 받아쓰기 앱들

Whisper 대신 회의 도구를 써야 할 때

비용

내 노트북에서 쓰기 루프를 직접 써보세요

더 읽어보기

자주 묻는 질문

계속 읽기

Word에서 음성으로 입력하기

운영체제별 음성 입력 단축키 총정리

Google 음성 입력 대안: 어디서나 받아쓰기