Which Whisper model should I use for English dictation?

For everyday English, pick a small English model or Parakeet for speed; pick the Medium English model when you want the highest local accuracy and have 16 GB of RAM. Turbo (the distil-large-v3 model) gives near-large accuracy with far less waiting. The English-only models drop multilingual support to spend that budget on English.

What's the difference between the English-only and multilingual Whisper models?

The English-only models know exactly one language, English, and are more efficient for it. The multilingual models cover 99 languages with auto-detect and are the only local path that can translate speech into English. If your audio isn't English, or you need translation, you must use a multilingual model.

Should I use Parakeet or Whisper?

Use Parakeet for speed if you work in English or another of its 24 supported European languages — it's around 600 MB and 5 to 10 times faster than Whisper on CPU. Use Whisper when you need Chinese, Japanese, Korean, translate-to-English, or hotword biasing, none of which Parakeet does. The app ships both so you can pick per task.

Which Whisper model is the most accurate?

Locally, the multilingual Large v3 model at around 3 GB is the most accurate, but it wants 16 GB of RAM. For English specifically, the Medium English model is the accuracy pick. Cloud mode via OpenAI is the most accurate option overall, but it needs internet and your own API key. Your microphone affects accuracy more than the model size does.

How much disk space and RAM do the models need?

Sizes range from Base at around 140 MB to the multilingual Large v3 at around 3 GB. The mid-sized models are around 1.5 GB; Parakeet is around 600 MB. The 1.5 GB-and-up models generally want 16 GB of RAM to run comfortably; on an 8 GB machine, stick to Base, Small, or Parakeet, or use Cloud mode, which needs no local resources.

Can I change the Whisper model after I pick one?

Yes. Switching models is two clicks in Settings under the Transcription panel; the only cost is downloading whichever model you move to. There's no penalty for guessing wrong on day one. Try a model on real work for a day and switch if it's too slow, missing a language, or mangling words.

What is the Turbo Whisper model and when should I use it?

Turbo is the distil-large-v3 model, around 1.5 GB, described as 6× faster than the large model with 99% of its accuracy. There's also a multilingual Large v3 Turbo at around 1.62 GB. Use a Turbo model when you want close-to-best accuracy without the speed penalty of the full large model.

Do I even need to pick a model, or can I just use my computer's built-in dictation?

For short notes, your built-in dictation is fine — Windows Voice Typing (Windows key + H) or macOS Dictation cost nothing and punctuate on their own. A dedicated model earns its place when you do real volume, want offline privacy, or need a language or control the built-ins don't offer. Windows Voice Typing also needs internet, so it isn't an offline option.

작성자: Denys Medvediev2026년 5월 15일

설명

어떤 Whisper 모델을 써야 할까요

정답인 Whisper 모델은 하나로 정해져 있지 않습니다. 무엇을 가장 중요하게 여기는지, 즉 속도, 정확도, 언어, 디스크 용량 중 무엇이냐에 따라 맞는 모델이 달라집니다. 이 가이드는 제공되는 각 모델을 용도별로 정리해 약 1분 만에 고를 수 있게 돕고, 언제 Whisper 대신 Parakeet를 써야 하는지도 알려줍니다.

마지막 업데이트: 2026년 6월

어두운 패널 위에 이름표가 붙은 여러 개의 토글 스위치가 있어, 선택지 사이의 고민을 떠올리게 하는 모습

최적의 Whisper 모델은 작업에 따라 다릅니다. 평소 영어 받아쓰기에는 작은 영어 모델, 다른 언어에는 다국어 모델, 최고 정확도에는 large 모델, 속도와 large급 품질을 함께 원하면 Turbo를 고르세요. 영어 위주이고 속도가 중요하다면 Parakeet가 Whisper보다 낫습니다. 앱은 모든 모델을 보여 주고 사용자가 직접 고르게 합니다.

다른 어떤 질문보다 이 질문을 자주 받습니다. 보통 "앱을 받았는데, 이제 어떤 모델을 골라야 하나요"라는 식이죠. 충분히 합리적인 질문이고, 솔직한 첫 답은 모든 면에서 이기는 단 하나의 모델은 없다는 것입니다. 당신의 컴퓨터, 당신의 언어, 그리고 0.5초쯤 더 기다리는 걸 얼마나 신경 쓰느냐에 따라 이기는 모델이 달라집니다. 그래서 앱은 대신 골라 주지 않습니다. 선택지를 보여 주고 한발 물러나 있죠.

차이를 직접 보기 전까지는 이게 책임 회피처럼 들립니다. 가장 작은 영어 모델은 약 140 MB라 2016년형 노트북에서도 돌아갑니다. 가장 좋은 다국어 모델은 약 3 GB이고 16 GB RAM을 요구합니다. 이 둘 사이에 여섯 가지 선택지가 더 있고, 거기에 Parakeet라는 별도 엔진까지 있습니다. 잘못 고르면 너무 오래 기다리거나 엉뚱한 언어로 받아쓰게 됩니다. 제대로 고르면 모델이 있다는 사실 자체를 잊게 되는데, 바로 그게 목표입니다.

전체 목록이 한눈에 들어오게 만드는 틀이 있습니다. 모든 모델은 네 가지를 두고 맞바꾸는 거래입니다. 속도, 정확도, 아는 언어 수, 그리고 잡아먹는 디스크와 RAM이죠. 네 가지를 모두 최대로 끌어올릴 수는 없습니다. 3 GB 모델은 더 정확하고 더 많은 언어를 알지만, 그만큼 느리고 8 GB 컴퓨터에는 들어가지 않습니다. 140 MB 모델은 즉각적이지만 영어만, 그것도 딱 그 정도 수준까지만 합니다.

그래서 진짜 질문은 "어떤 모델이 가장 좋은가"가 아닙니다. "나는 어떤 거래를 원하는가"죠. 평범한 노트북에서 영어만 받아쓰는 사람인지, 아홉 개 언어를 넘나들며 일하는 번역가인지, 아니면 그냥 존재하는 가장 빠른 로컬 옵션을 원하는 사람인지 알게 되면, 선택은 저절로 정해집니다. 이 글에서는 영어 전용 모델, 다국어 모델, Parakeet가 이들 모두를 앞서는 지점, 그리고 나머지를 읽기 싫은 분을 위한 한 줄 추천까지 차례로 짚어 보겠습니다.

질문 하나로 시작하세요. 무엇을 가장 중요하게 여기나요?

맑은 하늘을 배경으로 여러 방향을 가리키는 화살표가 달린 낡은 나무 이정표

모델 이름을 떠올리기 전에 질문 하나에 답하세요. 지금 당신에게 가장 중요한 것은 속도, 정확도, 언어 지원, 디스크 용량 중 무엇입니까? 우선순위로는 하나만 고를 수 있습니다. 모델들이 서로 맞바꾸는 관계이기 때문이죠. 이 문제로 끙끙대는 대부분의 사람은 무엇을 최적화할지 아직 정하지 못한 것뿐입니다. 그래서 목록이 마비될 만큼 복잡해 보이지만, 사실은 그렇지 않습니다. 여덟 개의 이름을 쓴 네 개의 짧은 답일 뿐이죠.

속도가 중요하고 영어를 쓴다면 작은 영어 모델, 더 흔하게는 Parakeet로 가게 됩니다. 영어가 아닌 언어가 필요하다면 좋든 싫든 다국어 계열로 들어옵니다. 로컬에서 얻을 수 있는 가장 정확한 받아쓰기를 원하고 RAM이 충분하다면 large 모델입니다. 디스크 용량이 빠듯하다면 가장 작은 모델이 친구이고 3 GB짜리는 후보에서 빠집니다. 이게 결정 트리의 전부이고, 이 가이드의 나머지는 그저 거기에 이름을 채워 넣는 일입니다.

앱이 의도적으로 하는 일이 하나 있습니다. 절대 기본값을 강요하지 않습니다. 벤치마크에서 우리를 돋보이게 하는 모델로 사용자를 떠미는 "추천" 배지 같은 건 없습니다. Cloud가 보이고, Parakeet가 보이고, 영어 전용과 다국어로 나뉜 여덟 개의 Whisper 모델이 보이며, 당신이 고릅니다. 이미 Windows에서 음성을 텍스트로 또는 Mac에서 써 본 적이 있다면, 이건 다른 질문을 향한 같은 화면입니다.

영어 전용 모델, 낡은 노트북부터 최고 정확도까지

영어로만 받아쓴다면 영어 전용 모델이 효율적인 선택입니다. 다국어 기능을 덜어 내고 그 여력을 영어에 쏟거든요. 모두 네 개가 있고 "오래된 노트북"부터 "로컬에서 돌릴 수 있는 최고의 영어"까지 깔끔하게 줄을 섭니다. 어느 것을 골랐든 단축키를 누르고, 말하고, 떼면, 커서 위치에 받아쓴 글이 붙습니다. 차이는 오직 속도와 까다로운 단어를 얼마나 자주 맞히느냐뿐입니다. 말하는 동안 작은 캡슐이 나타나 듣고 있다는 걸 알려 줍니다.

Cancel

녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있다는 걸 알려 줍니다.

가장 작은 건 Base로 약 140 MB입니다. 2016년형 노트북이나 8 GB 컴퓨터에서 RAM 걱정 없이 그냥 잘 되는 받아쓰기를 원할 때 고를 모델이죠. 그 위에 약 480 MB의 Small이 있는데, 균형 잡힌 영어 옵션입니다. Parakeet보다는 느리지만, Parakeet가 못 하는 영어로 번역과 핫워드 보정을 지원합니다. 그다음은 약 1.5 GB의 Medium으로, 16 GB RAM을 요구하며 이 계열에서 가장 높은 순수 영어 정확도를 냅니다. (한 공개 벤치마크에서 medium 영어 모델은 깨끗한 음성에서 단어 오류율이 약 3%, Small은 5%에 가깝습니다. 실제 수치는 어느 모델을 고르느냐보다 마이크에 훨씬 더 좌우됩니다.)

네 번째 모델이 사람들을 헷갈리게 하니 분명히 짚고 넘어가겠습니다. Turbo, 즉 distil-large-v3 모델도 약 1.5 GB이고 large 모델보다 6배 빠르면서 정확도는 99%라고 설명됩니다. 공짜 점심처럼 들리고, 영어에 한해서는 거의 그렇습니다. 전체 large 모델의 속도 손해 없이 최고에 가까운 영어 정확도를 원할 때 고를 모델이죠. 함정은 "영어 전용"이라는 꼬리표입니다. 이 넷은 영어를, 오직 영어만 압니다. 두 번째 언어가 필요해지는 순간 이 계열을 완전히 벗어나게 되는데, 그게 다음 절입니다.

다국어 모델, 나머지 98개 언어를 위한 선택

음성이 영어가 아닌 순간, 다국어 모델이 필요합니다. Whisper의 다국어 빌드는 자동 감지로 99개 언어를 다루며, 받아쓰면서 음성을 영어로 번역할 수 있는 유일한 로컬 경로입니다. 영어 전용 모델은 그걸 못 하고 Parakeet도 못 합니다. 그러니 우크라이나어로 받아쓰거나, 일본어로 메모를 작성하거나, 스페인어 녹음을 영어 텍스트로 받고 싶다면 이 계열이 답입니다. 두말할 필요 없이요.

여기에도 네 개가 있고, 영어 전용 모델의 크기 구성을 그대로 따릅니다. 약 480 MB의 Small은 빠른 다국어 기준선입니다. 앱이 기본으로 제공하는 전체 기본 모델인데, 아직 사용자의 언어를 모를 때 가장 안전한 첫 추측이기 때문입니다. 약 1.5 GB의 Medium은 속도를 내주고 눈에 띄게 나은 품질을 얻습니다. 약 3 GB의 Large v3는 로컬에서 얻을 수 있는 최고 정확도이며, 16 GB RAM만 받쳐 준다면 전문 다국어 작업에 알맞은 선택입니다. 그리고 약 1.62 GB의 Large v3 Turbo는 빠른 다국어 등급으로, large 모델 품질의 대부분을 훨씬 짧은 대기로 누립니다.

언어 수에 대해 한마디 하겠습니다. "마케팅용 안전한 숫자"와 실제 숫자는 무엇을 뜻하느냐에 따라 다르거든요. 다국어 모델은 정말로 99개 언어를 다루고, 영어 전용 모델은 정확히 하나를 다룹니다. 주로 영어를 쓰고 가끔 두 번째 유럽 언어를 만난다면, 이들 중 무엇보다 빠른 옵션이 있습니다. 바로 Parakeet죠. 다음으로 이해할 것이 이것입니다. 사람들이 가장 자주 잘못 고르거나, 잘못 건너뛰는 모델이기 때문입니다.

Parakeet가 Whisper를 이길 때, 그리고 이기지 못할 때

트랙 위에서 모션 블러로 흐릿하게 달리는 주자, 속도와 앞선 출발을 떠올리게 하는 모습

Parakeet는 사실 Whisper 모델이 아닙니다. NVIDIA의 TDT 엔진으로 약 600 MB이며, 앱이 제공하는 가장 빠른 로컬 옵션입니다. CPU에서 Whisper보다 5배에서 10배 빠르다고 설명됩니다. 여분의 GPU 없이 오래되거나 노트북급 CPU를 쓴다면, 그 속도 차이가 즉각적으로 느껴지는 받아쓰기와 기다리게 만드는 받아쓰기를 가릅니다. 평소 영어 작업에서는 제가 가장 먼저 손이 가는 모델입니다.

영어에 24개의 다른 유럽 언어를 더해 총 25개를 다루므로, 많은 유럽 사용자에게는 이걸로 충분합니다. 의도적으로 안 하는 건 Whisper만의 기능입니다. 영어로 번역도, 핫워드 보정도, 맞춤 어휘 프롬프트도 없습니다. 작업이 단일 영어(혹은 그 24개 유럽 언어 중 하나)이고 그저 빠르기를 원한다면, Parakeet가 이기고 질문은 끝납니다. 전체 그림이 궁금하면 Parakeet 모델 상세 설명에 더 자세히 적어 두었습니다.

그 틀을 벗어나는 순간 Whisper가 이깁니다. 중국어, 일본어, 한국어가 필요한가요? Parakeet는 못 하니 다국어 Whisper입니다. 녹음을 영어로 번역해야 하나요? 그걸 해내는 유일한 로컬 경로인 Whisper 다국어입니다. 제품명이나 전문 용어 목록 쪽으로 모델을 편향시켜 더 이상 망가뜨리지 않게 하고 싶나요? 핫워드를 통해 Whisper입니다. 기억할 원칙은 이렇습니다. 영어 속도는 Parakeet, 언어와 번역과 제어는 Whisper. 어느 한쪽도 모두에게 정답은 아니기에, 앱은 둘 다 제공합니다.

크기, 속도, 정확도: 거래는 실제로 어떻게 작동하는가

세 가지 힘을 나란히 놓고 보면 도움이 됩니다. 모든 모델은 같은 삼각형 위의 서로 다른 점일 뿐이거든요. 파일이 클수록 더 정확하고 더 느립니다. 작을수록 더 빠르고 RAM에 가볍습니다. 그리고 특수 엔진은 그 곡선을 휘게 만듭니다. 여기 각 힘의 솔직한 버전을 적습니다. 앱이 당신에게 고르게 하는 만큼, 비용을 알고 고르길 바라기 때문입니다.

무엇이 발목을 잡느냐에 따라 이 라인업을 읽는 세 가지 방법이 있습니다.

속도가 문제라면 — 먼저 Parakeet를 잡으세요. 약 600 MB이고 CPU에서 Whisper보다 5배에서 10배 빠릅니다. GPU 없는 컴퓨터에서 평소 영어 작업이라면 로컬 중에 이를 따라올 게 없습니다. 대가는 영어로 번역과 핫워드가 없다는 점입니다.
정확도나 언어가 문제라면 — Whisper 계열에서 더 큰 쪽으로 가세요. 약 3 GB의 Large v3는 로컬 최고 정확도에 99개 언어를 다루지만 16 GB RAM을 요구합니다. Turbo 계열은 훨씬 적은 대기로 그 품질의 대부분을 줍니다. Small과 Medium이 합리적인 중간입니다.
디스크 용량이나 RAM이 문제라면 — 작게 유지하거나(약 140 MB의 Base), 로컬을 아예 건너뛰고 Cloud 모드를 쓰세요. 본인의 키로 OpenAI에 보내는 네트워크 호출일 뿐이라 어떤 하드웨어에서도 돌아갑니다. Cloud는 Whisper Pro의 일부이며 인터넷이 필요합니다.

지루하지만 사실은, 최신 컴퓨터를 쓰는 대부분의 사람에게 중간 크기 모델들 사이의 차이는 마이크가 만드는 차이보다 작다는 것입니다. $20짜리 USB 마이크가 Small에서 Large로 올라가는 것보다 정확도에 더 보탬이 됩니다. 공개된 Whisper 벤치마크가 이를 뒷받침하고, 제 책상에서도 한두 번이 아니게 직접 봤습니다. 그러니 첫날부터 Medium이냐 Large냐로 끙끙대지 마세요. RAM에 맞는 걸 골라 받아쓰기를 시작하고, 어떤 단어가 자꾸 틀리면 나중에 모델을 올리세요. 당신이 실제로 계속 쓰게 될 모델은 존재를 잊을 만큼 충분히 빠른 모델입니다.

하나 써 보고, 아니다 싶으면 두 번 클릭으로 바꾸세요

이 결정 전체에서 부담을 덜어 주는 대목이 여기 있습니다. 처음 고른 모델과 결혼하는 게 아닙니다. 바꾸는 건 설정에서 두 번 클릭이고, 유일한 실질 비용은 옮겨 갈 모델의 다운로드뿐입니다. 그러니 옳은 전략은 한 시간 동안 조사하는 게 아니라, 합리적인 첫 추측을 하고, 하루 써 보고, 거슬리면 바꾸는 것입니다. 로컬 파이프라인 전체가 로그인한 계정이면 누구에게나 무료이고 가입 시 결제 수단도 묻지 않으니, 몇 가지 모델을 시험해 봐도 드는 비용은 디스크 용량뿐입니다.

1단계 — 설정을 열고 Transcription 패널을 찾습니다.

거기에 모델 목록이 있습니다. 영어 전용과 다국어로 나뉘어 있고, Parakeet와 Cloud가 나란히 있습니다. "최고"로 미리 선택된 건 아무것도 없습니다.

각 이름 옆에 크기가 적힌 모델 목록이 보이면 제대로 찾아온 것입니다.

2단계 — 위 절을 바탕으로 첫 추측을 합니다.

영어이고 속도 원함: Parakeet. 영어이고 정확도 원함: Small 또는 Medium 영어. 다른 언어: 다국어 모델. RAM이 빠듯함: Base.

모델 다운로드가 끝나고 준비 완료로 표시되면 잘된 것입니다.

3단계 — 하루 동안 그걸로 받아쓰기를 합니다.

시험 문장이 아니라 실제 작업에 쓰세요. 어떤 벤치마크 차트보다 실제 메모를 한나절 적어 보는 데서 더 많이 배웁니다.

더 이상 의식하지 않고 그냥 말하게 되면 그게 맞는 모델입니다.

4단계 — 아니다 싶으면 바꿉니다.

너무 느리면 더 작은 것이나 Parakeet를 고르세요. 언어가 빠지거나 단어를 망가뜨리면 다국어나 더 큰 쪽으로 가세요. 두 번 클릭, 한 번 다운로드, 끝.

새 모델이 로드되고 다음 녹음에 그게 쓰이면 잘된 것입니다.

Whisper

설정 화면의 실제 Whisper 데스크톱 앱. 모델을 고르고 바꾸는 Transcription 패널이 보입니다.

사람들은 이걸 일방통행 문처럼 여기지만 그렇지 않습니다. 제가 가장 처음 돌린 모델도 계속 쓴 모델은 아니었습니다. 습관적으로 다국어 모델로 시작했다가, 하루 종일 영어로 받아쓰고 있다는 걸 깨닫고 속도를 위해 Parakeet로 옮겼죠. 두 번 클릭과 커피 한 잔 거리의 다운로드면 됐습니다. 첫 선택은 초안으로 여기세요.

끝으로 건너뛰었다면, 빠른 추천

다른 건 안 읽어도 이건 보세요. 영어, 빠르길 원함, 평범한 컴퓨터: Parakeet. 영어, 최고 로컬 정확도 원함: Medium 영어 모델, 또는 기다림 없이 그 정확도를 원하면 Turbo. 다른 언어이거나 번역이 필요함: 다국어 모델 — 시작은 Small, 정확도가 중요하고 16 GB RAM이 있으면 Large v3. 디스크나 RAM이 빠듯함: Base. 웹 접속까지 되는 최상급 정확도를 원하고 본인 OpenAI 키를 쓰는 데 문제없음: Cloud. 이게 지도의 전부입니다.

무엇을 고르든, 받아쓴 원문은 줄줄 이어진 글로 나옵니다. 이건 우리만이 아니라 모든 음성 엔진이 그렇습니다. "그래 회의 모델을 medium으로 맞추고 나중에 large도 시험하라고 알려 줘"라고 말하면, 구두점 없는 한 덩어리로 돌아오죠. Whisper는 텍스트가 안착하기 전에 AI 정리 과정을 돌려 구두점을 고치고 군더더기를 걷어 낼 수 있습니다. 활성화 문구 "Hey whisper"를 말하면 먼저 다듬어 줍니다. 로컬 모델에서는 Ollama를 통해 돌고, 클라우드 모드에서는 기본값이 gpt-5-mini입니다.

Thinking...

정리 오버레이: 선택적 AI 과정이 텍스트가 안착하기 전에 구두점과 군더더기를 정리합니다.

원문

그래 회의 모델을 medium으로 맞추고 나중에 large도 시험해 보라고 알려 줘 음 빠른 건 parakeet 정도로

정리됨

그래, 회의 모델을 Medium으로 맞추고 나중에 Large도 시험해 보라고 알려 줘 — 빠른 건 Parakeet 정도로.

"어떤 모델" 가이드라면 끝에 마땅히 들어가야 할 솔직한 단서가 하나 있습니다. 평생 하는 일이 텍스트 칸에 30단어짜리 메모를 떨구는 게 전부라면, 굳이 모델을 고를 필요가 없을지도 모릅니다. Windows에서는 내장 음성 입력 바가 커서가 있는 어디서든 Windows 키 + H로 열립니다. 알아서 구두점을 찍고 무료지만, Microsoft 서버를 거치고 인터넷이 필요합니다. Mac에서는 시스템 설정의 받아쓰기가 같은 일을 하고, Apple Silicon에서는 일반 텍스트를 기기 내에서 처리할 수 있습니다. 정확도와 길이가 발목을 잡기 시작하는 문턱 아래라면, 이미 컴퓨터에 있는 걸 쓰세요. 우리가 다운로드할 가치가 생기는 건 실제로 많은 양을 다루거나, 오프라인 프라이버시를 원하거나, 내장 기능이 못 주는 언어나 제어가 필요할 때입니다. 장 볼 목록을 받아쓰자고 앱을 깔라고는 하지 않겠습니다.

"최고"의 Whisper 모델은 더 이상 생각하지 않게 되는 모델입니다. 중요하게 여기는 거래를 고르고, 첫 추측을 하고, 거슬리면 두 번 클릭으로 바꾸세요. 저는 두 번째 커밋에서 이미 아키텍처 다이어그램이 틀려 있던 시스템도 출시해 봤기에 "일단 해 보고 조정하라"는 말을 꽤 존중합니다. 당신의 모델 선택은 그보다 위험이 낮고 되돌리기도 훨씬 쉽습니다. 일단 어디서든 시작하세요. 느린 건 다운로드지, 결정이 아니어야 합니다.

모델을 고르고 말하기 시작하세요

첫 추측을 하고, 하루 받아쓰기를 해 보고, 아니다 싶으면 두 번 클릭으로 바꾸세요. 앱은 모든 옵션을 보여 주고 당신이 고르게 합니다.

Whisper 다운로드 작동 방식 보기

로그인한 계정이면 누구나 로컬 모드 무료. 시작에 카드가 필요 없습니다.

Denys Medvediev

저는 우리 고객 지원 메일을 읽는 사람입니다. 십중팔구 답장도 받아쓰기로 하고 있을 거예요.

더 읽어 보기

자주 묻는 질문

평소 영어라면 작은 영어 모델을 고르거나 속도를 위해 Parakeet를 쓰세요. 가장 높은 로컬 정확도를 원하고 16 GB RAM이 있다면 Medium 영어 모델을 고르세요. Turbo(distil-large-v3 모델)는 훨씬 적은 기다림으로 large에 가까운 정확도를 줍니다. 영어 전용 모델은 다국어 지원을 덜어 내 그 여력을 영어에 씁니다.