작성자: Denys Medvediev

설명

Whisper의 정확도는 실제로 어느 정도일까요

Whisper는 깨끗한 영어 음성에서 매우 정확하고, 주요 언어들에서도 뛰어난 성능을 보입니다. 하지만 완벽하지는 않습니다. 정확도를 높이는 가장 큰 요소는 모델 선택이 아니라 마이크와 조용한 환경입니다. AI 교정 단계가 이후 문장 부호와 군말을 정리해 줍니다.

마지막 업데이트: 2026년 6월

어두운 화면의 파란색 음성 파형 — 음성 인식 정확도를 측정하는 장면

Whisper는 일상적인 받아쓰기와 전문적인 메모에 충분히 정확합니다. medium 모델 기준으로 깨끗한 영어 음성에서 약 3%의 단어 오류율을 기록합니다. 악센트, 배경 소음, 전문 용어, 동시 발화에서는 정확도가 떨어집니다. 대부분의 사람들이 할 수 있는 가장 큰 개선은 더 좋은 마이크와 조용한 공간을 확보하는 것이지, 더 큰 모델을 쓰는 것이 아닙니다.

"Whisper의 정확도는 어떤가요"라는 질문에는 솔직한 답변과 마케팅 답변이 따로 있는데, 둘은 다릅니다. 마케팅 답변은 "믿을 수 없을 만큼 정확하고 최첨단"이라는 것입니다. 솔직한 답변은 "깨끗한 녹음에서는 아주 잘 되지만, 나쁜 녹음에서는 눈에 띄게 나빠지며, 그 차이는 대부분 마이크 때문"이라는 것입니다. 저는 같은 모델이 $20짜리 USB 마이크로는 문장을 완벽하게 받아쓰는 걸 보다가, 시끄러운 주방에서 노트북 마이크로는 엉망으로 만드는 것도 목격했습니다.

그래서 이 글은 벤치마크 순위를 다루는 글이 아닙니다. 친구가 실제 업무에 음성 타이핑을 믿고 쓸 수 있냐고 물었을 때 제가 줄 대답입니다. 짧게 요약하면 네, 단 통제 가능한 조건이 있습니다. 아래에 긴 버전을 담았습니다 — 실제로 중요한 숫자 하나와, 아무리 좋은 모델이라도 정확도를 조용히 망치는 세 가지 요소를 포함해서요.

대부분의 "Whisper 정확도" 페이지가 빠뜨리는 핵심이 있습니다. 정확도는 하나의 숫자가 아닙니다. 모델 크기, 사용하는 언어, 그리고 그 무엇보다도 입력 오디오의 품질에 따라 달라지는 숫자입니다. 깨끗하게 녹음된 음성 위의 작은 모델이, 묵직하게 울리는 녹음 위의 큰 모델을 항상 이깁니다.

연구자들이 이를 측정하는 방식이 단어 오류율, 줄여서 WER입니다. 시스템이 틀리게 인식한 단어의 비율입니다. 깨끗한 영어에서 Whisper의 공개된 WER은 낮습니다. 하지만 설거지 소리가 들리는 화요일 오후에 여러분의 WER은 전혀 다른 얘기가 됩니다. 숫자의 의미, Whisper의 실제 점수, 정확도를 낮추는 요인, 그리고 어떤 모델 업그레이드보다 더 효과적인 단순하고 저렴한 해결책을 설명해 드리겠습니다.

"정확도"가 실제로 의미하는 것: 단어 오류율

어두운 모니터의 오디오 편집 파형 클로즈업 — 오류를 측정하는 음성 인식 장면

사람들이 음성 인식 시스템이 "95% 정확하다"고 말할 때, 거의 항상 단어 오류율(WER)을 의미합니다. 가장 단순하고 솔직한 측정 방법입니다. 알려진 문장을 시스템이 받아쓰게 한 다음 틀린 단어를 셉니다. WER 5%는 100단어 중 5단어가 틀렸다는 뜻으로, 대체·삭제·없던 단어 삽입이 포함됩니다. 낮을수록 좋으며, 0이면 완벽하지만 현실에서 0은 없습니다.

마지막 부분이 중요하기 때문에 분명히 말하겠습니다. 완벽한 음성 인식 엔진은 없고, 그렇다고 주장하는 제품은 발표 자료를 위해 숫자를 반올림하는 것입니다. 인간도 완벽한 받아쓰기 전문가가 아닙니다 — 전문 인간 받아쓰기사도 깨끗한 오디오에서 약 4% WER을 기록하며, 어려운 녹음에서는 더 나빠집니다. 따라서 Whisper가 "3% WER"이라고 읽을 때, 그건 마법이 아니라 해당 종류의 오디오에서 인간 수준에 가까운 것입니다. 대부분은 맞고 때로는 틀리는 도구, 다른 도구들과 마찬가지입니다.

30초 짜리 미묘한 포인트가 하나 더 있습니다. WER은 모든 단어를 동등하게 셉니다만, 실제 오류를 느끼는 방식과는 다릅니다. Whisper가 동음이의어를 혼동하는 건 거의 눈에 띄지 않는 1단어 오류입니다. 고객 이름이나 약 용량을 잘못 인식하는 것도 1단어 오류지만 문장 전체를 망칩니다. 즉, 헤드라인 숫자는 전체적인 그림을 보여주지만, 정작 중요한 단어 하나가 살아남았는지는 알려주지 않습니다. WER이 아무리 낮아도 최종 검토가 사라지지 않는 이유가 바로 그것입니다.

Whisper의 실제 정확도는 어느 정도일까요

깨끗하게 읽히는 영어에서 Whisper는 진정으로 강합니다. 공개된 벤치마크에서 medium 모델은 표준 깨끗한 음성 테스트 세트에서 약 3% 단어 오류율, 더 작은 모델은 약 5%를 기록합니다. 쉽게 말해, 또렷하게 말하는 사람의 괜찮은 녹음에서 몇 문장당 한두 단어가 틀리는 수준 — 보통 동음이의어나 부적절한 쉼표 정도이고, 의미가 뒤틀리는 경우는 드뭅니다. 이메일, 메모, 초안 받아쓰기에는 시간을 아끼는 수준을 충분히 넘어섭니다.

앱의 작동 방식은 정확도와 무관하게 동일합니다. 단축키를 누르고, 말하고, 손을 떼면 현재 포커스된 앱의 커서 위치에 받아쓰기 결과가 붙여 넣어집니다. 말하는 동안 작은 캡슐이 나타나 녹음 중임을 알려줍니다. 그 캡슐에 보이는 것이 실시간 녹음이며, 정확도는 손을 뗀 후 반 초 동안 모델이 오디오를 텍스트로 변환하는 순간에 결정됩니다.

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있음을 알려줍니다.

좋은 숫자 바로 옆에 솔직한 단서가 있습니다. 벤치마크 수치는 실험실에서 또렷하게 읽힌 음성입니다. 여러분의 주방, 여러분의 억양, 문장 중간에 흐려지는 버릇 — 이 중 어느 것도 테스트 세트에 들어 있지 않습니다. 벤치마크는 천장을 알려줍니다. 이 가이드의 나머지는 실제로 그 천장에 얼마나 근접할 수 있는지, 그리고 그것을 결정하는 요인들에 대한 것입니다. 스포일러: 가장 큰 요인은 모델이 아닙니다.

실제로 수치를 올리고 내리는 요인

모델 이름보다 실제 정확도에 훨씬 더 큰 영향을 주는 세 가지가 있습니다. 오디오, 언어, 그리고 내용 자체입니다. 오디오 품질이 압도적으로 첫 번째입니다. 방 울림, 선풍기 소음, 그리고 달이 왜 가끔 안 보이냐고 묻는 아이 목소리를 담은 내장 노트북 마이크는 조용한 방의 팟캐스트 마이크보다 모든 모델에 훨씬 어려운 문제를 던집니다. 같은 모델, 같은 문장이 녹음 하나의 차이만으로 거의 완벽에서 눈에 띄게 틀린 수준까지 오갈 수 있습니다. 이것이 거의 아무도 조정하지 않지만 가장 큰 효과를 내는 요인입니다.

두 번째 요인은 언어입니다. Whisper의 다국어 빌드는 99개 언어를 지원하지만, 그 커버리지는 균일하지 않습니다. 영어가 가장 잘 지원되고, 주요 유럽어와 아시아어도 강하지만, 인터넷에 학습 데이터가 적은 저자원 언어들은 더 약하고 오류가 많습니다. 영어로 번역 기능은 다국어 Whisper에서만 가능합니다. 영어 전용 빌드는 지원하지 않으며, 25개 언어를 지원하는 Parakeet도 마찬가지입니다. 따라서 "99개 언어 지원"은 사실이지만, 그 99개가 모두 동일하게 정확한 건 아닙니다. 중요한 작업에 쓰기 전에 자신의 언어를 본인 오디오로 직접 테스트해 보세요.

세 번째 요인은 내용입니다. 억양도 수치에 영향을 줍니다 — Whisper는 별도의 "학습" 단계 없이 다양한 억양을 처리하지만, 강한 억양에 기술 전문 용어가 더해지면 어떤 엔진에든 최악의 조합입니다. 도메인 어휘도 걸림돌이 됩니다. 특이한 제품명, 의학·법률 용어, 처음 보는 인명이 그렇습니다. 그리고 동시 발화는 진정한 한계입니다 — Whisper는 한 번에 한 목소리를 위해 설계되었기 때문에 두 사람이 동시에 말하면 뒤섞입니다. 로컬 Whisper에서는 사용자 정의 어휘와 핫워드 편향으로 반격할 수 있어, 실제로 쓰는 이름과 용어 쪽으로 모델을 유도할 수 있습니다. Parakeet은 핫워드를 제공하지 않는데, 이는 고유 명사가 많은 작업이라면 Whisper를 선택하는 정당한 이유가 됩니다.

모델이 클수록 더 정확하지만, 속도는 느립니다

정확도와 속도 사이에는 실제 트레이드오프가 있으며, 앱은 이를 숨기지 않고 보여줍니다. 경험칙으로 Whisper 모델이 클수록 더 정확하고 더 느립니다. 영어 전용 Small 모델은 약 480 MB로 빠르고, Medium은 약 1.5 GB로 더 정확하며, 다국어 Large v3는 약 3 GB로 최고의 정확도를 제공하지만 16 GB RAM과 최신 기기를 원합니다. 존재하는 가장 큰 모델이 아니라, 내 하드웨어에서 편안하게 실행되는 가장 큰 모델을 선택하세요.

흥미로운 예외는 Turbo입니다. Whisper의 Turbo 빌드(distil-large-v3)는 Large v3보다 약 6배 빠르면서 정확도의 약 99%를 유지하는 것으로 문서화되어 있습니다. 많은 사람들이 이 지점에서 만족합니다. 가장 큰 모델에 가까운 품질을 기다림 없이 얻을 수 있습니다. 약 1.5 GB입니다. 강한 정확도를 원하면서 로딩 바를 쳐다보고 싶지 않다면, Turbo가 실용적인 중간 지점입니다.

전체 트레이드오프를 다시 생각하게 하는 부분이 있습니다. 작은 모델과 가장 큰 모델 사이의 정확도 차이는 실제하지만 생각보다 작습니다 — 깨끗한 오디오에서 WER 몇 퍼센트포인트입니다. 반면 같은 모델에서 노트북 마이크와 괜찮은 USB 마이크 사이의 정확도 차이가 더 큽니다. 그러니 마지막 정확도 포인트를 쫓아 3 GB를 다운로드하기 전에, 더 나은 마이크를 연결하고 조용한 곳에서 녹음해 보세요. 따분한 진실은, "모델이 틀렸다"는 불만의 대부분이 실은 "공간이 틀렸다"는 것입니다.

로컬 vs 클라우드: 최고 정확도는 어디에

앱은 경로를 대신 선택해 주지 않습니다. 세 가지를 제시하고 속도, 언어 커버리지, 최고 수준의 정확도 중 무엇을 원하는지에 따라 선택하게 합니다. 정확도만 따진다면, 녹음을 맡기기 전에 이해할 가치가 있는 실질적인 차이가 있습니다.

실제 정확도 기준으로 순위를 매긴 세 가지 경로:

  • 로컬 ParakeetNVIDIA의 TDT 엔진으로 약 600 MB, CPU에서 Whisper보다 5~10배 빠른 가장 빠른 로컬 옵션입니다. 정확도는 좋습니다 — Large v3 수준은 아니지만 일상적인 영어 받아쓰기에는 충분합니다. 영어 외 24개 유럽 언어, 총 25개 언어를 지원합니다. 영어로 번역 기능과 핫워드는 없습니다. 속도가 중요하고 주로 영어를 쓴다면 선택하세요.
  • 로컬 Whisper같은 기기에서 Parakeet보다 느리지만, 다국어 빌드는 99개 언어에 도달하고, 영어로 번역하며, 사용자 정의 어휘와 핫워드를 통해 편향을 조정할 수 있습니다 — 고유 명사와 전문 용어에서 정확도를 높이는 제어 기능입니다. 가장 큰 빌드(Large v3)가 가장 정확한 로컬 옵션입니다. 다국어 작업, 번역, 또는 세밀한 제어가 필요하다면 선택하세요.
  • 클라우드 (OpenAI, BYOK)자신의 OpenAI 키를 사용하는 최고 수준의 정확도와 웹 접근 방식으로, OpenAI에 직접 청구됩니다. 받아쓰기는 기본적으로 gpt-4o-mini-transcribe로 실행됩니다. 인터넷이 필요하기 때문에 오디오가 기기를 떠나는 유일한 경로입니다. 클라우드 기능은 Whisper Pro에 포함됩니다.

순수 정확도 기준 솔직한 순위는 대략 클라우드 1위, 로컬 Large v3 근소한 2위, 영어에서 능력 있는 Parakeet 3위입니다. 하지만 "최고 정확도"는 오디오가 그만큼 깨끗할 때만 유효합니다. 방 건너편에서 웅얼거린 녹음을 클라우드에 넣는다고 깨끗하게 녹음된 로컬 Whisper를 이기진 못합니다. 대부분의 받아쓰기에서 두 로컬 엔진 모두 서버에 아무것도 보내지 않고 기기에서 완전히 실행되며, 그것으로 충분합니다. 정말 어려운 녹음이 있거나 문장 중간에 웹에서 사실을 가져와야 할 때 클라우드를 사용하세요.

정확도를 높이는 네 가지 방법

Whisper의 천장은 모델이 정합니다. 여러분의 바닥은 그 주변의 모든 것이 정하며, 대부분의 사람들은 바닥에서 정확도를 잃습니다. 다행히 수정 방법은 저렴하고 몇 분이면 됩니다. 효과 순서로 중요한 네 가지를 소개합니다.

1단계 — 먼저 마이크를 고치세요.

$20짜리 USB 마이크가 어떤 모델 업그레이드보다 정확도에 더 큰 영향을 줍니다. 마이크를 입에 가까이, 팝 노이즈가 나지 않도록 측면으로 향하게, 노트북 팬에서 멀리 두세요. 이것이 할 수 있는 단일 최고 투자 대비 효과를 내는 변화입니다.

노트북 마이크에서 엉망으로 나오던 문장이 깨끗하게 나오면 효과가 있다는 걸 알 수 있습니다.

2단계 — 공간을 조용하게 만드세요.

문을 닫고, 음악을 멈추고, 식기세척기 사이클이 끝날 때까지 기다리세요. 배경 소음과 울림이 대부분의 "모델이 틀렸다"는 순간의 실제 원인입니다. 조용한 방은 무료입니다.

받아쓰기에서 군말과 반만 잡힌 표현이 더 이상 나오지 않으면 효과가 있다는 걸 알 수 있습니다.

3단계 — 작업에 맞는 모델을 선택하세요.

내 기기에서 편안하게 실행되는 가장 큰 모델을 고르거나, 빠른 속도에 거의 최고 수준의 정확도를 원한다면 Turbo를 선택하세요. 로컬 Whisper에서 이름과 전문 용어를 위해 사용자 정의 어휘와 핫워드를 추가하면 모델이 내 용어 쪽으로 기울어집니다.

모델 다운로드가 완료되어 준비 상태로 표시되고, 고유 명사가 제대로 인식되기 시작하면 효과가 있다는 걸 알 수 있습니다.

4단계 — AI 교정을 맡기세요.

날 것의 받아쓰기는 군말이 가득한 이어달리기입니다. Whisper는 AI 교정 단계를 실행해 문장 부호를 고치고, "음"을 제거하며, 텍스트가 도착하기 전에 문장을 정리합니다. 활성화 문구 "Hey whisper"를 말하면 실행됩니다.

붙여 넣어진 텍스트가 받아쓰기 원본이 아닌 편집된 문장처럼 읽히면 효과가 있다는 걸 알 수 있습니다.

Whisper
설정 화면에서 받아쓰기 및 AI 패널이 열린 실제 Whisper 데스크톱 앱.

마지막 단계는 직접 보면 이해됩니다. 결과물에서 "정확도"가 무엇을 의미하는지 바꾸기 때문입니다. 받아쓰기가 단어 하나하나는 맞아도 이어달리기처럼 읽힐 수 있습니다. 사람들이 말하는 방식이 그렇기 때문입니다. 교정 단계는 WER이 측정하지 못하는 가독성을 개선합니다. 로컬 모델에서는 Ollama를 통해, 클라우드 모드에서는 기본적으로 gpt-5-mini를 통해 실행됩니다. 교정 전후의 같은 문장을 보여드리겠습니다:

Thinking...
AI 교정 중 오버레이 — 정리된 텍스트가 커서에 도착하기 전 모습.
원본

음 그러니까 정확도는 결국 마이크 문제지 모델 문제가 아니고 조용한 공간이 생각보다 훨씬 도움이 돼요

교정됨

정확도는 결국 마이크의 문제이지 모델이 아닙니다 — 그리고 조용한 공간이 생각보다 훨씬 도움이 됩니다.

교정이 단 하나의 단어 의미도 바꾸지 않았음을 주목하세요. 원본 받아쓰기가 담고 있던 문장 부호를 추가하고 군말을 제거했을 뿐입니다. 이것이 사람들이 정확도와 혼동하지 말아야 할 부분입니다. 모델의 역할은 말을 정확하게 듣는 것입니다. AI 교정의 역할은 정확하게 들은 단어를 잘 읽히게 만드는 것입니다. 마이크와 공간을 바로잡으면 두 역할 모두 쉬워집니다. 어느 앱에서든 말하고 바로 정리하는 흐름을 원한다면, 같은 단축키로 어떤 앱에서든 깔끔한 문장을 받아쓸 수 있습니다, 단 하나의 앱에만 국한되지 않습니다.

Whisper 정확도에 대한 솔직한 평가

어두운 표면의 저울 — 장단점을 솔직하게 따져보는 모습

그래서 직접적인 답변을 드리겠습니다. Whisper는 깨끗한 오디오와 잘 지원되는 언어에서 실제 업무 — 이메일, 메모, 초안, 회의 요약 — 에 신뢰하기에 충분히 정확합니다. 완벽하지는 않으며, 그렇다고 주장하지도 않습니다. 억양, 배경 소음, 무거운 전문 용어, 동시 발화 모두 수치를 낮추며, 어떤 모델 뱃지도 나쁜 녹음을 완전히 구해내지는 못합니다. "100% 정확"을 기대하고 오셨다면, 솔직한 답은 그런 것은 없고 그것을 파는 사람은 발표 자료를 팔고 있다는 것입니다.

Whisper 수준의 정확도를 굳이 쫓지 않아도 되는 경우는 언제일까요? 가끔 30단어짜리 문자 하나를 받아쓰는 정도라면, 운영 체제가 이미 무료로 지원합니다. Windows에서는 Windows 키 + H를 눌러 커서가 있는 어느 곳에서나 음성 타이핑을 열 수 있습니다 — 자체적으로 문장 부호를 붙이지만 Microsoft 서버를 거치고 인터넷이 필요해 오프라인은 아닙니다. Mac에서는 시스템 설정의 받아쓰기가 모든 필드에 입력되며, Apple Silicon에서는 일반 텍스트를 온디바이스로 처리할 수 있습니다. 짧은 경우라면 괜찮고, 한 줄짜리 메모를 위해 뭔가를 설치하라고 권하지는 않겠습니다. 전용 도구는 긴 메모, 다국어 작업, 오프라인 개인 정보 보호, 그리고 기본 내장 기능이 주지 않는 정확도 제어 — 핫워드, 모델 선택, 교정 단계 — 가 필요할 때 가치를 발휘합니다.

로컬 엔진들 사이에서 저울질하고 있다면, 정확도 대 속도의 선택이 핵심이며 어떤 Whisper 모델을 사용할지Parakeet 모델 분석 에서 명확하게 다루고 있습니다. 대부분의 사람들에게 답은 화려하지 않습니다. 중간 크기 모델, 괜찮은 마이크, 조용한 공간, 교정 단계. 이 조합이 실제로 녹음하는 오디오에서 벤치마크에 거의 근접하게 해줍니다.

클라우드를 완전히 건너뛰고 싶어서 정확도가 걱정된다면, 오프라인 음성-텍스트 변환 에서 네트워크 없이 로컬 모델이 얼마나 버티는지를 다룹니다.

초반에 일주일을 모델 업그레이드가 내 받아쓰기를 고쳐줄 것이라고 확신하며, 3 GB를 다운로드했지만 WER 1포인트 정도밖에 못 얻었습니다. 그다음 $20짜리 USB 마이크를 사고 주방 테이블에서 벗어났더니 그날 오후에 받아쓰기가 눈에 띄게 깨끗해졌습니다. 모델이 문제가 아니었습니다. 공간이 문제였습니다. Whisper는 매우 정확합니다. 그 정확도를 보는지 여부는 무엇을 넣어주느냐에 달려 있습니다.

내 목소리로 직접 들어보세요

Whisper를 다운로드하고, 괜찮은 마이크를 연결해서 한 단락을 받아쓰세요. 정확도는 다른 사람의 벤치마크보다 내 오디오로 판단하는 것이 훨씬 쉽습니다.

로그인한 모든 계정에 무료 로컬 모드. 시작에 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

우리 지원 이메일을 읽는 사람이 저인데, 십중팔구 답장은 받아쓰기로 씁니다.

더 읽어보기