작성자: Denys Medvediev

문제 해결

내 받아쓰기는 왜 이렇게 부정확할까?

받아쓰기가 부정확한 건 대개 소프트웨어가 고장 나서가 아니라 설정 때문입니다. 나쁜 마이크, 시끄러운 방, 잘못된 언어, 또는 맞지 않는 모델이 원인이죠.

최종 업데이트: 2026년 6월

스튜디오 콘덴서 마이크 클로즈업. 음성 받아쓰기가 어긋나는 이유를 짚는 글의 도입부 이미지

받아쓰기가 부정확한 건 대개 소프트웨어가 고장 나서가 아니라 설정 때문입니다. 가장 큰 원인은 나쁜 마이크, 시끄러운 방, 잘못된 언어 설정, 그리고 컴퓨터에 맞지 않는 모델입니다. 조용한 방에서 깨끗한 오디오로 올바른 언어를 쓰면 대부분의 사람은 약 95% 정확도, 즉 스무 단어에 한 단어쯤만 틀리는 수준에 도달합니다.

오래전, 한 친척이 헤드셋을 방 건너편으로 집어 던지는 걸 본 적이 있습니다. 1990년대 후반이었고, 컴퓨터는 RAM 64MB짜리 Windows 98 데스크톱, 소프트웨어는 Dragon NaturallySpeaking이었죠. 학습에만 45분이 걸렸습니다. 단어 목록을 소리 내어 읽어 "보정"을 해야 했어요. 그러고 나면 어느 정도는 작동했는데, 정확도는 70% 정도에 문장마다 4초씩 지연됐습니다. 명절 안부 편지의 한 단락을 받아쓰는 데 15분이 걸렸죠. 헤드셋은 살아남았습니다. 받아쓰기 실험은 그러지 못했고요.

이 이야기를 꺼내는 건, 당신의 질문 속 답답함이 오래된 것이지만 그 원인은 바뀌었기 때문입니다. 요즘 받아쓰기는 45분짜리 보정 의식 같은 게 필요 없습니다. 지금 단어를 잘못 알아듣는다면, 그건 모델이 멍청해서인 경우가 거의 없습니다. 모델에 도달하는 오디오가 당신 생각보다 훨씬 나쁘기 때문이고, 그중 놀랄 만큼 많은 부분은 1분도 안 걸려 고칠 수 있습니다. Whisper의 로컬 모드 정확도는 깨끗한 영어 오디오에서 95%에서 99% 사이입니다. 단, 그 수치는 종종 사실이 아닌 몇 가지를 전제로 합니다.

이 글은 고침 목록이 아니라 진단입니다. 다섯 가지 중 어느 것이 당신의 받아쓰기를 망치고 있는지를, 각각이 진짜 원인일 확률이 높은 순서대로 짚어 보겠습니다. 마이크와 사용자 단어에 대한 깊은 안내가 필요하다면, 엉뚱한 단어를 입력하는 받아쓰기를 고치는 가이드가 그 부분을 다룹니다. 이 글은 먼저 원인을 찾아, 당신이 올바른 것을 고치도록 돕습니다.

현실적으로 가능한 정확도는 얼마인가

종이 위 파란색 막대 그래프 클로즈업. 받아쓰기 정확도에 대한 현실적인 기대치를 보여주는 이미지

마케팅 페이지에는 아무도 적지 않는 숫자가 있습니다. 음성 인식은 단어 오류율, 즉 WER로 측정합니다. 당신이 실제로 말한 것과 비교해 시스템이 틀린 단어의 비율로, 대체·삭제·삽입을 모두 셉니다. 낮을수록 좋습니다. WER이 0이면 완벽한 전사이고, 단어 정확도는 그저 1에서 WER을 뺀 값입니다.

깨끗한 LibriSpeech 영어 벤치마크에서 Whisper의 medium 영어 모델은 약 3% WER, 대략 97% 정확도를 기록합니다. small 영어 모델은 약 5.1% WER, 즉 약 95%입니다. 모두 깨끗한 오디오 기준입니다. 조용한 방, 좋은 마이크, 또박또박 말하는 사람. 실제 생활은 소음, 억양, 끼어드는 말소리, 전문 용어를 더하고, 그 하나하나가 정당하게 WER을 끌어올립니다.

그렇다면 정상이란 무엇일까요? 괜찮은 영어 오디오에서 약 95%, 스무 단어에 한 단어쯤 틀리는 정도입니다. 이건 결함이 아닙니다. 도구가 설계대로 작동하는 모습입니다. 시끄러운 부엌에서 노트북 내장 마이크로 받아쓰며 85%에 머물고 있다면, 소프트웨어가 고장 난 게 아니라 조건이 모델이 필요로 하는 수준 아래인 겁니다. 고칠 것은 조건이지 더 큰 모델이 아닙니다. 기준을 "단락당 작은 수정 한 번"으로 잡으면, 이 경험에서 분노의 대부분이 빠져나갑니다.

다섯 명의 용의자, 가능성 높은 순서로

파란색 표면 위의 돋보기. 받아쓰기를 망치는 범인을 추적하는 분위기를 담은 이미지

받아쓰기가 어긋날 때, 원인은 거의 항상 다섯 가지 중 하나입니다. 이 목록을 순서대로 짚어 보세요. 처음 두 가지가 대부분의 경우를 잡아냅니다.

  1. 언어 설정. 당신은 한 언어로 말하는데, 도구는 다른 언어를 듣고 있거나 추측하고 있습니다.
  2. 마이크. 1미터쯤 떨어진 노트북 내장 마이크는 당신의 입보다 방 전체를 더 많이 듣고 있습니다.
  3. 방. 배경 소음, 켜진 TV, 울리는 부엌. 모델은 그 모든 것을 전사합니다.
  4. 모델. 하드웨어에 비해 너무 무거운 것을 골라서, 느려지거나 버거워합니다.
  5. 기대치. 오디오도 괜찮고 도구도 괜찮은데, 당신이 100%를 기준으로 재고 있습니다. 100%에는 어떤 것도 닿지 못하죠.

60초짜리 자가 진단: 같은 두 문장을 세 번 받아쓰세요. 한 번은 조용한 방에서 마이크 가까이, 한 번은 방 건너편에서, 한 번은 음악을 틀어 놓고. 그 세 번 사이에 정확도가 크게 출렁인다면 문제는 오디오(용의자 2와 3)이고, 어떤 소프트웨어 변경도 마이크를 가까이 옮기고 문을 닫는 것을 이기지 못합니다. 조용히 가까이서 한 번에도 결과가 나쁘다면, 언어 설정과 모델을 보세요. 이 한 번의 테스트가 대부분의 사람을 1분 만에 분류해 줍니다.

원인 1: 잘못된 언어 설정

회색 배경 위 두 개의 지구본. 올바른 언어와 억양을 고르는 일을 상징하는 이미지

이것이 아무도 가장 먼저 확인하지 않는 10초짜리 해결책입니다. 자신이 무슨 언어로 말하는지 알고 있다면, 도구를 자동 감지에 두지 말고 설정에서 그 언어를 명시적으로 고르세요. 특정 언어를 설정하면, 도구는 어떤 언어를 듣고 있는지 추측하기를 멈추고 모든 노력을 단어를 정확히 맞히는 데 쏟습니다. 눈에 띄게 더 빠르고 더 안정적이죠.

불일치의 함정은 실재합니다. Whisper의 다국어 모델은 자동 감지로 99개 언어를 다루지만, 영어 전용 모델은 영어에 고정되어 있습니다. 다른 언어를 넣으면 엉터리 결과가 나오죠. 로컬 Parakeet은 영어와 24개 유럽 언어를 처리하고 그 밖의 것은 처리하지 못합니다. 그래서 마이크가 아무리 깨끗해도 Parakeet에 일본어를 받아쓰게 하는 건 절대 되지 않습니다. 그리고 정말로 한 문장 안에서 언어를 바꿔 가며 말한다면, 영어 전용이 아니라 자동 감지가 되는 다국어 Whisper 모델이 필요합니다. 입에서 나오는 말에 설정을 맞추기만 해도, 다른 무엇을 손대기 전에 "부정확함"의 상당 부분이 사라집니다.

원인 2: 당신의 억양보다 마이크가 더 많은 피해를 준다

스튜디오에서 팝 필터가 달린 콘덴서 마이크. 오디오 품질을 좌우하는 장비를 보여주는 이미지

사람들은 자기 억양을 탓합니다. 하지만 거의 항상 마이크가 문제입니다. 저도 몇 년 동안 제 억양을 탓했는데, 알고 보니 제 목소리는 멀쩡했고 0원짜리 노트북 마이크가 문제였습니다. 제가 끝까지 지킬 의견은 이겁니다. "AI"는 나쁜 오디오를 고쳐 주지 않습니다. 20달러짜리 USB 마이크가 어떤 모델 업그레이드보다 정확도에 더 큰 기여를 합니다. 마이크와 조용한 방이야말로 어떤 모델을 고르느냐보다 앞서는, 정확도를 좌우하는 가장 큰 두 지렛대입니다. 더 큰 다운로드에 돈을 쓰기 전에 하드웨어에 쓰세요.

원리는 따분하고 물리적입니다. 노트북 내장 마이크는 입에서 30센티미터 넘게 떨어져 책상, 팬, 방 전체를 주워 담습니다. 15센티미터 앞의 헤드셋 붐이나 USB 마이크는 당신의 목소리를 듣고 그 외에는 거의 듣지 않죠. 도구는 자기에게 도달한 것만 전사할 수 있고, 뭉개지고 멀고 시끄러운 신호는 작업할 거리를 적게 줍니다. 그래서 추측하게 되고, 추측이 곧 엉뚱한 단어로 이어집니다. 여기서 마이크와 어휘에 관한 전체 설명을 다시 하지는 않겠습니다. 엉뚱한 단어를 입력하는 받아쓰기에 관한 심층 글이 마이크 위치, 입력 게인, 사용자 어휘를 자세히 다룹니다. 이 글에서의 요점은 더 좁습니다. 세 번 테스트에서 거리가 멀어질수록 정확도가 무너졌다면, 용의자는 당신의 목소리가 아니라 마이크입니다.

원인 3: 단어가 아니라 방

방음 처리된 음악 스튜디오에서 팝 필터가 달린 마이크. 깨끗한 녹음을 위한 저소음 환경을 보여주는 이미지

마이크는 한 번 들은 방을 안 들은 것으로 되돌릴 수 없습니다. TV가 켜져 있거나, 식기세척기가 돌아가거나, 뒤로 개방형 사무실이 펼쳐져 있거나, 2미터 떨어진 곳에서 아이들이 보드게임 규칙을 두고 다투고 있다면, 모델은 그 에너지를 당신의 목소리와 함께 전사합니다. 어느 소리가 당신이 의도한 소리인지 모르니까요.

해결책은 민망할 만큼 단순합니다. 문을 닫고, 음악을 끄고, 팬에서 멀어지세요. 부드러운 표면이 도움이 됩니다. 러그와 커튼이 있는 방이, 목소리가 튕겨 두 번 도착하는 벽이 휑한 타일 부엌보다 마이크에 더 친절합니다. 흡음 폼이 필요한 게 아닙니다. 식기세척기가 한 사이클을 끝내 주기만 하면 됩니다. 저는 도시락을 싸면서 학교 이메일을 받아쓴 적이 있는데 모델이 잘 따라왔습니다. 하지만 그건 소프트웨어가 마법이어서가 아니라 부엌이 조용했기 때문입니다. 믹서기가 돌아가는 순간 정확도는 떨어지고, 그건 버그 신고할 일이 아닙니다.

원인 4: 모델이 하드웨어에 맞지 않는다

Whisper
실제 Whisper 앱입니다. 세 가지 경로를 제시하고, 당신의 컴퓨터에 맞는 모델을 직접 고르게 합니다. 설정을 이리저리 눌러 보세요. 실제로 작동합니다.

경쟁사들이 블랙박스로 취급하는 부분이지만, 중요합니다. 더 큰 것이 늘 더 좋은 건 아닙니다. 컴퓨터에 비해 너무 무거운 모델을 고르면 느리게 돌아가고 뒤처지며, 종이 위 정확도는 멀쩡해도 경험은 고장 난 것처럼 느껴집니다.

Whisper by Remskill은 모델을 대신 골라 주지 않습니다. 세 가지 경로를 제시하고 당신이 고르게 합니다. 당신의 OpenAI 키를 쓰는 클라우드 모드, 로컬 Parakeet, 또는 로컬 Whisper. 클라우드 모드는 그저 네트워크 호출이므로 어떤 하드웨어에서도 돌아갑니다. 로컬에서는 결국 RAM 계산입니다. 8 GB 머신에서는 Parakeet(약 600 MB), Base 모델, Small 모델이 무난히 돌아가지만, Medium 모델은 버거워합니다. 가장 큰 Whisper 모델, 즉 약 3 GB의 Large v3나 Turbo는 16 GB 이상을 원하고 별도 GPU에서 가장 큰 이점을 봅니다. 정확도가 가장 좋은 다국어 옵션은 Large v3로, 99개 언어를 지원하지만 그 16 GB의 여유가 필요합니다.

어느 경로를 고르든 누르고 말하는 흐름은 똑같습니다. 단축키를 누른 채 말하고, 놓으면 텍스트가 커서 위치에 붙습니다. 기본 단축키는 Windows에서 Ctrl+Space, macOS에서 Command+Option 조합이며, 둘 다 설정에서 바꿀 수 있습니다. 어떤 모델이 당신의 노트북에 맞을지 모르겠나요? 올바른 Whisper 모델 고르기 가이드가 각 모델을 필요한 하드웨어에 맞춰 정리해 줍니다. 어림짐작 규칙은 이렇습니다. 맞고 빠르게 도는 모델이, 더 크지만 버벅이는 모델을 이깁니다.

정말로 도구가 문제일 때, 그리고 그저 물리 법칙일 때

가끔은 모든 걸 제대로 했는데도, 즉 가까운 마이크, 조용한 방, 올바른 언어, 합리적인 모델까지 갖췄는데도 열다섯 단어에 한 번꼴로 틀립니다. 그게 진짜 한계일 수 있습니다. 모델이 거의 접해 본 적 없는 강한 억양, 빽빽한 전문 용어, 동시에 말하는 두 사람, 전화기 반대편의 스피커. 이런 것들은 정당하게 WER을 끌어올리고, 어떤 설정도 이를 완전히 고쳐 주지 못합니다. 이름과 분야 용어의 경우, 로컬 Whisper와 클라우드 모드에서는 인식을 올바른 철자 쪽으로 기울이는 사용자 단어 목록을 추가할 수 있습니다. Parakeet은 그런 힌트를 받지 못하고요. 하지만 "쓸수록 내 목소리를 학습한다"는 건 Dragon 시대의 미신입니다. 현대 음성 인식은 시간이 지나도 개인의 목소리에 적응하지 않으며, 아무리 반복해도 학습되지 않습니다. 지렛대는 인내가 아니라 오디오와 설정입니다.

이 일에는 Whisper를 건너뛰어야 할 때

20단어짜리 문자나 짧은 메모 하나를 쏘는 게 전부라면, 아무것도 다운로드하지 마세요. 운영체제가 이미 받아쓰기를 해 줍니다. Mac에서는 Apple Dictation이 기본으로 들어 있고 무료입니다. 마이크 키나 키보드 단축키를 누르면, 지원되는 환경에서는 기기 내에서 처리합니다. 30초 침묵 뒤에는 스스로 멈추므로, 긴 글쓰기보다는 짧은 한마디에 어울립니다. Word에서는 Microsoft의 Dictate가 마이크와 인터넷 연결로 같은 일을 해 줍니다.

전체 단락을 받아쓰거나, 오프라인에서 작동하길 원하거나, 기본 도구가 더듬는 이름과 전문 용어에서 정확도가 필요해지면 그때 전용 도구를 찾으세요. Apple Dictation 대안 모음이 선택지들을 다룹니다. 한 줄짜리 답장에는 무료 기본 도구가 정답입니다.

대부분의 경우 "내 받아쓰기는 왜 이렇게 부정확할까"에 대한 답은 당신의 목소리에 관한 고백이 아닙니다. 마이크까지의 30센티미터 거리와, 켜져 있는 줄 잊고 있던 식기세척기입니다. 오디오를 고치고, 올바른 언어를 설정하고, 노트북이 감당할 수 있는 모델을 고른 다음, 100%가 아니라 95%를 기준으로 판단하세요. Dragon 헤드셋을 든 그 친척은 1999년과 싸우고 있었습니다. 당신은 아닙니다. 당신은 대개 당신의 부엌과 싸우고 있을 뿐입니다.

1분 만에 알아내고 싶으신가요?

Whisper를 다운로드하고 세 번 테스트를 해 보세요. 문제가 도구인지, 방인지, 아니면 그저 물리 법칙인지 1분 안에 알게 됩니다.

Denys Medvediev 사진

Denys Medvediev

저는 우리 고객 지원 이메일을 읽는 사람입니다. 답장도 십중팔구 받아쓰기로 하고요.