문제 해결
받아쓰기가 엉뚱한 단어를 입력하나요? 5가지 해결법
모델이 소리 하나를 잘못 듣고 추측할 때 받아쓰기가 틀린 단어를 입력합니다. 원인은 다섯 가지이고, 그 중 네 가지는 10분 안에 고칠 수 있습니다.
최종 업데이트: 2026년 6월

음성 모델이 소리 하나를 잘못 듣고 추측한 내용을 중심으로 문장을 다시 쓸 때 받아쓰기는 틀린 단어를 입력합니다. 주요 원인은 마이크 품질 불량, 배경 소음, 모델이 구분하지 못하는 동음이의어, 잘못된 언어 설정, 또는 모델이 한 번도 본 적 없는 이름입니다. 먼저 오디오를 개선하고, 그다음 도구에 여러분만의 어휘를 가르쳐 주세요.
"스테이징에 배포해."라고 말했는데 화면에는 "경기장을 파괴해."가 나타납니다. 고칩니다. 다음 문장도 마찬가지. 세 번째 수정쯤 되면 말하는 것보다 타이핑이 더 빨라집니다. 말 그대로 본말이 전도된 상황이죠. 작가, 영업사원, 그리고 제 어머니까지 — 어머니는 받아쓰기를 딱 한 번 써보고는 화가 나서 다시 독수리 타법으로 돌아가셨습니다. 그나마 좋은 소식은, 거의 모든 오류가 다섯 가지 원인 중 하나로 귀결되고, 그 중 네 가지는 지금 당장 10분 안에 해결된다는 겁니다.
아무도 말해 주지 않는 부분이 있습니다. 대부분의 받아쓰기 도구는 이럴 때 고장 난 게 아닙니다. 열악한 환경에서 실시간으로 추측하고 있을 뿐입니다 — 동료 이름이 뭔지도, "Kubernetes"가 실제 단어인지도 모른 채로요. Whisper의 로컬 모드에는 이 마지막 문제를 근본적으로 해결하는 기능이 있습니다 — 자주 말하는 이름과 전문 용어를 목록으로 입력해 두면 비슷하게 들리는 엉뚱한 단어 대신 정확하게 받아쓰는 Custom words 필드입니다. 무료이고 오프라인에서도 작동합니다. 곧 다루겠습니다. 하지만 솔직한 현실은, 마이크가 소프트웨어보다 훨씬 중요하다는 것입니다. 그래서 거기서부터 시작합니다.
받아쓰기는 고장 난 게 아닙니다. 추측하고 있는 겁니다.

음성 인식은 글자를 듣지 않습니다. 소리를 듣고, 그 소리가 가장 그럴 법한 어떤 단어인지를 추측합니다 — 그리고 소리가 더 들어올수록 추측을 조정합니다. 가끔 이미 받아쓴 내용이 바뀌는 이유가 여기 있습니다. 문장 뒤쪽 단어 하나를 잘못 들으면, 문법이 맞으려면 앞의 단어도 달랐어야 한다고 판단하고 조용히 고쳐버립니다.
"배"와 "베". "이사"와 "이자". 비슷하게 들리는 단어들이죠 — 이런 동음이의어나 유사음은 아무리 또렷하게 말해도 해결이 안 됩니다. 발음이 문제가 아니니까요. 모델은 문맥으로 추측해야 하고, 때로는 틀립니다.
그리고 모델이 아예 접해본 적 없는 단어들도 있습니다. 팀장의 성씨. 제품 코드. "Remskill." 모르는 단어는 쓸 수 없으니, 모델은 자신이 아는 가장 비슷한 단어로 대체합니다. 버그가 아닙니다. 어휘 공백입니다. 그리고 그것에는 명확한 해결책이 있습니다. 아래에서 다루겠습니다.
마이크가 가장 흔한 범인입니다

소프트웨어를 탓하기 전에, 무엇이 소프트웨어에 입력되고 있는지를 먼저 보세요. 노트북 내장 마이크는 팬 바로 옆에 있고, 천장을 향해 있으며, 목소리만큼이나 주변 소음도 잘 잡습니다. 쓰레기가 들어가면 틀린 단어가 나옵니다.
이것만큼은 제 확신을 걸겠습니다. "AI"는 나쁜 오디오를 고치지 못합니다. $20짜리 USB 마이크 하나가 어떤 모델 업그레이드보다 정확도에 더 큰 차이를 만들어 냅니다. 저도 제 오류를 고치려고 일주일 동안 더 크고 느린 모델을 계속 바꿔 끼웠습니다. 그러다 노트북 마이크가 팬을 향해 있다는 걸 알아챘습니다. 처음부터 마이크가 문제였던 겁니다. 저는 이 소프트웨어를 만드는 사람입니다. 돈은 먼저 하드웨어에 쓰세요. 모델은 저렴한 부분입니다.
확인 방법: 내장 마이크로 세 문장을 받아써 보고, 그다음 헤드셋이나 USB 마이크로 같은 문장을 받아쓰세요. 오류 수가 줄어들면 마이크가 문제였던 것이고, 해결된 겁니다. 대부분의 사람들은 여기서 읽기를 멈추는데, 그래도 됩니다.
배경 소음과 공간 음향

두 칸 너머에서 돌아가는 식기세척기. 동료의 전화 통화. 오픈 플랜 사무실에서 10미터 거리에 있는 사람이 과자 먹는 소리까지. 모델은 여러분의 목소리와 소음을 구분하지 못합니다 — 가장 크게 들리는 소리를 받아씁니다. 때로는 과자 소리가 이깁니다.
바로 이 문제에 대한 Google의 AI 개요는 배경 소음을 억양, 동음이의어와 함께 주요 원인으로 꼽습니다. 해결책은 화려하지 않습니다. 문을 닫고, 팬을 끄고, 열린 창문에서 멀어지는 것입니다. 조용한 공간 하나가 어떤 영리한 알고리즘보다 효과적입니다.
확인 방법: 조용한 공간과 평소 공간에서 같은 내용을 받아써 보세요. 조용한 데서 오류가 줄어들면 소음이 원인입니다. 조용한 공간을 확보할 수 없다면, 정면의 소리만 잡는 지향성 또는 노이즈 캔슬링 마이크가 차선책입니다 — 결국 다시 하드웨어 얘기로 돌아옵니다.
잘못된 언어 설정 또는 억양 불일치

자동 감지로 설정한 상태에서 언어를 바꾸면, 모델은 단어를 파악하기 전에 언어를 먼저 식별하는 데 에너지를 씁니다 — 언어를 틀리게 추측하면 그다음 모든 것이 망가집니다. 가능하면 언어를 명시적으로 설정하세요.
Whisper에서는 설정 > 전사 > 언어에서 바꿀 수 있습니다. 사용하는 언어를 직접 선택하면 감지 단계를 건너뛰어 모델이 단어를 더 정확하게 파악합니다. 세션 중에 언어를 실제로 바꿔가며 쓰는 경우에만 자동 감지를 사용하세요. Whisper의 다국어 모델은 자동 감지로 99개 언어를 지원하며, 영어 전용 빌드는 영어로 고정됩니다 — 영어만 사용한다면 그쪽이 더 좋습니다.
억양 불일치도 비슷한 문제입니다. 주로 미국 화자 데이터로 학습된 미국 영어 모델은 강한 지역 억양에서 자주 실수합니다. 도구가 지원하는 가장 가까운 지역 변형을 선택하고 깨끗한 오디오를 입력하면 차이가 좁아집니다.
Windows, Mac, iPhone에서 해결하기
각 플랫폼의 내장 받아쓰기에는 저마다의 특이점과 한계가 있습니다. Windows에서는 Windows 키와 H를 누르면 음성 입력이 열리지만, 커서가 텍스트 입력창에 있어야 하고 인터넷 연결이 필요합니다 — 내장 도구는 오디오를 클라우드로 전송해 변환합니다. 엉뚱한 내용이 입력된다면 먼저 연결 상태를 확인하세요. 같은 문제에 대한 Apple 지원 포럼에서도 "인터넷 연결 확인"을 가장 먼저 권장합니다. (더 자세한 안내는 Windows에서 음성 텍스트 변환이 작동하지 않을 때 가이드를 참고하세요.)
Mac에서는 기능 키 행의 마이크 키, 받아쓰기 단축키, 또는 편집 > 받아쓰기 시작으로 받아쓰기를 켤 수 있습니다. 한 가지 오해를 바로잡겠습니다. 현재 macOS 받아쓰기는 길이 제한 없이 텍스트를 받아쓸 수 있습니다 — 약 30초 침묵 후에만 멈추는데, 이를 시간 제한으로 오해하는 분들이 있습니다. 오류가 계속된다면 Mac 음성 텍스트 변환 문제 해결 가이드를 단계별로 확인하세요. iPhone에서는 Apple 포럼에서 예측 텍스트 비활성화를 권장하기도 합니다 — 받아쓰기가 제대로 인식한 내용을 예측 텍스트가 바꿔버리는 경우가 있어서입니다.
더 근본적인 한계가 있습니다. Windows 음성 입력(Win+H)은 사용자 지정 단어를 추가하거나 사전을 학습시킬 방법이 없습니다. Word의 별도 받아쓰기 기능에는 소규모 받아쓰기 사전이 있지만, 대부분의 사람들이 사용하는 Win+H에서는 어휘를 가르칠 수 없습니다. 그래서 이름과 전문 용어 오류를 실제로 해결하는 다음 방법으로 넘어갑니다.
나만의 단어 가르치기: 사용자 지정 어휘
이것이 내장 도구에서는 받을 수 없는 해결책입니다. Whisper의 로컬 모드에서 Whisper 모델을 실행하면 Custom words 필드가 생깁니다 — 자주 말하는 이름, 제품명, 전문 용어를 쉼표로 구분해 입력하는 목록입니다. "Kubernetes, PostgreSQL, Remskill, John Smith"를 입력해 두면, 해당 단어들이 발화에 등장할 때 받아쓰기가 정확히 표기하는 방향으로 작동합니다. 무료 로컬 티어의 설정 > 전사에 있으며 — 카드 등록도, 클라우드도 필요 없습니다.
알아둘 사항이 하나 있습니다. Custom words는 Whisper 모델 기능입니다. 더 빠른 로컬 옵션인 Parakeet는 사용자 지정 단어나 프롬프트 힌트를 지원하지 않습니다 — 공식 설명에도 명시되어 있습니다. 도구에 자신만의 어휘를 가르치는 것이 중요하다면, Parakeet 대신 Whisper 모델을 선택하세요.
이게 얼마나 중요한지는 제 막내딸에게 배웠습니다. 받아쓰기를 한 번 보여줬습니다 — 버튼 누르고, 말하고, 놓으면 됩니다. 아이는 바로 할머니께 빠진 이빨과 이빨 요정의 환율에 대한 90단어짜리 이메일을 거침없이 썼습니다. 그러다 돌아와서는 베프 이름을 계속 틀리게 쓴다고 투덜거렸습니다. 어휘 공백이 뭔지는 몰랐습니다. 그냥 이름이 틀렸다는 것만 알았던 거죠. Custom words에 이름을 추가했더니 불평이 뚝 멈췄습니다. 대부분의 사람들은 받아쓰기가 이름을 왜 틀리게 쓰는지 알고 싶지 않습니다. 이름을 입력할 수 있는 칸을 원합니다. 이 섹션의 핵심이 바로 그 칸입니다.
원하면 쓸 수 있는 또 다른 조절 장치가 있습니다. Whisper는 모델이 얼마나 세밀하게 듣는지를 조절하는 프로필 설정을 제공합니다 — 빠름, 균형, 정확. 정확 모드는 느리지만 더 많이 잡아냅니다. 그리고 Whisper가 제공하는 여덟 가지 모델 중 더 큰 것을 선택하면 — 약 140 MB의 Base부터 약 3 GB의 Large v3까지 — 속도를 정확도와 맞바꿀 수 있습니다. 이 중 모두에게 맞는 "정답"은 없습니다. 각각은 조절 장치이고, 어떤 오류가 발생하느냐에 따라 무엇을 조절할지가 결정됩니다. 어떤 모델을 선택해야 할지 모르겠다면 Whisper 모델 선택 가이드에서 트레이드오프를 정리해 두었습니다.
나머지를 정리하는 후처리 단계
오디오가 깨끗하고 어휘도 설정했는데도 몇 가지 잔여 오류가 남을 수 있습니다. Whisper는 원본 텍스트에 선택적 AI 후처리 단계를 실행해 커서에 삽입하기 전에 문법, 구두점, 대소문자를 교정하고 "음", "있잖아" 같은 불필요한 말도 제거합니다. 무료로 기기에서 실행되거나, 직접 키를 제공한 경우 OpenAI 클라우드 모드로도 실행됩니다.
이것은 첫 번째 수단이 아니라 안전망입니다. 마이크를 개선하고, 공간을 조용히 하고, 언어를 설정하고, 어휘를 가르친 다음 — 후처리 단계로 나머지를 정리하세요. 팬 소음을 잡는 내장 마이크를 AI 텍스트 교정으로 보완하려는 건 비싼 도구로 엉뚱한 문제를 푸는 것입니다. 저는 실제로 그 실수를 했습니다 — 언어 선택보다 후처리 단계를 먼저 출시했고, 한 달 동안 제 앱을 쓰면서 왜 안 되지 의아했습니다. 세밀한 제어가 필요한 분들께는 Whisper 프롬프트 가이드에서 출력을 조형하는 방법을 더 자세히 다룹니다.
녹음 단축키는 Windows에서 Ctrl+Space, Mac에서 Command+Option이며, 기존에 사용하는 단축키와 충돌하면 설정에서 변경할 수 있습니다.
내장 도구로는 해결되지 않을 때
때로는 고치는 것이 답이 아니라, 다른 도구를 쓰거나 아무것도 쓰지 않는 것이 답일 수 있습니다. 가끔 30단어짜리 문자 하나 보내는 정도라면 Apple Dictation과 Windows 음성 입력은 무료이고 내장되어 있습니다. 완벽한 정확도를 쫓는 건 과한 일입니다. 이미 있는 걸 쓰면 됩니다.
하지만 분명한 한계가 있습니다. Windows 음성 입력은 인터넷이 필요하고 어휘를 학습할 수 없습니다. 틀린 단어 문제가 이름, 제품명, 전문 용어를 계속 망가뜨리는 것이라면 — 그 단어들을 어디에도 추가할 수 없다면 — 내장 도구로는 그 사용 환경에서 진짜 해결이 안 됩니다. 학습 가능한 오프라인 도구가 필요한 지점이 바로 여기입니다. 그리고 자신의 글을 받아쓰는 것이 아니라 여러 화자의 회의를 주로 전사하는 경우라면, 그건 완전히 다른 범주의 도구입니다 — 회의 전사이지, 받아쓰기가 아닙니다. 받아쓰기 앱에게 설계되지 않은 역할을 강요하지 마세요.
받아쓰기 정확도를 어느 정도로 기대해야 할까요?
기대치를 솔직하게 설정하세요. 깨끗한 오디오, 명확한 언어 설정, 준비된 어휘가 갖춰지면 교정이 예외가 되는 수준에 도달할 수 있습니다. 공개된 Whisper 벤치마크는 중간 영어 모델로 깨끗하게 읽은 음성에서 단어 오류율 약 3%를 기록합니다. 실생활 — 억양, 공간, 전문 용어 — 에서는 더 높습니다. 그건 정상입니다.
목표는 오류 제로가 아닙니다. 같은 시간에 타이핑했을 때보다 오류가 적은 것이 목표이고, 그 기준은 사람들이 생각하는 것보다 낮습니다. 분당 145단어 받아쓰기는 한두 단어를 수정하더라도 분당 40단어 타이핑을 이깁니다. 단어 하나하나를 수정하고 있다면 위 목록 중 뭔가 아직 해결이 안 된 겁니다. 열 단어에 하나꼴로 수정하고 있다면, 이미 이긴 겁니다.
받아쓰기가 계속 틀린 단어를 입력한다면 — 오디오를 개선하고, 언어를 설정하고, 이름을 가르쳐 주세요. 그리고 타이핑은 받아쓰기에 맡기고 다른 일을 하세요. 제 막내딸은 지금도 Whisper를 "말하는 컴퓨터"라고 부릅니다. 어휘 필드가 있는지도, 언어 설정이 있는지도, 버튼 누르고 말하고 놓으면 되는 것 뒤에 모델이 여덟 가지나 있는지도 전혀 모릅니다. 그게 바로 이 도구가 제대로 작동하는 모습입니다 — 틀린 단어가 사라지고, 도구의 존재 자체를 잊게 될 때.
이름이 정확하게 입력되길 원하시나요?
Whisper를 다운로드하고, 첫 번째 사용자 지정 단어를 추가하면 첫 문장부터 오류가 사라지는 걸 확인할 수 있습니다.



