작성자: Denys Medvediev

가이드

AI 받아쓰기 도구, 제대로 알아보기

AI 받아쓰기 도구가 실제로 무엇인지, 음성-텍스트 변환 파이프라인이 어떻게 동작하는지, 녹음 환경이 스튜디오가 아닐 때 정확도가 진짜로 어느 정도인지, 그리고 어떤 로고를 고르느냐보다 훨씬 더 중요한 단 하나의 결정(로컬이냐 클라우드냐)에 대해 설명합니다.

마지막 업데이트: 2026년 6월

선명한 음성 파형을 보여 주는 디지털 오디오 인터페이스 클로즈업 — 받아쓰기를 위해 포착된 음성을 떠올리게 한다

AI 받아쓰기 도구는 음성 인식 모델을 사용해 말소리를 글로 바꿔 주는 소프트웨어입니다. 녹음이나 실시간 발화를 듣고 가장 그럴듯한 단어를 예측한 뒤 전사 결과를 내놓습니다. 같은 기술을 음성-텍스트 변환(speech to text) 또는 자동 음성 인식(automatic speech recognition)이라고도 부르며, 요즘 나오는 대부분의 도구는 OpenAI Whisper 계열의 모델로 동작합니다.

십여 년 전, 한 친척이 Windows 98 컴퓨터에서 명절 편지를 받아쓰기로 작성해 보려는 모습을 지켜본 적이 있습니다. 그 소프트웨어는 먼저 45분 동안 "학습"을 시켜야 했고, 그러고도 정확도는 70% 정도에 문장마다 4초씩 지연이 있었습니다. 한 문단을 쓰는 데 15분이 걸렸죠. 헤드셋은 방 저편으로 내던져졌습니다. 헤드셋은 살아남았지만 그 실험은 거기서 끝났습니다. 오늘날 제 일곱 살 딸은 할머니에게 보낼 이메일을 90초 만에 받아쓰기로 작성하고, 한 번 보여 준 뒤로는 질문 하나 하지 않습니다. 그 간극이 바로 AI 받아쓰기의 모든 이야기이고, 그 간극은 거의 누구도 예상하지 못한 속도로 메워졌습니다.

마케팅 페이지가 건너뛰는 부분은 이겁니다. 음성-텍스트 변환은 한때 연구 과제였지만, 2022년에 오픈소스 Whisper 모델이 공개되면서 대부분의 사람에게는 조용히 더 이상 과제가 아니게 되었습니다. 이제 AI 받아쓰기 도구란, 대체로 당신을 방해하지 않을 만큼 충분히 좋은 모델을, 당신의 음성이 어디로 가고 그 텍스트가 그 뒤에 어떻게 되는지를 정하는 소프트웨어로 감싼 것을 뜻합니다. 이 글에서는 그 파이프라인이 어떻게 동작하는지, 녹음 환경이 팟캐스트 스튜디오가 아닐 때 정확도가 어느 정도인지, 그리고 어떤 로고를 고르느냐보다 더 중요한 단 하나의 결정(로컬이냐 클라우드냐)을 설명합니다. 저는 우리가 받는 모든 지원 이메일을 읽는데, 불만을 가진 분들은 거의 항상 도구가 아니라 바로 그 하나의 결정에서 잘못된 선택을 했더군요.

AI 받아쓰기 도구는 음성을 텍스트로 바꿉니다. 일은 그게 전부입니다.

대시보드와 "대화형 지식 엔진" 같은 브랜딩을 걷어내면, 이 분야의 모든 도구는 한 가지 일을 합니다. 음성이 들어가고 텍스트가 나옵니다. 차이는 그 핵심을 둘러싼 모든 것에 있습니다. 모델이 어디서 도는지, 전사 결과를 가지고 무엇을 하는지, 그리고 그 일을 하는 데 얼마를 받는지죠.

Pasted
완성 상태의 Whisper 녹음 오버레이 — 말을 멈추는 순간 완성된 텍스트를 돌려주는 작은 떠 있는 위젯입니다. 실제 출시된 UI이며, 합성한 스크린샷이 아닙니다.

세 가지 제품 형태가 주를 이룹니다. 회의 메모 도구는 통화에 들어와 참석자 전체를 녹음하고, 실행 항목이 담긴 요약을 내놓습니다. Otter가 대표적인 예로, 매달 무료 전사 300분을 제공합니다. 파일 업로드 서비스는 오디오 파일을 올려 두면 나중에 전사 결과를 내려받게 해 줍니다. Rev와 Sonix가 여기에 속하며, Rev는 정확도가 가장 중요한 경우를 위한 대안으로 사람 전사자를 함께 판매합니다. 받아쓰기 도구는 백그라운드에 머물러 있다가, 당신이 말을 멈추는 순간 커서가 있는 자리에 텍스트를 붙여 넣습니다. 마지막 형태가 바로 Whisper by Remskill이 하는 일입니다. 전역 단축키를 누르고, 말하면, 전사된 텍스트가 지금 사용 중인 앱 안에 그대로 나타납니다.

바탕에 깔린 일은 같습니다. 그러나 매일의 경험은 완전히 다른 셋입니다. 이 분야의 혼란은 대부분 회의 메모 도구와 받아쓰기 도구를 마치 경쟁하는 것처럼 비교하는 데서 옵니다. 둘은 경쟁하지 않습니다. 버스가 자전거와 경쟁하지 않는 것과 같죠.

AI 받아쓰기가 실제로 어떻게 동작하는가 (그리고 여전히 어디서 걸려 넘어지는가)

그 원리는 브랜딩이 암시하는 것보다 단순합니다. 마이크는 소리를 파형으로, 즉 시간에 따른 공기 압력을 기술하는 숫자의 흐름으로 포착합니다. 모델은 그 흐름을 짧은 조각으로 나누고, 각 조각을 음향 특징을 나타내는 수치로 변환한 뒤, 그 소리를 만들어 낸 가장 그럴듯한 텍스트 시퀀스를 토큰 하나하나씩 예측합니다. 의미를 이해하는 것이 아니라 오디오를 가지고 통계를 내는 것이죠. 저는 이 프로젝트의 첫 주를, 모델을 한 번도 돌려 보기 전에 파이프라인을 깔끔한 상자 그림으로 그리는 데 보냈습니다. 그 그림은 두 번째 커밋 만에 틀렸습니다. 모델은 제 그림 따위 신경 쓰지 않았죠.

CancelTranscribing
오버레이의 전사 중 상태 — 모델이 파형을 텍스트로 바꾸는 순간입니다. 당신의 기기 위에서, 1초 남짓 기다리는 동안 이루어집니다.

바로 그 점 때문에 AI 받아쓰기는 걸려 넘어질 곳에서 걸려 넘어집니다. 모델은 올바른 단어가 아니라 가장 확률 높은 단어를 예측합니다. 깨끗한 발화와 또렷한 발음을 넣어 주면 확률 높은 것과 올바른 것이 일치합니다. 겹쳐 말하기, 학습 중에 거의 본 적 없는 강한 억양, 업계 전문 용어, 혹은 나쁜 마이크를 넣어 주면 둘은 어긋나기 시작합니다. 정직한 설명은, 바로 이 검색어에 대한 AI Overview가 대놓고 말하듯이, 이 도구들이 실제로는 한 번도 발화되지 않은 단어를 지어낼 수 있고, 한 화자를 다른 화자로 착각할 수 있으며, 어떤 구절을 매끄럽게 읽히지만 정반대의 뜻이 되도록 조용히 잘못 전사할 수 있다는 것입니다.

알아 둘 만한 번역 요령이 하나 있습니다. 다국어 Whisper 모델은 99개 언어를 전사할 수 있고, 영어가 아닌 발화를 한 번에 영어 텍스트로 번역할 수 있습니다. 영어 전용 모델 변형인 .en 빌드는 그 기능을 빼고 영어만 처리하는데, 덕분에 영어에서는 조금 더 날카롭습니다. 이 중 무엇도 당신이 무언가를 "학습"시킬 필요가 없습니다. 어떤 도구가 작동하기 전에 여전히 보정용 문장을 읽으라고 한다면, 그건 1999년의 가정 위에서 돌아가고 있는 겁니다.

정확도는 진짜로 어느 정도일까? 정직한 답.

인쇄된 문서 위에 든 돋보기 — 전사 정확도를 꼼꼼히 검토하는 모습을 나타낸다

정직한 답은 이렇습니다. 실제로 시간을 아껴 줄 만큼은 정확하지만, 읽어 보지 않고 그대로 발표할 만큼 정확하지는 않습니다. 우리가 공개한 로컬 전사 정확도 범위는 95%에서 99%이며, 더 큰 모델일수록 위쪽에 자리합니다. 하지만 정확도 수치 하나만 떼어 놓고 보면 거의 의미가 없습니다. 정작 중요한 건 당신의 오디오에 대한 수치, 즉 당신의 억양, 당신의 방, 당신의 마이크, 당신의 어휘에 대한 수치이기 때문입니다.

둥글고 조건 없는 주장에는 의심을 품으세요. 오디오 품질에 대한 언급 없이 "정확도 99%"라고 적은 제품 페이지는 약속이 아니라 최선의 경우를 인용하는 것입니다. Rev가 99%를 내세울 때, 그 수치는 AI 모델이 아니라 사람 전사자에게 붙은 것입니다. 마케팅 버전은 곡선을 듣기 좋은 한 점으로 납작하게 눌러 버립니다.

아무도 당신에게 팔지 않는, 가장 값싼 정확도 향상책이 여기 있습니다. 바로 마이크입니다. 노트북 내장 마이크에서 기본형 USB 마이크로 바꾸는 것이, 작은 모델에서 가장 큰 모델로 건너뛰는 것보다 전사 결과에 더 큰 도움을 줍니다. AI는 나쁜 오디오를 고쳐 주지 않습니다. 그저 더 자신만만하게 추측할 뿐이죠. 저는 내려받을 수 있는 가장 큰 모델을 두 저녁이나 벤치마크하다가, 제가 1미터 떨어진 노트북 경첩에 대고 말하고 있었다는 걸 그제야 알아챘습니다. 12달러짜리 마이크가 추가된 2기가바이트보다 더 많은 걸 고쳐 주었죠. 3기가바이트짜리 모델을 내려받느라 저녁 한나절을 쓰기 전에, 하드웨어에 20달러를 쓰세요. 중요한 작업이라면 전사 결과를 읽어 보고, Slack 메시지라면 그냥 보내세요.

로컬 대 클라우드: 당신의 음성이 어디로 가는지가 중요하다

당신의 음성이 어디로 가는지가 가장 중요한 결정이며, 이것은 정확도와는 아무 상관이 없습니다.

클라우드 전사 도구는 당신의 음성을 회사의 서버로 보내 거기서 모델을 돌리고, 텍스트를 다시 보내 줍니다. 로컬 도구는 모델을 한 번 내려받아 당신의 기기 위에서 돌립니다. 그 뒤로는 오프라인에서 작동하며, 어떤 것도 당신의 컴퓨터를 떠나지 않습니다. Whisper by Remskill은 둘 다 하며, 전환은 스위치 하나입니다. 로컬 모드에서는 음성이 전적으로 당신의 기기 위에서 처리되고 어떤 서버로도 전송되지 않습니다. 클라우드 모드에서는 음성이 당신의 컴퓨터에서 당신 자신의 API 키를 통해 OpenAI로 곧바로 가며, 우리는 결코 그 사이에 끼지 않습니다.

Whisper
실제로 구동 중인 진짜 Whisper 앱 — 로컬과 클라우드 화면이 한 창에 함께 있습니다. 설정으로 들어가 엔진을 고르면 되고, 로컬과 클라우드 사이의 전환은 스위치 하나입니다.

여기에 깃발을 하나 꽂겠습니다. 마케팅 페이지는 하지 않을 말이니까요. 클라우드 전용 받아쓰기는 전사되기만을 기다리는 개인정보 재앙입니다. 제가 함께 일한 적 있는 한 팀은 외주 개발자에게 사내 클라우드-AI 받아쓰기 시제품을 만들게 했습니다. 그것은 모든 발화마다 API를 호출했는데, "스마트 재시도" 로직이 너무 공격적이라 네 번이나 다시 전사한 스탠드업 녹음까지 포함되어 있었습니다. 관리자는 분기 말에 비용 대시보드를 열었다가 다섯 자리 청구서를 발견했습니다. 그 개발자의 해법은 "프롬프트를 최적화하자"였습니다. CFO의 해법은 "이미 메모가 있는 회의를 서버로 보내는 짓을 멈추자"였죠. 당신 상사의 급여 스프레드시트, 아이 학교에 보낼 이메일, 지금 작성 중인 법률 서면 — 음성으로 입력하고 싶었다는 이유만으로 그 어떤 것도 어느 업체의 로그에 들어가야 할 까닭이 없습니다. 당신의 노트북에는 이미 마이크와 CPU가 있습니다. 대부분의 문단에는 중간에 서버가 끼어들 필요가 없습니다. 전체 논리가 궁금하다면, 오프라인 음성-텍스트 변환 가이드에 정리해 두었습니다.

그렇다고 클라우드가 악당이라는 건 아닙니다. 그건 일종의 맞교환입니다. 클라우드 모드는 최신 OpenAI 모델, 웹 접근, 그리고 하드웨어 부담 제로를 줍니다. 로컬은 개인정보 보호와 오프라인 안정성을 줍니다. 핵심은 어느 쪽이 옳다는 게 아닙니다. 핵심은 당신이 일부러 골라야 한다는 것, 그래서 나중에야 당신의 녹음이 남의 드라이브 위에 살고 있다는 걸 깨닫는 일이 없어야 한다는 것입니다.

알아 둘 만한 다른 도구들

모든 정리 글에서 똑같은 이름들을 보게 될 텐데, 이들은 분명한 차선으로 나뉩니다.

도구차선꼭 알아 둘 한 가지
Otter.ai회의 메모매달 무료 300분, 요약과 화자 구분 라벨 제공; 6개 지정 언어.
Rev파일 업로드 + 사람무료 AI 등급은 매달 45분; 중요한 오디오를 위해 사람 전사자를 판매.
OpenAI Whisper오픈소스 모델MIT 라이선스; 다른 도구 대부분이 돌리는 엔진이지, 완성된 앱이 아님.
OpenAI 클라우드 API개발자 API25MB 업로드 상한; gpt-4o-transcribe와 whisper-1; 분당 과금.
Notta, Sonix, Fireflies, Descript, Riverside혼합회의 및 편집 중심; 현재 제한은 각 도구의 자체 페이지에서 확인할 것.
모든 정리 글에 등장하는 똑같은 이름들을, 각자의 차선으로 분류했습니다. 대부분은 회의용 또는 편집용 도구이고, 대부분은 브랜딩 아래에서 Whisper 계열 모델을 돌립니다.

마지막 줄에 대한 한마디: 저 다섯 가지는 각각 가격과 언어 세부 사항이 자주 바뀌므로, 오늘 그들 자신의 페이지에 대조해 확인하지 않은 숫자는 인용하지 않겠습니다. 그래도 패턴은 그대로입니다. 이들 대부분은 회의용 또는 편집용 도구이고, 대부분은 브랜딩 아래에서 Whisper 계열 모델을 돌립니다.

Whisper by Remskill은 이들 전부와 다른 차선에 있습니다. 회의 메모 도구가 아니라 받아쓰기 도구죠. 우리는 우리가 돌리는 오픈소스 모델의 이름을 따서 스스로를 이름 지었습니다. 클라우드 전용 받아쓰기 앱들을 비교해 본 적이 있다면, 우리의 Otter.ai 대안 분석과 더 폭넓은 전사 소프트웨어 가이드에서 각 차선을 더 자세히 다룹니다.

AI 받아쓰기 도구를 아예 건너뛰어야 할 때

정의의 여신상, 졸업장, 서류가 놓인 책상 — 수동 전사가 더 나은 중대한 작업을 떠올리게 한다

때로는 도구를 쓰지 않는 것이 옳은 선택입니다. 오디오가 중대하고 법적 구속력을 가진다면(법정 증언, 의료 기록, 규제 대상 서류 제출), 사람에게 맡기세요. Rev의 사람 서비스가 존재하는 이유가 바로 이것입니다. 계약서에서 5%의 오류율은 오탈자가 아니라 소송입니다. 그리고 필요한 것이 30단어짜리 문자 답장뿐이라면, 당신의 휴대폰이나 Mac에 이미 들어 있는 받아쓰기가 무료이고 충분합니다. 아무것도 내려받지 마세요. AI 받아쓰기가 제 자리를 얻는 곳은 그 중간입니다. 문자보다는 길고, 증언보다는 덜 중대하며, 단축키 하나를 들일 만큼은 자주 쓰는 작업이죠. 그 띠를 벗어나면 사람을 찾거나, 이미 당신 기기에 있는 무료 도구로 손을 뻗으세요.

비용은 얼마나 드나

이 분야의 가격은 무료부터 정말 비싼 것까지 펼쳐져 있고, 그 폭이 각 도구가 무엇을 팔고 있는지를 알려 줍니다. 무료 등급은 실재하지만 사용량이 정해져 있습니다. Otter는 무료 요금제를 매달 300분으로 제한하고, Rev의 무료 AI 등급은 45분이며, 오픈소스 Whisper 모델은 직접 돌릴 의향만 있다면 영원히 무료입니다. 클라우드 API는 분당 과금하는데, 통제 불능에 빠진 재시도 루프가 한 분기를 다섯 자리 청구서로 바꿔 놓기 전까지는 괜찮습니다. Whisper by Remskill은 계정만 있으면 로컬 파이프라인 전체가 무료이며, 시작할 때 결제 수단도 필요 없습니다. 클라우드 기능은 Whisper Pro 뒤에 있습니다. 정확한 숫자와 요금제, 그리고 Pro에 무엇이 포함되는지는 요금 페이지에 있습니다 — 제가 블로그 글에 타이핑한 숫자를 믿기보다 실시간 수치를 직접 확인하시길 권합니다.

당신이 이 글을 다 읽을 무렵이면, 제 딸은 이메일을 세 통쯤 받아쓰기로 작성했을 테고 달이 가끔 보이지 않는 이유를 제게 두 번은 물었을 겁니다. 기술은 더 이상 어려운 부분이 아닙니다. 남은 진짜 선택은 단 하나, 당신의 말이 당신의 기기에 머무를지 아니면 남의 기기로 한 번 여행을 떠날지입니다. 그리고 그건 녹음 버튼을 누른 뒤가 아니라 누르기 전에 내릴 만한 가치가 있는 선택입니다.

당신의 목소리를 어디로도 보내지 않고 써 보고 싶으신가요?

Whisper를 내려받고, 로컬 모드를 고르고, 단축키를 누른 채 말해 보세요. 그러면 전사 결과가 지금 쓰고 있는 앱 안에 그대로 나타납니다. 어떤 것도 당신의 기기를 떠나지 않습니다.

로그인한 모든 사용자에게 로컬 전사는 무료입니다. Pro는 별도 체험으로 클라우드 기능을 더해 줍니다.

Denys Medvediev 사진

Denys Medvediev

저는 우리 지원 이메일을 읽는 사람입니다. 답장도 십중팔구 받아쓰기로 하고 있죠.

더 읽을거리