작성자: Denys Medvediev

가이드

오디오 텍스트 변환기, 제대로 알아보기

무료 웹 도구, 오프라인 데스크톱 앱, 그리고 자신의 키를 가져와 쓰는 클라우드까지 모두 소리를 텍스트로 바꿉니다. 정작 중요한 선택은 오디오가 '어디서' 처리되느냐입니다.

마지막 업데이트: 2026년 6월

어두운 화면에 빛나는 음파 파형이 표시된 디지털 오디오 인터페이스 근접 사진

오디오 텍스트 변환기는 음성 인식 모델을 사용해 녹음 파일이나 실시간 음성을 편집과 검색이 가능한 텍스트로 바꿉니다. 정작 중요한 선택은 오디오가 어디서 처리되느냐입니다. 무료 웹 도구는 파일을 서버에 업로드하지만, Whisper 같은 데스크톱 앱은 전적으로 내 컴퓨터에서, 오프라인으로 받아쓰고, 그 결과를 커서가 있는 어디에든 바로 붙여 넣습니다.

대부분의 무료 오디오 텍스트 변환 도구는 처음 10~30분까지만 받아쓰게 해 주고, 그 뒤에는 카드 정보를 요구합니다. 거기까지는 공정합니다. 서버에는 비용이 드니까요. 아무도 대놓고 말하지 않는 부분은, 그 서버에 닿기 위해 당신의 오디오가 먼저 그곳까지 건너가야 한다는 점입니다. 의사의 음성 메모, 이사회 회의 녹음, 양육권 심리 준비 파일까지 — 모두 한 번도 만나본 적 없는 업체에 업로드됩니다.

그 점에 대해 저는 나름의 의견이 있고, 곧 이야기하겠습니다.

오디오 텍스트 변환기가 하는 일은 단 하나, 소리를 듣고 그 말을 받아 적는 것입니다. 흥미로운 차이는 어떻게 듣느냐(모델), 어디서 듣느냐(내 컴퓨터냐 서버냐), 그리고 그 텍스트를 다 받은 뒤 무엇을 하느냐(파일로 떨궈 주느냐, 아니면 지금 타이핑하던 곳에 붙여 넣느냐)에 있습니다. 이 검색어에서 상위에 오르는 무료 변환기 세 개는 모두 '파일을 올리고 기다리는' 부류입니다. Whisper by Remskill은 다른 종류입니다. 받아쓰기를 우선으로 설계되어 있어서, 단축키를 누르고 말하면 텍스트가 어떤 앱이든 커서 위치에 나타납니다.

이 가이드는 변환기가 어떻게 동작하는지 설명하고, 녹음 파일을 처리하는 세 단계 경로를 따라가며, 웹 변환기가 적합한 경우와 그렇지 않은 경우를 알려 줍니다. 1년 동안 우리 지원 메일을 읽어 온 사람으로서 말하자면, 그 대부분은 노트북을 떠나서는 안 될 오디오를 위해 클라우드 도구를 고른 사람들에게서 옵니다.

오디오 텍스트 변환기는 녹음을 편집 가능한 글자로 바꿉니다

Whisper
진짜 Whisper 앱 — 설정을 이리저리 눌러 보며 로컬 변환과 클라우드 변환이 어떻게 구성되는지 확인해 보세요.

내부를 들여다보면 모든 변환기는 같은 것을 돌립니다. 바로 음성 인식 모델입니다. 오디오의 파형을 받아 한 덩어리씩 단어를 예측하죠. 정확도는 바로 이 모델에 달려 있습니다. 많은 도구의 바탕이 되는 대표적인 오픈 모델이 OpenAI의 Whisper인데, 다국어 버전에서는 99개 언어를 지원합니다. 같은 OpenAI Speech-to-Text API는 whisper-1과 함께 더 새로운 gpt-4o-transcribe, gpt-4o-mini-transcribe 모델도 제공합니다.

출력물은 일반적인 편집 가능한 텍스트입니다. 이름을 고치고, 구절을 검색하고, 이메일에 붙여 넣을 수 있습니다. 핵심이 바로 그것입니다. 소리는 훑어보기 어렵지만 텍스트는 쉽습니다. Whisper도 똑같이 편집 가능한 텍스트를 만들지만, 다운로드 파일을 건네는 대신 지금 사용 중인 어떤 앱에든 바로 붙여 넣을 수 있습니다. 위에 임베드된 앱은 목업이 아니라 실제 데스크톱 화면입니다.

어떤 모델을 고르느냐가 곧 정확도를 결정하는 선택이며, 오픈 Whisper 모델과 Google Cloud Speech-to-Text는 서로 다른 자리에 놓입니다. Whisper와 Google Speech-to-Text 비교 글에서는 두 엔진을 정확도, 언어 지원 범위, 그리고 오디오가 어디로 가는지를 기준으로 나란히 놓고 살펴봅니다.

오디오 파일을 세 단계로 텍스트로 변환하는 법

이미 녹음된 파일이라면 경로는 짧습니다. 무료 웹 변환기들은 이를 업로드, 클릭, 다운로드로 설명합니다.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
전형적인 웹 변환기: 파일을 끌어다 놓고, 업로드를 기다린 뒤, 변환 결과를 내려받습니다.
1

어디서 돌릴지 정하기. 클라우드 변환기는 파일을 그들의 서버에 업로드하게 합니다. Whisper는 로컬 모드에서 변환을 내 컴퓨터에서 직접 처리하므로, 파일이 컴퓨터를 떠나지 않습니다.

2

내 언어에 맞는 모델 고르기. 영어 전용 파일은 더 작은 모델에서 가장 빠릅니다. 다국어이거나 여러 언어가 섞인 오디오라면 99개 언어를 다루는 다국어 모델이 필요합니다.

3

텍스트를 받아 다듬기. 변환 결과는 일반 텍스트로 돌아옵니다. 모델이 고유명사에서 늘 내는 오타만 고쳐 주면 끝입니다.

CancelTranscribing
Whisper가 녹음을 로컬에서 받아쓰는 모습 — 파일은 내 컴퓨터를 절대 떠나지 않습니다.

알아 둘 만한 함정이 하나 있습니다. 클라우드 API에는 용량 상한이 있습니다. OpenAI 변환 엔드포인트는 요청당 업로드를 25MB로 제한합니다. WAV로 된 긴 회의 녹음은 이 한도를 금세 넘어섭니다. 로컬 처리에는 내 디스크 용량과 인내심 말고는 그런 제한이 없습니다.

녹음 파일이냐 실시간 받아쓰기냐: 당신에게 필요한 건 무엇인가요?

대부분의 변환기 페이지가 건너뛰는 질문이 여기 있습니다. 이미 존재하는 파일을 받아쓰려는 건가요, 아니면 목소리로 새로운 무언가를 쓰려는 건가요?

녹음(인터뷰, 강의, 팟캐스트)이 있다면 파일 변환기가 맞는 도구입니다. 업로드하고, 변환본을 받고, 다음으로 넘어가면 됩니다. 상위 무료 도구 세 개가 이를 처리하며, 무료 등급에는 하루 분량 상한이 있습니다.

Cancel
Whisper의 실시간 녹음 오버레이 — 단축키를 누른 채 말하고, 떼면 됩니다.

새 이메일, 메모, 문서를 작성하는 중이라면 파일 따위는 전혀 필요 없습니다. 말하는 대로 단어가 나타나길 원하죠. 그게 받아쓰기이고, 작동 방식이 다릅니다. Whisper에서는 단축키를 누른 채 말하고 손을 뗍니다. Windows에서는 기본값이 Ctrl+Space이고, macOS에서는 Command+Option 푸시투토크 조합입니다(둘 다 누른 채 말하고, 둘 중 아무 키나 떼면 멈춥니다). 받아쓴 텍스트는 어떤 애플리케이션에서든 커서 위치에 붙습니다. 업로드도, 다운로드도, 탭 전환도 없습니다. 위에 보이는 오버레이가 받아쓰는 동안 화면에 나타나는 모습입니다.

오디오 텍스트 변환기를 검색하는 대부분의 사람은 처음 것을 원하다가, 사실은 두 번째 것도 원했다는 사실을 발견합니다. 사람은 녹음하는 것보다 글 쓰는 일이 훨씬 많으니까요. 저는 작년에 더 나은 파일 변환기를 찾느라 두 주를 헤맸는데, 정작 필요했던 건 딸의 수영 연습 시간에 한 손가락으로 답장을 한 글자씩 두드리는 일을 그만두는 것이었습니다.

로컬이냐 클라우드냐: 오디오가 어디서 처리되는가(그리고 왜 중요한가)

가동 중인 장비가 늘어선 데이터센터 서버 랙의 행렬, 클라우드 오디오 처리를 상징하는 이미지

정작 중요한 갈림길이 바로 여기 있고, 무료 도구들이 가장 입을 다무는 지점이기도 합니다. 웹 변환기는 당신의 오디오를 자기네 서버에서 처리합니다. AudioConvert.ai는 파일이 24시간 안에 삭제된다고 말합니다. HappyScribe와 NoteGPT도 클라우드에 업로드합니다. 그게 표준이며, 공개된 팟캐스트라면 괜찮습니다.

이제 앞서 약속한 의견입니다. 클라우드 전용 오디오 변환은 받아쓰여지기만을 기다리는 개인정보 재앙입니다. 제가 한때 함께 일했던 어느 팀은 외주 개발자에게 사내 받아쓰기 프로토타입을 맡겼는데, 발화 하나하나마다 클라우드 AI를 호출하는 방식이었습니다. 매니저가 분기 말에 비용 대시보드를 열어 보니 다섯 자릿수 청구서가 찍혀 있었고, 그 대부분은 재시도 로직이 너무 공격적인 탓에 같은 스탠드업 녹음을 네 번씩 변환한 비용이었습니다. CFO의 반응은 짧았습니다. 아니면 이미 메모가 있는 회의를 굳이 돈 들여 업로드하지 않는 방법도 있죠. 돈은 작은 문제였습니다. 더 큰 문제는, 여러 분기 분량의 사내 통화가 이제 남의 서버에 살게 됐다는 점이었습니다.

Whisper의 로컬 모드가 그 답을 줍니다. 로컬 모드에서는 모든 오디오가 내 컴퓨터에서 처리되고 어떤 것도 기기를 떠나지 않습니다. 일회성 모델 다운로드(모델에 따라 약 140MB에서 3GB까지) 이후에는 완전히 오프라인으로 동작합니다. 기기에서 돌아가는 엔진은 둘입니다. Whisper 모델, 그리고 NVIDIA의 Parakeet인데, Parakeet은 CPU에서 Whisper보다 5~10배 빠르지만 영어와 24개 유럽 언어만 다루며 영어로의 번역은 지원하지 않습니다. 클라우드를 선호한다면 Whisper에는 자신의 키를 가져와 쓰는 OpenAI 모드가 있어 gpt-4o-mini-transcribe 또는 gpt-4o-transcribe(API가 제공하는 바로 그 모델들)를 쓸 수 있고, 요금은 OpenAI가 직접 청구하며 우리는 어떤 수수료도 붙이지 않습니다. 핵심은 당신이 선택한다는 점입니다. 무료 웹 도구는 대신 골라 주고, 그 답은 언제나 자기네 서버입니다. 클라우드를 아예 멀리하는 방법에 대해서는 오프라인 음성 텍스트 변환 가이드를 참고하세요.

정확도 고르기: 어떤 모델이 당신의 억양과 언어를 잘 다루나

정확도는 대체로 모델의 문제이고, 모델은 곧 언어의 문제입니다. 무료 변환기들은 큰 숫자를 내세웁니다. AudioConvert.ai는 깨끗한 오디오에서 최대 99% 정확도를 주장하고, HappyScribe는 최대 96%라고 합니다. 그러나 이는 공개된 측정 방법이 없는 업체 마케팅 문구이니, 벤치마크가 아니라 브로슈어로 받아들이세요.

정확도를 실제로 움직이는 건 모델을 내 오디오에 맞추는 일입니다. Whisper는 영어 전용과 다국어로 나뉜 8개의 로컬 모델을 제공합니다. 영어 전용 빌드(약 140MB의 Base부터 약 1.5GB의 Medium까지)는 언어 선택을 영어로 고정하고 그 한 가지 일을 잘 해냅니다. 다국어 빌드(Small, Medium, 약 3GB의 Large v3, 그리고 Large v3 Turbo)는 자동 감지로 99개 언어를 다룹니다. 한 문장 안에 우크라이나어와 영어가 섞여 있다고요? 그러면 다국어 모델이 필요합니다. 깨끗한 영어 음성 메모라면? 영어 Base 모델이 더 빠르고 가볍습니다.

Whisper
진짜 Whisper 앱의 모델·언어 선택기 — 영어 전용 빌드와 다국어 빌드가 나란히 있습니다.

어떤 모델 페이지도 인정하지 않는 따분한 진실: 저렴한 클립형 마이크 하나가 어떤 모델 업그레이드보다 정확도에 더 큰 도움이 됩니다. 쓰레기 같은 오디오를 넣으면 쓰레기 같은 텍스트가 나옵니다. 돌아가는 식기세척기 옆에서 녹음한 소리는 어떤 AI도 고칠 수 없습니다. 저는 제 탁한 오디오를 정리해 보겠다고 주말 내내 모델 설정을 만지작거리다가, 문제는 선풍기에서 15센티미터 떨어진 노트북 마이크였다는 걸 그제야 깨달았습니다. 저, 석사 학위 있습니다. 위의 설정 패널이 모델과 언어를 고르는 곳입니다.

웹 변환기를 건너뛰어야 할 때(그리고 무엇을 쓸지)

노트, 안경, 펜이 놓인 정돈된 책상 작업 공간, 수기 메모라는 대안을 떠올리게 하는 이미지

웹 변환기가 더 나은 선택일 때도 있고, 당신이 엉뚱한 도구와 씨름하게 두느니 차라리 그렇게 말해 주는 편이 낫겠습니다. 짧은 녹음 하나(5분짜리 인터뷰 클립, 음성 메모 한 개)가 있고 그게 서버를 거치는 걸 개의치 않는다면, HappyScribe 같은 무료 변환기가 카드 없이 처음 10분을 무료로 처리해 줍니다. 페이지를 열고, 업로드하면, 끝입니다. 그런 일에 데스크톱 앱을 설치하는 건 과합니다.

다음 세 가지 중 하나라도 해당하면 웹 변환기를 건너뛰세요. 오디오가 민감하거나(의료, 법률, 금융), 파일이 클라우드의 25MB 한도에 닿을 만큼 크거나, 오래된 무언가를 받아쓰는 게 아니라 새로운 무언가를 쓰고 있을 때입니다. 앞의 두 경우는 로컬 처리를 원하고, 세 번째는 변환기가 아니라 받아쓰기를 원합니다. 여러 화자와 요약이 필요한 회의형 전사라면 그 범주의 전용 도구가 둘 중 어느 쪽보다 잘 맞습니다 — 그건 다른 일이며, 우리 전사 소프트웨어 총정리 글에서 다룹니다.

비용은 얼마인가

Whisper는 로컬 파이프라인 전체(두 가지 변환 엔진, AI 텍스트 정리, 기록, 사용자 지정 단축키)를 모든 사람에게 무료로 제공하며, 가입 시 결제 수단이 필요 없습니다. 자신의 키를 가져와 쓰는 클라우드 영역은 유료 Pro 등급이며, 실제로 변환한 분량만큼 OpenAI가 직접 청구합니다. 이 검색어에 등장하는 무료 웹 변환기들은 프리미엄 분량 상한제로 운영됩니다. HappyScribe는 무료 10분을, AudioConvert.ai는 하루 30분을 줍니다. Whisper는 현재 Windows와 Apple Silicon 기반 macOS에서 제공됩니다. 정확한 요금제 숫자는 가격 페이지에 글로 적혀 있습니다.

무료 변환기들은 자기들이 하는 일은 잘합니다 — 파일을 떨궈 넣고, 기다리고, 텍스트를 복사해 가는 일이요. 공유해도 상관없는 팟캐스트 클립에는 그 중 하나를 쓰세요. 하지만 가장 중요한 녹음일수록 대개 가장 업로드하기 싫은 녹음이고, 바로 그 순간 내 노트북에서 돌아가는 변환기는 '있으면 좋은 것'에서 벗어나게 됩니다.

내 컴퓨터를 절대 떠나지 않는 녹음을 해 보세요

지난 토요일 제 작은딸이 할머니에게 보낼 90자짜리 이메일을 받아쓰게 하고는, 그 말들이 어디로 갔느냐고 제게 물었습니다. 아무 데도 안 갔어, 라고 답했죠. 바로 여기 그대로 있단다. 그 대답이 바로 제가 이걸 만든 모든 이유입니다.

로컬 파이프라인 전체가 무료입니다. 가입에 결제 수단이 필요 없습니다.

Denys Medvediev 사진

Denys Medvediev

우리 지원 메일을 읽는 사람이 바로 저입니다. 아마도 답장은 받아쓰기로 하고 있을 겁니다.

더 읽어보기