작성자: Denys Medvediev

가이드

변환하는 방법: mp3를 텍스트로

mp3를 텍스트로 변환하려면 음성-텍스트 변환 도구에 파일을 넣어 처리하면 됩니다. 무료이면서 사생활을 지키는 방법은 Buzz나 OpenAI Whisper 명령줄 같은 로컬 오픈소스 앱을 쓰는 것으로, 내 컴퓨터에서 직접 받아씁니다. 더 빨리 시작할 수 있는 방법은 파일을 업로드하는 웹 변환기입니다.

마지막 업데이트: 2026년 6월

오디오 편집 소프트웨어에서 녹음 파형을 보여주는 컴퓨터 화면

mp3를 텍스트로 변환하려면 음성-텍스트 변환 도구에 파일을 넣어 처리하면 됩니다. 무료이면서 사생활을 지키는 방법은 Buzz나 OpenAI Whisper 명령줄 같은 로컬 오픈소스 앱을 쓰는 것으로, 내 컴퓨터에서 직접 받아씁니다. 더 빨리 시작할 수 있는 방법은 파일을 업로드하는 웹 변환기입니다. 둘 다 오디오를 편집 가능한 텍스트로 바꿔 줍니다.

자, mp3 파일 하나가 있고 그 안에 담긴 말이 필요한 상황입니다. 녹음한 인터뷰, 음성 메모, 팟캐스트 한 편, 휴대폰으로 저장해 둔 강의 같은 것들이죠. 어느 경우든 할 일은 똑같습니다. 오디오를 받아서 편집할 수 있는 텍스트를 얻는 것입니다.

좋은 소식은 2026년 현재 이건 이미 해결된 문제이고, 그렇게 하는 방법들 대부분이 무료라는 점입니다. 조금 성가신 소식은 도구 이름들이 죄다 비슷하게 들린다는 건데, 그래서 제가 하나씩 정리해 드리겠습니다.

솔직하게 따지면 길은 세 가지입니다. 무료 로컬 도구를 내 컴퓨터에서 돌리거나(가장 사생활이 보장되고, 업로드도 없고, 비용도 0원), 이 작업을 위해 만들어진 Mac 앱을 쓰거나, 아니면 파일을 웹 서비스에 업로드해 서버에서 변환하는 방법(시작이 가장 빠르지만 오디오가 내 컴퓨터를 떠납니다)이 있습니다. 어느 쪽이 맞는지는 사생활을 더 중요하게 보느냐 편의를 더 중요하게 보느냐, 그리고 오늘 기분상 얼마나 기술적인 작업을 감당할 수 있느냐에 달려 있습니다.

어색한 부분은 일찍 말해 두는 게 좋겠습니다. 묻어 두는 건 정직하지 못한 일이니까요. 저희 팀이 만드는 앱인 Whisper by Remskill은 mp3 파일을 변환하지 않습니다. 이건 실시간 받아쓰기 도구입니다. 단축키를 누른 채 말을 하면, 지금 입력하고 있는 곳에 그 말이 그대로 나타납니다. 완전히 다른 작업이죠. 이게 어디에 어울리는지는 글 끝에서 설명하겠지만, 이미 가진 녹음 파일을 변환하러 오셨다면 아래에 있는 도구들이 바로 필요한 것들입니다.

무료이면서 사생활을 지키는 방법은 로컬 오픈소스 도구입니다

내 녹음 파일이 남의 서버에 올라가 있는 게 싫다면, 변환 작업을 내 컴퓨터에서 직접 돌리세요. 이때 거의 모두가 쓰는 엔진이 OpenAI Whisper입니다. MIT 라이선스로 공개돼 있어 쓰는 것도, 코드를 들여다보는 것도, 직접 실행하는 것도 전부 무료입니다. 광고로 본 적 있는 유료 앱들 상당수가 바로 이 모델 계열로 돌아갑니다.

이걸 실제로 쓰는 방법은 몇 가지가 있는데, "터미널이 편하다"는 쪽부터 "제발 누를 버튼 하나만 주세요"는 쪽까지 다양합니다.

OpenAI Whisper (Python 명령줄)

pip으로 설치하고, 의존하는 ffmpeg 도구를 설치한 다음, 파일을 가리키면 됩니다: whisper recording.mp3 --model turbo. mp3를 읽어서 받아쓰고 텍스트 파일로 내보냅니다. 모델 크기는 여섯 가지로, 작고 빠른 것부터 크고 정확한 것까지 있어서 속도와 정확도를 맞바꿀 수 있습니다. 다국어를 지원하고, 영어가 아닌 오디오를 영어로 번역까지 해 줍니다. 함정은 설치 과정입니다. pip과 ffmpeg이 어렵진 않지만, 그렇다고 아무것도 아닌 것도 아닙니다. 저는 새 노트북에서 ffmpeg 경로를 잡느라 20분을 쓴 적이 있습니다. 석사 학위가 있는데도요.

whisper.cpp

같은 Whisper 모델을 순수 C와 C++로 다시 작성해서, Python 없이 무거운 의존성 없이 빠르게 돌아갑니다. CPU만으로 실행되고 Apple Silicon Mac에 맞게 강하게 튜닝돼 있습니다. 역시 MIT 라이선스입니다. 소스에서 직접 빌드해 명령줄에서 실행하니, 정확히 터미널이 편한 사람들을 위한 것입니다. 처리할 파일이 많다면 군더더기 없는 선택지입니다.

Buzz

비기술자분들께 제가 보내드리는 게 바로 이겁니다. Buzz는 평범한 창이 있는 평범한 데스크톱 앱입니다. 열어서 mp3를 고르면, 내 컴퓨터에서 오프라인으로 받아씁니다. OpenAI Whisper를 기반으로 만들어졌고, 받아쓰기와 번역을 할 수 있으며, macOS, Windows, Linux에서 돌아갑니다. MIT 라이선스에 무료입니다. 터미널도, pip도, ffmpeg 씨름도 필요 없습니다. 파일 하나를 가장 번거로움 없이 끝내고 싶다면 이게 정답입니다.

Whisper Desktop (Const-me)

그래픽 카드가 있는 분들을 위한 Windows 앱입니다. 오디오 파일을 받아쓰는데, GPU를 활용해 빠르게 처리합니다. 파일이 길 때 이게 중요해지죠. MPL-2.0 라이선스로 공개된 오픈소스입니다. Windows 전용입니다. 괜찮은 GPU가 달린 PC에서 두 시간짜리 녹음을 다뤄야 한다면, 이게 추월 차선입니다.

깔끔한 책상 위 노트북 화면에 열려 있는 코드와 명령줄 터미널

Mac에서는 전용 앱이 설치 수고를 덜어 줍니다

Mac을 쓰는데 명령줄이 즐거운 저녁의 그림이 아니라면, MacWhisper가 정확히 이 일을 위해 만들어졌습니다. 오디오나 영상 파일을 끌어다 놓으면 기기 안에서 받아쓰기 때문에, 아무것도 컴퓨터를 떠나지 않습니다. 같은 OpenAI Whisper 모델에 더해 NVIDIA의 Parakeet 엔진까지 돌리고, 파일 받아쓰기 작업을 잘 해냅니다. 또 실제로 필요한 형식, 예를 들어 영상용 자막 파일로도 내보냅니다.

MacWhisper는 설계 자체가 파일 우선입니다. 녹음이 들어가고, 텍스트가 나옵니다. 그게 이 앱의 전부이고, 그걸 잘합니다. 제가 굳이 짚는 이유는, 여러분이 검색한 바로 그 작업에 가장 가까운 원클릭 Mac 해법이기 때문입니다.

웹 변환기는 시작이 가장 빠르지만, 오디오가 내 컴퓨터를 떠납니다

또 다른 방법은 설치가 전혀 필요 없습니다. 수많은 웹 서비스가 mp3를 업로드하고 1분쯤 기다린 뒤 글로 옮긴 결과물을 내려받게 해 줍니다. 설치도, 내려받을 모델도 없고, 휴대폰이나 빌린 노트북에서도 됩니다. 한 번 빠르게 처리하는 거라면 그 편의는 진짜이고, 저도 아닌 척하지 않겠습니다.

이 글에서 제가 강하게 주장하는 단 하나가 여기 있고, 두루뭉술하게 넘기지 않고 분명한 이유로 뒷받침하겠습니다. 녹음을 웹 변환기에 업로드하면 오디오가 내 컴퓨터를 떠나 남의 서버에 가서 앉습니다. 어차피 곧 공개할 팟캐스트라면 누가 신경 쓰겠습니까. 하지만 녹음된 인사 면담, 진료 기록, 또는 연봉 숫자나 환자 이름이 입 밖으로 나오는 고객 미팅이라면, 그건 여러분이 내리는 사생활에 관한 결정이고, 그 파일이 얼마나 오래 보관되는지 알려 주는 페이지를 읽지도 않은 채 내리는 경우가 많습니다. 로컬 도구는 똑같은 일을 하면서도 오디오가 어디에도 가지 않습니다. 민감한 녹음에 대해 클라우드 전용 변환은, 받아쓰기를 기다리는 사생활 참사나 다름없습니다.

웹 변환기가 정말 여러분에게 맞는 선택이라면, 변환 서비스 판도를 한번 살펴볼 만합니다. 그 분야에 대해서는 다른 글에서 다뤘습니다. 먼저 빠른 변환 따라하기오디오-텍스트 변환기 가이드를 보세요. 둘 다 업로드 방식과 로컬 방식을 나란히 다룹니다.

정확도와 언어는 마케팅이 아니라 모델로 고르세요

어떤 도구를 고르든, 정확도는 결국 여러분이 통제할 수 있는 두 가지로 거의 결정됩니다. 모델 크기, 그리고 오디오를 녹음한 마이크입니다. 큰 모델은 느리고 더 정확합니다. 작은 모델은 빠르고 가볍습니다. 위의 로컬 도구들 대부분이 직접 고를 수 있게 해 주는데, 다들 서로 다른 버튼 뒤에서 똑같은 Whisper 모델을 돌리고 있기 때문입니다.

여러분에게 "똑똑한 AI" 변환기를 팔려는 사람은 입 밖에 내고 싶어 하지 않는, 따분한 진실이 하나 있습니다. 싸구려 USB 마이크로 깨끗하게 녹음한 것이, 제일 큰 모델로 돌린 흐릿한 녹음을 이깁니다. 도구가 에어컨 소리를 안 들은 셈 칠 수는 없습니다. mp3를 방 건너편에서 노트북 마이크로 녹음했다면, 기대치를 낮추고 가능하다면 다시 녹음하는 게 좋을 수도 있습니다.

Whisper by Remskill이 어울리는 곳, 그리고 어울리지 않는 곳

이제 약속했던 정직한 부분입니다. Whisper by Remskill은 여러분의 mp3를 받아서 텍스트로 바꿔 주지 않습니다. 다른 순간을 위해 만들어졌습니다.

이건 실시간 받아쓰기 도구입니다. 단축키를 누르고(Windows에서는 기본값이 Ctrl+Space, 변경 가능), 말을 하면, 그 말이 지금 사용 중인 앱에 곧장 입력됩니다. 이메일이든, 문서든, Slack 메시지든, 코드 주석이든 말이죠. 변환은 말하는 동안 로컬에서 일어나고, 말을 멈춘 한 박자 뒤에 커서 위치에 텍스트가 내려앉습니다. 파일도, 업로드도, 녹음하고 나서 변환하는 과정도 없습니다.

Pasted
출시된 받아쓰기 종료 오버레이 — 파일이 변환되는 게 아니라, 실시간 받아쓰기가 커서 위치에서 마무리되는 모습입니다.

그렇다면 이게 정말 필요한 도구가 되는 건 언제일까요? 필요한 말이 아직 녹음으로 존재하지 않을 때, 즉 그 말이 아직 머릿속에 있을 때입니다. 진짜 목표가 애초에 "이 파일을 변환하자"가 아니라 "내가 말한 것을 빠르게 문서에 담자"였다면, 녹음 과정 자체를 건너뛰게 됩니다. 생각하고, 말하면, 입력됩니다. 로컬 파이프라인 전체가 무료이고, Windows와 Mac(Apple Silicon)에서 돌아갑니다. 저는 주전자 물이 끓는 사이에 선생님께 보낼 이메일, 장 볼 목록, 동생에게 보낼 답장을 받아쓴 적이 있는데, 정작 차 따르는 걸 잊어버렸습니다. 도구는 제 일을 했습니다. 저는 못 했고요.

Whisper
실제로 돌아가는 Whisper by Remskill 앱 — 사이드바, 변환 패널, AI 지시 카드입니다. 스크린샷이 아니라 진짜 인터페이스입니다.

실시간 오프라인 변환이 내부에서 어떻게 작동하는지 전체 그림을 보려면 오프라인 음성-텍스트 변환 가이드가 더 깊이 들어갑니다. 하지만 지금 다운로드 폴더에 녹음 파일이 들어 있다면, 페이지 위쪽으로 돌아가세요. 필요한 건 저희가 아니라 Buzz나 Whisper 명령줄입니다.

그냥 한 번만 하면 되는 경우

파일 하나, 한 번, 다시 할 계획은 없다고요? Buzz를 열고, mp3를 끌어다 놓고, 돌아가게 두세요. 무료이고, 오프라인에서 작동하며, 유지 관리해야 할 것을 아무것도 설치하지 않게 됩니다. 추천은 그게 전부입니다. 터미널 도구들은 파일이 하나가 아니라 쉰 개인 날을 위해 아껴 두세요.

mp3를 변환하는 가장 빠른 방법은 애초에 mp3를 만들지 않는 것입니다. 하지만 이미 가지고 있는 녹음이라면, 무료 로컬 도구가 그것을 어디에도 보내지 않고 텍스트로 만들어 줍니다.

Whisper by Remskill은 파일 변환이 아니라 실시간 받아쓰기를 위한 것입니다

내가 말한 것을 타이핑 없이 문서에 담는 게 목표라면, 실시간 받아쓰기가 어떻게 작동하는지 보세요. 이미 가지고 있는 녹음을 변환하는 거라면, 위에서 말한 무료 정답은 Buzz입니다.

무료 로컬 파이프라인. Windows와 Mac(Apple Silicon).

Denys Medvediev 사진

Denys Medvediev

저는 저희 지원 이메일을 읽는 사람입니다. 답장도 아마 받아쓰기로 쓰고 있겠죠.

더 읽어보기