작성자: Denys Medvediev

튜토리얼

오디오에서 자막으로: 실제로 되는 방법

오디오 기반 자막 생성기는 음성 파일을 타임코드가 있는 SRT 또는 VTT 파일로 변환합니다. 실제 작업 흐름, 파일을 내보낼 수 있는 도구, 그리고 오디오를 업로드하지 않아도 되는 무료 오프라인 옵션을 소개합니다.

최종 업데이트: 2026년 6월

화면에 표시된 오디오 파형. 음성 파일을 자막 트랙으로 변환하는 과정을 나타냅니다

오디오 기반 자막 생성기는 MP3, WAV, 팟캐스트 내보내기 같은 음성 파일을 받아 타임코드가 있는 자막 파일을 만들어 줍니다. 각 텍스트 줄에는 시작 시간과 종료 시간이 붙습니다. VEED, Kapwing, Descript 같은 웹 도구는 브라우저에서 이 작업을 처리합니다. 무료 오픈 소스 OpenAI Whisper 커맨드라인 도구는 내 컴퓨터에서 오프라인으로 처리합니다.

10분짜리 팟캐스트 클립을 손으로 자막 달다가 40분을 써버린 적이 있습니다. 3초마다 멈춰서 타이핑하고, 타임스탬프를 눈대중으로 맞추면서요. 소프트웨어 공학 석사 학위가 있는데도 이 방식은 무조건 비효율입니다. 손으로 자막을 달면 오디오 길이의 몇 배는 걸립니다. 요즘 자막 생성기는 파일 길이 정도의 시간에 커피 한 잔만 더하면 끝납니다. 아무도 미리 알려주지 않는 함정이 하나 있습니다. 올바른 도구는 딱 한 가지 질문에 달려 있습니다. 다운로드할 수 있는 타임코드 파일이 필요한가요, 아니면 텍스트만 있으면 되나요?

"자막 생성기"라는 말은 두 가지 전혀 다른 작업에 쓰이는데, 잘못된 도구를 고르면 오후 한 나절을 날립니다. 이 영역은 타임코드 파일을 내보내는 브라우저 도구와, 터미널을 건드릴 의향이 있다면 동일한 작업을 무료로 처리해 주는 오프라인 도구로 나뉩니다. 이 가이드는 작업 흐름이 어떻게 돌아가는지, 어떤 도구가 오디오만으로 진짜 .srt 파일을 출력하는지, SRT와 VTT와 TXT가 각각 무엇인지, 그리고 받아쓰기 앱인 저희 제품이 적합하지 않은 경우는 어디인지를 다룹니다. 끝까지 읽으면 내 결과물에 맞는 도구를 바로 찾을 수 있습니다. 고객 지원 메일함에서 가장 많이 보이는 혼란은, 자막 파일이 필요한데 타이핑 도구를 골랐다는 것입니다. 일 년치 그런 메시지가 쌓여서 이 글을 쓰게 됐습니다.

필요한 건 타임스탬프지, 텍스트만이 아닙니다

자막 파일은 스크립트가 아닙니다. 스크립트는 텍스트입니다. 자막 파일은 텍스트에 타이밍을 더한 것입니다. 각 캡션 블록은 "00:01:04에서 00:01:07까지 이 줄을 표시하라"고 명시합니다. 그 타이밍이 전부입니다. 비디오 플레이어가 정확한 순간에 올바른 단어를 화면에 올려주는 게 바로 그 덕분입니다.

저희 제품을 포함한 대부분의 "음성을 텍스트로" 도구는 텍스트만 건네줍니다. 커서 위치에 깔끔한 단락을 붙여넣고 끝입니다. 오디오 기반 자막 생성기는 더 많은 일을 해야 합니다. 음성을 짧은 캡션 크기 덩어리로 쪼개고, 각 덩어리를 오디오 클럭에 맞추고, 플레이어가 읽을 수 있는 엄격한 파일 형식으로 전부 기록합니다. YouTube, 영상 편집 프로그램, 강의 플랫폼에 업로드할 파일이 결과물이라면 타임스탬프가 필요합니다. 문서 안의 텍스트가 결과물이라면 타임스탬프는 불필요하고, 자막 도구에 돈을 쓸 이유도 없습니다.

오디오 파일에서 자막을 만드는 세 단계

홈 작업 공간 책상에 헤드폰과 함께 오디오 편집 소프트웨어를 실행 중인 노트북

작업 흐름은 웹이든 오프라인이든 거의 모든 도구에서 동일합니다.

1

오디오 파일을 업로드하거나 경로를 지정합니다. 대부분의 도구는 MP3, WAV, M4A, FLAC를 받으며 비디오는 필요 없습니다. VEED는 MP3, WAV, 팟캐스트 녹음, 인터뷰 오디오, 음성 메모를 모두 지원합니다. 비디오만 있다면 도구가 알아서 오디오를 추출합니다.

2

음성을 전사하고 시간을 맞춥니다. 도구가 오디오를 음성 모델에 돌리고, 결과를 캡션 길이 줄로 나누고, 각 줄에 시작 및 종료 시간을 찍습니다. 손으로 하면 오디오 길이의 몇 배가 걸리지만, 기계로 하면 파일 길이 정도면 됩니다.

3

파일을 검토하고 내보냅니다. 전사본을 한 번 읽어보고(모델 출력은 훌륭하지만 완벽하지는 않습니다), 잘못 처리된 이름을 고친 뒤 내보냅니다. 여기서 형식을 고릅니다: SRT, VTT, 또는 일반 TXT.

이게 전부입니다. 도구 간 차이는 가격, 언어 지원 범위, 오디오가 어디로 가는지, 그리고 세 번째 단계가 무료인지에서 납니다.

SRT vs VTT vs TXT: 어떤 파일이 필요한가요

내보내기 메뉴마다 세 가지 형식이 나오는데, 사람들이 계속 엉뚱한 걸 선택합니다.

  • SRT (SubRip)는 기본 자막 파일입니다. 번호가 매겨진 블록으로 이루어진 평문 텍스트 파일이며, 각 블록에는 타임코드 범위와 한두 줄의 텍스트가 있습니다. YouTube, 대부분의 영상 편집 프로그램, 거의 모든 플레이어가 읽습니다. 어떤 걸 골라야 할지 모르겠다면 SRT를 선택하세요.
  • VTT (WebVTT)는 SRT의 웹 버전입니다. 개념은 동일하고 문법이 조금 다르며, 스타일링과 위치 지정 지원이 추가됩니다. 웹사이트나 HTML5 비디오 플레이어가 이름을 지정해서 요청할 때 VTT를 사용하세요.
  • TXT 는 타임스탬프 없이 텍스트만 있습니다. 글을 쓰거나, 요약을 넘기거나, 인터뷰를 인용할 때 원하는 형식입니다. 그리고 일반 받아쓰기 도구가 줄 수 있는 유일한 형식이기도 합니다.

제 경험칙: 영상에는 SRT, 문서에는 TXT, 웹 플랫폼이 지정할 때는 VTT. 대부분의 도구는 세 가지를 모두 내보냅니다: VEED, Kapwing, Descript.

오디오를 자막 파일로 변환하는 도구들

각 브라우저 도구가 어느 위치에 있는지 정리했습니다. 기능 설명은 각 도구의 공식 페이지에서 그대로 가져왔습니다.

  • VEED 는 오디오 전용 파일에서 전사하고 결과를 SRT, VTT, TXT로 다운로드할 수 있는 웹 및 모바일 자동 자막 생성기입니다. 시작은 무료입니다. 자막 파일 다운로드와 긴 영상 자막 작업은 유료 플랜으로 넘어가야 합니다.
  • Kapwing 은 "99% 정확도의 자막을 몇 초 만에"라고 홍보합니다. 이는 Kapwing 자체 마케팅 수치이지, 독립적인 벤치마크가 아닙니다. MP3를 포함한 모든 비디오 또는 오디오 파일을 받고, 자막을 100개 이상의 언어로 번역할 수 있으며, SRT, VTT, TXT를 내보냅니다. 무료 계정은 최대 10분 자막과 워터마크가 붙고, Pro는 워터마크를 제거합니다.
  • Descript 는 22개 이상의 언어로 자막을 생성하고, 오디오 전용 파일을 받으며, Publish → Export → Subtitles 경로로 SRT 또는 VTT 형식의 소프트 자막을 내보냅니다. 월 1시간 미디어가 무료인 freemium 모델로 운영됩니다.

결제 전에 확인할 수 있는 항목 기준으로 네 가지 도구를 비교했습니다. 같은 오디오로 직접 비교한 사람이 없으므로 정확도나 속도 수치는 포함하지 않았습니다:

도구플랫폼로컬 또는 클라우드오프라인 지원가격 모델언어적합한 용도
VEED웹, 모바일Cloud아니요시작 무료, 내보내기 유료40개 이상 옵션 나열, 전체 수 미공개다운로드 포함 빠른 브라우저 작업
KapwingCloud아니요무료 플랜(워터마크), Pro100개 이상 번역빠른 캡션 작업 및 번역
DescriptCloud아니요Freemium, 월 1시간 무료22개 이상오디오와 자막을 함께 편집
OpenAI Whisper CLIWindows, macOS, LinuxLocal무료, 오픈 소스99개 다국어, .en 빌드는 영어 1개무료, 비공개, 업로드 없음

브라우저 도구 세 가지 모두 오디오를 다른 사람의 서버로 보냅니다. 마케팅 클립이라면 괜찮습니다. 녹음된 클라이언트 통화나 연봉 정보가 들어간 내용이라면 계속 읽어보세요.

이런 도구들은 대략 이런 모양의 UI를 공유합니다:

interview-audio.mp3자동 자막
SRTVTTTXT다운로드

업로드하고, 생성 버튼을 누르고, 형식을 고르고, 다운로드합니다. 저희 도구가 아니라 저 흐름이 오디오 기반 자막 생성기의 모습입니다.

무료 오프라인: 오픈 소스 Whisper로 SRT 생성하기

다크 모드의 컴퓨터 화면에 코드가 표시된 모습. 커맨드라인 자막 작업을 연상시킵니다

아무것도 업로드하고 싶지 않다면, OpenAI의 오픈 소스 Whisper 커맨드라인 도구를 사용하면 내 컴퓨터에서 무료로 자막 파일을 만들 수 있습니다. --output_format 플래그는 txt, vtt, srt, tsv, json, all을 받으며 기본값은 all입니다. 따라서 whisper interview.mp3 --model turbo 명령 하나로, 계정도 업로드도 없이 오프라인에서 .srt 파일이 만들어집니다.

오픈 소스 Whisper는 Whisper by Remskill과는 다른 프로젝트이며, 이 점을 명확히 해두는 게 좋겠습니다. OpenAI의 커맨드라인 모델로, 내 컴퓨터에서 실행되고 타임코드가 있는 자막 파일을 출력합니다. 여섯 가지 모델 크기(tiny, base, small, medium, large, turbo)를 제공하며, 더 작은 네 가지 모델에는 영어 전용 변형이 있습니다. 다국어 모델은 99개 언어를 지원하고, .en 변형은 영어만 지원합니다.

제가 확신을 갖고 말할 수 있는 의견입니다: 민감한 내용이라면 오디오는 절대로 내 노트북 밖을 나가면 안 됩니다. 녹음된 인사 고과, 의사가 받아쓴 메모, 법적 증언 같은 것들은 타임스탬프가 필요하다는 이유만으로 외부 업체의 처리 로그에 올라가서는 안 됩니다.

한 팀이 스탠드업 녹음을 전사하다가 한 분기에 다섯 자리 숫자의 클라우드 AI 비용을 쌓아 올리는 걸 본 적이 있습니다. 다음 리뷰에서 CFO의 반응은 "프롬프트를 최적화하자"가 아니었습니다. "애초에 왜 회의 오디오를 서버에 보내고 있는 거지"였습니다. 노트북에는 이미 CPU와 마이크가 있습니다. 비공개 자료라면 오프라인 Whisper CLI가 답이고, 비용은 없습니다.

whisper.cpp라는 더 빠른 로컬 포트가 있습니다. 의존성 없이 CPU만으로 오픈 라이선스 하에 실행되는 순수 C/C++ 빌드입니다. 자막 파일도 작성할 수 있다는 보고가 있지만, 검증된 .srt 경로를 위해서는 공식 OpenAI Whisper CLI를 권장하고, whisper.cpp는 익숙해진 뒤 속도 향상용으로 활용하는 게 좋습니다.

Whisper by Remskill이 적합하지 않은 경우

Pasted
Whisper 오버레이의 완성된 상태 — 타임코드가 있는 자막 파일이 아니라, 커서 위치에 깔끔한 단락을 붙여넣습니다. 파란색 위젯은 어떤 앱 위에든 올라옵니다.

대부분의 제품 블로그가 건너뛰는 부분입니다. 다운로드 가능한 .srt 또는 .vtt 파일이 필요하다면 저희 앱은 맞지 않습니다. 다운로드하고 나서 알게 되는 것보다 지금 말씀드리는 게 낫겠습니다.

Whisper by Remskill은 받아쓰기가 우선입니다. 단축키(Windows에서는 Ctrl+Space, macOS에서는 Command+Option)를 누르고 말한 뒤 손을 떼면, 어떤 앱이 열려 있든 커서 위치에 전사본이 붙여넣어집니다. 음성을 캡션 블록으로 쪼개지 않고, 텍스트를 오디오 클럭에 맞추지 않으며, 타임코드 자막 파일을 만들지 않습니다. 인터뷰를 넣으면 깔끔한 단락이 나올 뿐, SRT는 아닙니다. 머릿속으로 내보내기 메뉴를 수십 번 만들었다가 출시하지 않은 건, 타임코드 자막은 그 자체로 하나의 제품이고 대충 만들면 아무에게도 도움이 안 되기 때문입니다.

자막 파일은 위에서 소개한 도구를 쓰세요. 저희 앱은 바로 지금 자신의 말을 텍스트로 바꿔야 할 때 쓰세요. 이메일, 초안, 손으로 소셜 포스트에 입력할 캡션 같은 것들이요. Python도 없고 업로드도 없이 OpenAI Whisper와 NVIDIA Parakeet, 두 개의 순수 Rust 엔진으로 실행됩니다. 작업이 다르면 도구도 달라야 합니다. 올바른 도구를 고르는 것이 이 글의 핵심입니다.

무엇을 열기 전에 모든 걸 결정하는 질문에 먼저 답하세요: 파일을 배포하는 건가요, 텍스트를 배포하는 건가요? 파일이라면 타임스탬프가 필요하고, 그건 진짜 자막 생성기를 뜻합니다. 빠른 브라우저 작업에는 VEED나 Kapwing, 무료로 비공개로 하려면 Whisper CLI. 텍스트라면 스크립트이고 그건 다른 도구입니다. 받아쓰기 앱을 만들면서도 다른 도구가 맞을 때는 기꺼이 그쪽으로 보냅니다. 지난주에 일곱 살짜리 아이가 뭘 만드느냐고 물었는데, 솔직한 대답은 "사람들이 타이핑을 그만할 수 있게 도와준다"였고, 아이는 완전히 시큰둥해했습니다. 당신이 아끼는 그 오후 한 나절이, 제가 팟캐스트 클립에 3초마다 손으로 자막을 달던 그 시간입니다.

받아쓰기 기능이 필요하신가요?

자막 파일이 아니라 커서 위치의 텍스트가 필요하다면, Whisper가 바로 그 순간 말을 텍스트로 바꿔줍니다. 완전히 오프라인으로.

로그인한 모든 사용자에게 무료 로컬 받아쓰기 제공. 자막 파일은 위의 도구를 이용하세요.

Denys Medvediev 사진

Denys Medvediev

고객 지원 메일을 읽는 사람이 저인데, 답장도 아마 받아쓰기로 합니다.

더 읽어보기