작성자: Denys Medvediev

튜토리얼

유튜브 영상 텍스트로 변환하기: 3가지 방법

세 가지 방법이면 거의 모든 상황을 해결할 수 있습니다. 영상에 내장된 자막 패널을 열거나, 링크를 무료 생성기에 붙여넣거나, 직접 메모를 음성으로 받아쓰는 거죠. 앞의 두 가지는 브라우저만 있으면 됩니다.

최종 업데이트: 2026년 6월

모던한 책상 위에서 영상 편집 소프트웨어가 실행 중인 노트북, 영상을 텍스트로 바꾸기 위한 작업 환경

유튜브 영상을 텍스트로 변환하는 데는 세 가지 방법이면 거의 충분합니다. 자막이 있는 영상이라면 영상 자체의 '자막 표시' 패널을 열고, 더 깔끔한 텍스트와 다운로드가 필요하면 링크를 무료 온라인 자막 생성기에 붙여넣고, 직접 메모를 받아쓰고 싶다면 데스크톱 도구로 음성을 받아 적으면 됩니다. 앞의 두 가지는 브라우저만 있으면 됩니다.

지난주에 40분짜리 콘퍼런스 강연에서 문장 세 개를 복사하느라 20분을 썼습니다. 전체를 받아쓴 게 아니라요. 18분쯤 어딘가에서 나온 문장 세 개를, 이메일에 인용하고 싶었을 뿐이었죠. 폭탄을 해체하듯 앞뒤로 영상을 긁어댔습니다. 따분하지만 진실은 이겁니다. 유튜브 영상 변환 도구를 찾는 사람들 대부분은 전체 텍스트가 필요한 게 아닙니다. 보는 대신 읽고 싶거나, 인용구 하나를 따고 싶거나, 영상을 나중에 검색할 수 있는 메모로 바꾸고 싶은 겁니다.

유튜브 영상은 읽지 않은 책이 책장에 쌓이듯 탭에 쌓여만 갑니다. 그리고 보통 속도로 하나씩 보는 건 정보를 끄집어내는 가장 느린 방법이죠. 지금 이 주제로 검색하면 결과는 링크 붙여넣기 위젯의 벽입니다. 다들 거의 똑같이 생겼고, 다들 몇 초 만에 무료 자막을 약속하죠. 대부분은 잘 작동합니다. 문제는 지금 하려는 일에 어떤 방법이 맞느냐는 겁니다. 이 가이드에서는 세 가지를 짚어봅니다. 유튜브에 내장된 자막, 링크를 붙여넣는 무료 생성기, 그리고 그 생성기들이 손대지 못하는 부분을 위한 데스크톱 받아쓰기 도구입니다. 다 읽고 나면 10초 안에 어떤 걸 써야 할지 알게 되고, 이를 악문 채로 타임라인을 긁고 있을 일도 없을 겁니다. 저는 우리 고객 지원 메일을 직접 읽기 때문에, 많은 사람들이 처음에 엉뚱한 방법을 고르는 걸 봐왔습니다. 보통은 저 자신이 먼저 엉뚱한 걸 고른 직후에요.

무료 방법은 이미 유튜브 안에 있습니다

Transcript··· Toggle timestamps
0:00so the thing people get wrong about this is
0:04you don't actually need the whole transcript
0:09you need three sentences and a way to find them
0:14which is what the panel on the right is for
유튜브 자체의 '자막 표시' 패널 — 무료, 즉시, 이미 브라우저 안에 있습니다.

영상에 자막이 있다면 텍스트는 이미 손안에 있는 셈입니다. 도구도, 계정도, 신용카드도 필요 없습니다. 영상을 열고 아래쪽 설명 영역을 보면 '자막 표시'가 있습니다. 클릭하면 플레이어 옆에 전체 텍스트가 담긴 패널이 열리고, 영상이 재생되면서 지금 말하는 줄로 패널이 스크롤됩니다. 아무 줄이나 클릭하면 영상이 그 지점으로 이동합니다.

이건 대부분의 글이 맨 아래에 묻어두는 방법입니다. 아마 이걸로 팔 게 없어서겠죠. 데스크톱에서도, 모바일에서도 작동합니다. 함정은 영상에 애초에 자막이 있어야 한다는 점입니다. 인기 채널 대부분은 자동 생성이든 업로더가 직접 단 것이든 자막이 있지만, 소규모 크리에이터의 오래된 영상에는 없을 수도 있습니다.

잘 됐는지 확인하기: 자막 패널에 텍스트가 표시되고 오디오에 맞춰 스크롤됩니다. 패널이 아예 열리지 않는다면 영상에 자막이 없는 것이니 두 번째 방법으로 넘어가세요.

사람들이 놓치는 게 하나 더 있습니다. 자막 패널에는 타임스탬프를 끄는 작은 메뉴가 있는데, 이걸 끄면 텍스트를 깔끔한 글로 복사하기가 훨씬 쉬워집니다. 그 토글은 패널 안에 있지, 지원 문서에 있는 게 아닙니다. 널리 알려져 있긴 하지만 유튜브 공식 도움말 페이지에는 없습니다. 숫자 덩어리를 문서에 붙여넣기 전에 알아두면 좋습니다.

링크를 붙여넣고 더 깔끔한 텍스트 받기

텍스트를 유튜브 밖에서 쓰고 싶을 때(다운로드하거나, 요약기에 돌리거나, 내장 패널이 말썽인 영상을 읽고 싶을 때)는 링크를 붙여넣는 무료 생성기가 정답입니다. 형태는 늘 똑같습니다. 유튜브 URL을 복사하고, 입력란에 붙여넣고, 텍스트를 돌려받습니다.

유튜브 자막 생성기
여기에 자막이 표시됩니다 — 복사하거나 .txt로 다운로드하세요
전형적인 링크 붙여넣기 자막 생성기를, 핵심만 남긴 모습.

Tactiq의 무료 유튜브 자막 생성기는 붙여넣은 URL을 받아 설치도, 로그인도, 이메일도 요구하지 않고 결과를 .txt 파일로 다운로드하게 해줍니다. 자동 음성 인식이 항상 100% 정확하지는 않다고 솔직하게 밝히는데, 이게 정직한 태도죠. NoteGPT의 생성기도 똑같이 링크 붙여넣기 방식을 쓰고, 타임스탬프가 붙은 자막을 돌려주며, 여러 언어를 지원하고, 타임스탬프를 포함하거나 빼고 복사할 수 있게 하며, AI 요약 기능까지 끼워 넣습니다. 검색 1위 결과인 youtubetotranscript.com은 FAQ에서 번역, 길이 제한, API를 내세웁니다. 이런 건 검증된 게 아니라 광고로 받아들이세요.

잘 됐는지 확인하기: 자막 텍스트를 선택, 복사, 다운로드할 수 있습니다. 도구가 멈추거나 아무것도 돌려주지 않는다면, 보통 영상에 가져올 자막이 없는 겁니다. 이 생성기들은 유튜브에 이미 있는 자막 트랙을 읽는 것이지, 오디오를 듣는 게 아닙니다.

방금 그 마지막 문장이 한계의 전부입니다. 그래서 세 번째 방법이 등장합니다.

링크 도구가 할 수 없는 일

위의 모든 방법은 유튜브가 넘겨줄 자막 트랙이 있다는 데 기대고 있습니다. 자막이 없으면 텍스트도 없죠. 그래도 대부분의 공개 영상은 해결됩니다. 하지만 빈틈이 남습니다. 애초에 공개 유튜브 영상이 아닌 오디오 말입니다. 누군가 공유해준 비공개 링크. 아직 자막이 없는 라이브 스트림. 강의 플레이어 안의 클립. 업로드하기 전의 내 영상.

두 번째, 더 조용한 빈틈도 남습니다. 때로는 영상의 말이 아니라 영상에 대한 내 말이 필요할 때가 있습니다. 영상을 보면서 적고 싶은 메모. 내 표현으로 정리한 요약. 이 강연이 왜 중요한지 동료에게 설명하며 받아쓰고 싶은 문장 세 개 말이죠.

바로 여기서 데스크톱 음성 도구가 제값을 합니다. 그리고 이게 무엇을 하고 무엇을 하지 않는지 정확히 짚어둘 가치가 있습니다. Whisper by Remskill은 단축키로 작동하는 받아쓰기 앱입니다. 단축키를 누르고 마이크에 말하면, 지금 사용 중인 앱의 커서 위치에 말이 텍스트로 들어갑니다. 유튜브 링크를 받아 영상을 대신 받아써 주는 건 아닙니다. 그건 링크 붙여넣기 생성기의 일이지, 우리 일이 아닙니다. 우리가 하는 일은 영상을 보면서 타이핑 대신 말로 직접 메모를 남기게 해주는 것이고, 많은 사람에게는 이게 '이 영상 받아쓰기'라는 말 뒤에 숨은 진짜 할 일입니다.

영상을 보면서 메모를 말로 남기기

제가 쓰는 방식은 이렇습니다. 영상을 재생합니다. 남길 만한 게 나오면 단축키를 누른 채 메모를 소리 내어 말하고 손을 뗍니다. 텍스트가 문서에 나타납니다. 탭을 바꿀 일도, 타이핑하려고 멈출 일도, 흐름을 놓칠 일도 없습니다.

Windows에서는 기본 단축키가 Ctrl+Space입니다. macOS에서는 보조 키만 쓰는 푸시투토크 조합입니다. Command+Option을 함께 누른 채로 말하고, 둘 중 아무 키나 떼면 멈춥니다. 다른 것과 겹치면 설정에서 바꿀 수 있습니다. 녹음 오버레이가 듣고 있다는 걸 보여주니, 제대로 받았는지 추측할 일이 없습니다.

Cancel
메모를 받아쓰는 동안 나타나는 Whisper 녹음 오버레이 — 듣고 있다는 걸 보여줍니다.

변환은 두 가지 방식으로 돌아가고, 선택은 여러분 몫입니다. 로컬 모드는 두 개의 순수 Rust 엔진으로 자기 컴퓨터에서 돌아갑니다. 하나는 OpenAI Whisper로, 모델 크기는 약 140 MB부터 약 3 GB까지이며 다국어 버전에서는 99개 언어를 지원합니다. 다른 하나는 NVIDIA Parakeet TDT로, 25개 언어(영어와 24개 유럽 언어)를 다루는 약 600 MB짜리 단일 모델이며 둘 중 더 빠릅니다. 로컬 모드에서는 어떤 것도 노트북을 벗어나지 않습니다. 클라우드 모드는 자신의 OpenAI 키를 직접 쓰는 방식으로, 음성-텍스트 변환에 gpt-4o-mini-transcribe나 gpt-4o-transcribe를 사용합니다. 최신 모델과 웹 접근이 필요할 때를 위한 것이죠.

로컬 파이프라인은 로그인한 사용자라면 누구나 무료로 쓸 수 있고, 클라우드는 Whisper Pro 영역입니다.

여기서 제 편향을 솔직히 인정하겠습니다. 생산성 도구 대부분은 사실 타이핑 문제를 가린 것입니다. 메모 앱, 클립보드 관리자, 11겹으로 중첩된 데이터베이스를 가진 '제2의 뇌'. 그 밑에는 똑같은 행위가 있습니다. 이미 어떻게 말할지 아는 것을 담아내려고 손가락을 키보드 위에서 움직이는 일이죠. 받아쓰기는 키보드를 건너뜁니다. 말하기는 분당 약 145단어, 타이핑은 약 40단어 정도이니, 타이핑으로 1분 걸리던 영상 메모가 말로는 약 15초면 됩니다. 타이핑 문제의 해법은 보통 더 매끈한 앱이 아닙니다. 타이핑하지 않는 것입니다.

잘 됐는지 확인하기: 스크롤할 때를 빼고는 키보드에 손도 대지 않고 영상 전체를 보면서 메모 한 페이지를 채울 수 있습니다.

타임스탬프, SRT 파일, 그리고 다른 언어들

사람들이 요청하는 것 중에 출처가 다 다른 세 가지가 있는데, 정리해 드리겠습니다.

타임스탬프. 유튜브 내장 패널과 NoteGPT 둘 다 타임스탬프가 붙은 줄을 주는데, 숫자를 포함하거나 빼고 복사할 수 있습니다. 영상에 이미 있는 자막에 맞춰진 타임스탬프가 필요하다면 그걸 쓰세요. 마이크 받아쓰기 도구는 남의 영상에서 지금 어디인지 알지 못합니다.

SRT와 VTT 자막 파일. 이건 자막 내보내기 작업입니다. OpenAI 자체의 음성-텍스트 API는 whisper-1 모델로 srt와 vtt 형식을 출력할 수 있고, Descript 같은 편집 도구는 업로드한 미디어에서 자막 파일을 만들어냅니다. Whisper by Remskill은 커서 위치에 일반 텍스트를 붙여넣습니다. 단어를 앱 안으로 넣는 데 맞춰져 있지, .srt 파일을 만드는 용도가 아닙니다. 도구마다 맞는 일이 따로 있습니다.

다른 언어들. 링크 붙여넣기 생성기는 유튜브 자막 트랙에서 여러 언어를 처리합니다. 직접 다국어 메모를 받아쓰는 거라면, 로컬 Whisper 엔진은 다국어 모델에서 99개 언어를 지원하고 음성을 영어로 번역할 수 있습니다. Parakeet는 25개 언어를 다루며 번역은 하지 않습니다. 단계별 받아쓰기 설정은 음성-텍스트 변환 앱 가이드에서 처음부터 끝까지 안내합니다.

인터뷰와 녹음된 대화. 똑같은 파일 끌어다 놓기 방식이 녹음된 인터뷰도 처리합니다. 긴 대화에서 보통 깔끔한 화자별 텍스트를 원하는 경우죠. 인터뷰 자동으로 받아쓰는 법을 다룬 가이드가 그 구체적인 경우를 처음부터 끝까지 짚어줍니다.

Whisper
진짜 Whisper 앱 — 언어와 번역 컨트롤은 설정에 있습니다. 이리저리 눌러보세요.

Whisper를 아예 건너뛰어야 할 때

할 일이 공개 유튜브 영상을 텍스트로 읽는 것뿐이라면, Whisper는 건너뛰고 고민하지 마세요. 유튜브 내장 자막은 무료고, 즉시 쓸 수 있고, 이미 브라우저에 설치되어 있습니다.

다운로드 가능한 파일이나 더 깔끔한 사본이 필요하다면, Tactiq 같은 무료 생성기가 계정도 이메일도 없이 그 일을 해주고 .txt로 내보냅니다.

편집 중인 영상에 자막을 입히는 거라면, Descript 같은 본격 편집기(업로드한 미디어에서 30개 이상 언어와 최대 95% 정확도를 내세웁니다)가 맞는 범주이지 우리가 아닙니다. 우리는 그런 도구들이 손대지 않는 부분을 위한 것입니다. 영상을 보면서 음성으로 자신의 말을 담아내는 일이죠.

문장 세 개에 20분을 날린 그날 오후, 큰딸이 지나가다가 같은 10초를 네 번째로 긁어대는 저를 보더니 왜 그냥 읽지 않느냐고 물었습니다. 영상에 자막이 안 딸려 있다고 했죠. 딸은 이제 다 자막이 있다니까, 아빠, 하고는 한 시간 뒤에 어떻게든 빠져나갈 숙제를 하러 가버렸습니다. 딸 말이 거의 맞았습니다. 자막은 대개 이미 거기 있습니다. 영상 아래에, 링크 뒤에, 아니면 내 말로 단축키 하나 거리에 말이죠.

다음 영상에서 한번 써보세요

Whisper를 다운로드하고 다음 영상 메모는 타이핑 대신 받아써 보세요.

로컬 파이프라인 전체가 무료입니다. 가입 시 카드 필요 없습니다.

Denys Medvediev 사진

Denys Medvediev

저는 우리 고객 지원 메일을 읽는 사람입니다. 답장도 대개 받아쓰기로 하고요.

더 읽어보기