가이드
인터뷰를 자동으로 텍스트로 변환하는 법
인터뷰를 자동으로 텍스트로 변환하려면 녹음 파일을 음성-텍스트 변환 도구에 넣으세요. 프라이버시가 중요하다면 Buzz나 OpenAI Whisper 같은 무료 오픈소스 도구를 내 컴퓨터에서 실행하고, 화자 구분과 편집 기능이 필요하다면 클라우드 서비스를 이용하면 됩니다. 무료·비공개가 목적이면 로컬을, 화자 분리가 필요하면 클라우드를 선택하세요.
최종 업데이트: 2026년 6월

인터뷰를 자동으로 텍스트로 변환하려면 녹음 파일을 음성-텍스트 변환 도구에 넣으세요. 프라이버시가 중요하다면 Buzz나 OpenAI Whisper 같은 무료 오픈소스 도구를 내 컴퓨터에서 실행하고, 화자 구분과 편집 기능이 필요하다면 클라우드 서비스를 이용하면 됩니다. 무료·비공개가 목적이면 로컬을, 화자 분리가 필요하면 클라우드를 선택하세요.
조금 어색하지만 먼저 말씀드릴게요. 그 편이 10분을 아낄 수 있거든요. 이 블로그를 운영하는 앱인 Whisper by Remskill은 인터뷰 녹음을 텍스트로 변환하지 않습니다. 이 앱은 실시간 받아쓰기 도구입니다. 단축키를 누르고 말하면 현재 사용 중인 앱의 커서 위치에 바로 텍스트가 입력되는 방식이죠. 두 사람이 한 시간 동안 나눈 대화를 녹음해 화자 이름이 붙은 대본으로 받아보는 것과는 완전히 다른 일입니다. 이 가이드는 실제로 인터뷰 변환 작업을 해주는 도구들을 소개합니다. 우리 앱인 척하는 것보다 올바른 도구로 안내하는 편이 낫다고 생각하니까요.
인터뷰 대본 작업이 생각보다 까다로운 이유는 딱 하나입니다. 바로 화자 구분입니다. 단순한 변환 도구는 텍스트 덩어리만 줍니다. 대부분의 경우 각 발언 앞에 "인터뷰어:"와 "인터뷰이:"가 붙은 형태를 원하죠. 이를 화자 분리(diarization)라고 하는데, 모든 도구가 지원하는 건 아닙니다. 중요한 기준은 로컬이냐 클라우드냐입니다. 로컬 도구는 내 컴퓨터에서 실행되고, 비용이 없으며, 오디오가 어디에도 전송되지 않습니다. 클라우드 서비스는 파일을 업로드하지만 화자 레이블과 편집 기능을 제공하는 경향이 있습니다. 아래에서 솔직하게 정리해 드릴게요. 그리고 우리 앱이 어디에 맞고 어디에 맞지 않는지도요.
무료·비공개 방법: 내 컴퓨터에서 실행하기
인터뷰 내용이 민감하다면(보호가 필요한 취재원, 환자, 내부 임원 등) 녹음 파일은 절대 외부로 나가선 안 됩니다. 무료 오픈소스 도구들은 모두 기기 내에서 변환을 처리합니다.
OpenAI의 Whisper는 이 분야 도구 대부분이 기반으로 삼는 모델입니다. MIT 라이선스로 공개되어 있고, pip 명령 하나로 설치하며 커맨드 라인에서 오디오 파일을 변환합니다. 6가지 크기로 제공되며 그 중 4가지에는 영어 전용 버전이 있어서 하드웨어에 따라 속도와 정확도를 조절할 수 있습니다. 다국어를 지원하고 변환하면서 영어로 번역도 해줍니다. 인터뷰에서의 단점은 이겁니다. 기본 Whisper는 말을 그대로 받아쓰지만 누가 말했는지는 표시하지 않습니다. 화자 분리를 하려면 별도 도구를 추가하거나, 이 기능이 내장된 클라우드 서비스를 이용해야 합니다.
커맨드 라인이 불편하다면 Buzz가 가장 쉬운 선택입니다. Whisper를 기반으로 한 그래픽 앱으로, macOS, Windows, Linux에서 오프라인으로 오디오를 변환하고 번역할 수 있습니다. MIT 라이선스이고 무료입니다. 녹음 파일을 끌어다 놓고, 모델을 고르고, 기다리면 대본이 나옵니다. 인터뷰를 무료로 변환하려는 분들에게는 가장 빠른 방법입니다.
두 가지만 더 소개할게요. whisper.cpp는 Whisper의 C/C++ 포트로 CPU만 사용하며 Apple Silicon에 크게 최적화되어 있습니다. Python 없이 더 빠르지만 직접 빌드해서 커맨드 라인으로 실행해야 합니다. MacWhisper는 온디바이스 Whisper와 NVIDIA의 Parakeet를 기반으로 한 Mac 앱으로, 파일 변환에 특화되어 있어 인터뷰 용도에 딱 맞습니다. 이 도구들 모두 오디오를 내 기기에 보관합니다. 하지만 단독으로는 화자 레이블을 깔끔하게 제공하지 않습니다.
클라우드 서비스: 화자 레이블과 편집 기능 추가
여기서 프라이버시의 가치를 따져야 합니다. 전문 변환 서비스들은 녹음 파일을 서버에 업로드해 처리하고, 화자 이름이 붙은 대본을 편집 가능한 형태로 돌려줍니다. 이름을 수정하고 내보낼 수도 있습니다. 그 편의성은 진짜입니다. 공개된 팟캐스트나 패널 토론이라면 클라우드가 더 좋은 선택입니다.
다중 화자 레이블, 타임스탬프, 깔끔한 편집 화면이 필요하다면 받아쓰기 앱 대신 전문 회의·녹음 변환 서비스를 살펴보세요. 그 분야 전체를 정리한 글을 두 편 썼습니다. Otter.ai 대안 글과 Rev 대안 글인데요, 둘 다 화자 분리와 편집을 제대로 지원하는 클라우드 도구들을 다루고 있습니다.
제 의견을 솔직하게 말씀드릴게요. 비용 이야기가 따라옵니다. 한때 협업하던 팀이 있었는데, 외주 개발자가 음성 발화마다 클라우드 AI를 호출하는 내부 받아쓰기 프로토타입을 만들었습니다. 분기 말에 관리자가 비용 대시보드를 열었더니 다섯 자리 숫자가 떠 있었는데, 대부분은 재시도 로직이 너무 공격적이어서 스탠드업 녹음을 네 번씩 재변환한 비용이었습니다. CFO의 반응은 짧았습니다. ”이미 메모가 있는 회의를 업로드하는 데 돈 낼 필요 없잖아요.” 돈은 사실 작은 문제였습니다. 더 큰 문제는 내부 통화 4분의 1이 벤더 서버에 저장된다는 것이었습니다. 화자 레이블과 편집이 필요하다면 클라우드 변환은 정말 좋은 선택입니다. 하지만 외부에 나가면 안 되는 녹음이라면 틀린 선택이죠. 마케팅 문구가 아니라 그 기준으로 고르세요.
한 번에 결정하기
이 페이지에 오는 분들은 보통 세 유형입니다. 프라이버시를 중시하는 분, 마감이 급한 분, 그냥 화자 이름만 자동으로 붙었으면 하는 분. 이 중 두 유형은 로컬을 선택하면 됩니다.
- 무료이고 비공개여야 할 때 — Buzz(가장 간단) 또는 내 컴퓨터의 Whisper. 오디오가 외부로 나가지 않습니다.
- 화자 레이블과 편집 기능이 필요할 때 — 클라우드 변환 서비스. 오디오를 업로드해야 합니다. 그게 거래 조건입니다.
- Mac에서 파일 중심 앱을 원할 때 — MacWhisper, 온디바이스.
솔직한 최종 기준은 이겁니다. 녹음 내용이 민감하다면 답은 로컬, 끝입니다. 공개 강연이고 화자 분리를 자동으로 받고 싶다면 클라우드가 제값을 합니다. 인터뷰 변환의 대부분은 첫 번째 경우라서 무료 로컬 도구를 먼저 소개한 겁니다. 변환 속도가 걱정된다면 오디오 빠르게 변환하기 가이드에서 속도를 높이는 방법을 확인하세요.
Whisper by Remskill이 실제로 맞는 용도
이제 선을 명확히 그어야 할 시간입니다. 이 글의 최악의 결과는 녹음 파일을 처리해줄 거라 기대하며 우리 앱을 내려받는 것이니까요. 그런 기능은 없습니다. Whisper by Remskill은 받아쓰기 우선 도구입니다. 단축키를 누르면 실시간 음성이 변환되어 현재 사용 중인 앱의 커서 위치에 붙여넣기됩니다. "인터뷰 파일 업로드" 버튼도 없고 화자 분리도 없습니다. 지금 이 순간 당신의 목소리, 딱 하나를 위해 만들어진 도구입니다.
그렇다면 인터뷰어가 이 앱을 어떻게 활용할 수 있을까요? 인터뷰 자체가 아니라 인터뷰 주변 작업에 씁니다. 인터뷰 전에 준비 질문을 문서에 받아쓰기. 대화가 끝난 직후 인상이 생생할 때 후속 메모를 음성으로 남기기. 대본이 완성되면 기사를 음성으로 초안 잡기. Windows에서 기본 단축키는 Ctrl+Space이며 자유롭게 바꿀 수 있습니다. 로컬 파이프라인 전체는 가입 후 카드 없이 무료로 사용할 수 있습니다. OpenAI 기반 변환과 실시간 받아쓰기용 웹 검색을 추가하는 유료 클라우드 티어도 있지만, 그것도 어디까지나 음성으로 타이핑하는 기능이지 두 사람의 녹음을 변환하는 게 아닙니다.
인터뷰 관련 글쓰기에는 이 앱을 쓰세요. 인터뷰 녹음 자체에는 Buzz나 클라우드 서비스를 쓰세요. 도구마다 역할이 다릅니다. 설치하기 전에 이걸 알고 계셨으면 합니다.
마지막으로
변환할 가치가 있는 인터뷰 녹음은 대개 업로드하기 가장 꺼려지는 것들입니다. 비공개 발언, 나를 믿어준 취재원, 환자의 이야기. 그게 바로 무료 로컬 도구가 존재해야 하는 이유입니다. 파일이 내 노트북 안에 머물거든요. 저도 한번은 주말 내내 모델 설정을 다듬어가며 잡음 섞인 오디오를 개선하려다가, 진짜 문제가 팬 바로 15센티미터 앞에 놓인 노트북 내장 마이크라는 걸 뒤늦게 알아챘습니다. 저 석사 학위 있습니다. 그냥 마이크부터 사세요.
그리고 대본이 완성되어 본격적으로 글을 써야 할 때, 그때 비로소 우리 앱이 뒤에서 나서게 됩니다.
대본이 완성되면, 음성으로 기사를 쓰세요
Buzz나 클라우드 서비스로 인터뷰를 변환하세요. 그런 다음 Whisper by Remskill을 내려받아 기사를 받아쓰기하세요. 이게 바로 우리가 만들어진 인터뷰 워크플로의 한 부분입니다. 로컬 파이프라인은 무료이며 가입 시 카드가 필요 없습니다.
로컬 받아쓰기는 영원히 무료입니다. 가입 시 결제 수단이 필요 없습니다. 녹음 변환은 지원하지 않으므로 로컬 도구나 클라우드 서비스를 이용하세요.



