작성자: Denys Medvediev

설명

프라이빗 음성 텍스트 변환, 내 기기에서

프라이빗 음성 텍스트 변환이란 내 기기에서 직접 음성을 변환하는 것으로, 서버에 아무것도 업로드되지 않습니다. Local Whisper와 Parakeet는 완전히 오프라인으로 작동합니다. 반면 클라우드 받아쓰기는 오디오를 외부로 전송해 변환합니다.

마지막 업데이트: 2026년 6월

어두운 조명 아래 노트북 키보드 위에 놓인 자물쇠, 기기 내 개인정보 보호를 상징

프라이빗 음성 텍스트 변환은 사용자 기기에서 직접 변환이 이루어지므로, 녹음된 음성이 기기 밖으로 나가지 않습니다. Whisper와 Parakeet 같은 로컬 엔진은 서버에 아무것도 전송하지 않고 완전히 오프라인으로 작동합니다. 클라우드 받아쓰기 서비스는 오디오를 원격 서버로 업로드해 변환합니다. 최대한의 프라이버시를 원한다면 로컬 오프라인 도구를 선택하세요.

모든 받아쓰기 도구는 자신이 프라이빗하다고 주장합니다. 하지만 대부분은 그렇지 않습니다. '프라이빗'이라는 단어가 '업로드를 암호화한다'거나 '30일 후 삭제한다'는 의미로 확장되는데, 이것은 여전히 내 목소리가 기기를 떠나 누군가의 서버에 잠시 머물렀다가 내 것이 아닌 컴퓨터에서 변환됐다는 뜻입니다. 그건 개인정보 처리방침이지, 프라이버시가 아닙니다. 이 단어에는 진짜이고 좁은 의미가 있습니다. 변호사에게 보내는 이메일을 도구에 맡기기 전에 그 의미를 제대로 이해할 가치가 있습니다.

솔직한 정의는 간단합니다. 프라이빗 음성 텍스트 변환이란 오디오가 내 기기에서 텍스트로 변환되고, 어디에도 전송되지 않는 것입니다. 업로드도, 서버도, 인터넷도 필요 없습니다. 이런 방식이 실제로 존재하고, 로컬 파이프라인은 무료이며, 이미 가지고 있는 노트북에서 실행됩니다. 단, 솔직히 말씀드리자면, 더 높은 정확도를 위해 클라우드 모드를 선택하는 순간 그 약속은 달라집니다. 그 경계선을 명확하게 그어드리겠습니다.

마케팅 문구에 묻혀버리는 핵심이 여기 있습니다. '프라이빗'은 느낌이 아니라, 하나의 답이 있는 질문입니다. 오디오가 기기를 떠나느냐, 그렇지 않느냐. 떠난다면, 원칙적으로 나 이외의 누군가가 들을 수 있습니다. 떠나지 않는다면, 그럴 수 없습니다. 암호화, 보존 기간, 컴플라이언스 인증 등 나머지 모든 것은 오디오가 떠났을 때를 대비한 사후 처리일 뿐입니다.

그래서 진짜 질문은 '이 도구가 프라이빗한가'가 아닙니다. '내 음성이 내 컴퓨터에서 변환되는가, 아니면 그들의 컴퓨터에서 변환되는가'입니다. Local Whisper와 Parakeet는 인터넷 없이 내 RAM에 모델을 올려 내 기기에서 변환합니다. 클라우드 받아쓰기는 그들의 서버에서 변환합니다. 이 가이드는 그 차이가 실제로 무엇을 의미하는지, 로컬 버전을 2분 안에 설정하는 방법, 그리고 클라우드로 오디오를 전송하는 것이 합리적인 선택이 되는 유일한 예외 상황을 설명합니다.

음성 텍스트 변환에서 '프라이빗'이 실제로 의미하는 것

노트북 트랙패드 위에 놓인 잠긴 자물쇠, 기기 내 데이터 프라이버시를 상징

프라이빗 음성 텍스트 변환은 한 가지를 의미합니다. 녹음된 음성이 내 기기에서 텍스트로 변환되고, 오디오는 절대 기기 밖으로 나가지 않는 것입니다. 서버 업로드도, 인터넷 왕복도, 제3자도 없습니다. 변환은 내 메모리와 CPU에서 맞춤법 검사처럼 이루어지고, 그러면 오디오는 사라집니다. 이것이 전부이며, '프라이빗'이라는 단어를 사용하는 대부분의 도구는 이 기준을 충족하지 못합니다.

'프라이빗'으로 팔리는 것은 보통 문에 더 좋은 자물쇠를 단 클라우드 버전입니다. 오디오는 여전히 변환을 위해 공급업체 서버로 전송되고, 공급업체는 전송 중 암호화하고 일정 기간 후 삭제하겠다고 약속할 뿐입니다. 그것이 아무것도 없는 것보다는 낫고, 많은 사람들에게는 충분합니다. 하지만 오디오가 떠나지 않는 것과는 다릅니다. 삭제하겠다는 것은 약속입니다. 기기 내 처리는 사실입니다. 아무것도 전송되지 않았으니 삭제할 것도 없습니다. 프라이버시가 정말 중요할 때, 즉 연봉 수치, 진료 기록, 절대 인덱싱되길 원하지 않는 초안 등을 다룰 때, 약속과 사실의 차이가 모든 것을 결정합니다.

기기 내 변환이 지금 가능해진 이유는 모델이 작아지고 노트북이 빨라졌기 때문입니다. 몇 년 전만 해도 좋은 음성 인식을 실행하려면 데이터 센터가 필요했고, 그래서 모든 것이 클라우드로 갔습니다. 오늘날 오픈 Whisper 모델은 중급 노트북에서 로컬로 실행되고, Parakeet는 그보다 더 빠릅니다. 클라우드는 더 이상 발목을 잡지 않는 하드웨어를 위한 우회로였습니다. 프라이빗 음성 텍스트 변환은 추가 비용을 내는 프리미엄 기능이 아닙니다. 실용적이 된 기본값이며, 이 가이드의 나머지는 그것을 사용하는 방법에 대한 것입니다.

대부분의 클라우드 받아쓰기가 프라이빗하지 않은 이유

클라우드 받아쓰기 도구에서 키를 누르면 이런 일이 일어납니다. 마이크가 몇 초간 오디오를 녹음하고, 그 파일이 인터넷을 통해 서버로 전송되고, 서버의 모델이 변환한 다음, 텍스트가 화면으로 돌아옵니다. 전체 과정이 채 1초도 걸리지 않을 수 있어서 눈에 보이지 않는 것처럼 느껴집니다. 하지만 내 음성, 즉 단어만이 아닌 실제 녹음 파일이 내가 통제하지 않는 기계를 다녀온 것입니다.

Windows 음성 입력이 가장 명확한 예입니다. 대부분의 사람들이 이미 가지고 있으니까요. Windows 키 + H를 누르면 포커스가 있는 필드에 음성을 입력하는 작은 바가 열립니다. 잘 작동합니다. 하지만 이것은 Microsoft의 온라인 음성 인식, 즉 클라우드 서비스입니다. 그래서 인터넷 연결이 필요하고 비행기 안에서는 작동하지 않습니다. 오디오가 텍스트가 되기 위해 Microsoft 서버로 갑니다. 오늘날 출시되는 대부분의 'AI 받아쓰기' 앱도 마찬가지입니다. 핵심 부분이 다른 사람의 하드웨어에서 실행되고, 조용한 월정액 청구서가 그것을 빌리는 비용입니다. 로컬 도구는 듣는 동안 작은 캡슐을 표시하고, 녹음된 오디오는 절대 노트북을 떠나지 않습니다:

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐. 로컬 엔진을 사용하면 캡처된 오디오가 기기 내에서 변환되어 업로드되지 않습니다.

클라우드 변환이 나쁘다고 말하는 게 아닙니다. 나중에 클라우드가 제 역할을 하는 경우를 위해 변호하겠습니다. 마케팅 용어 '프라이빗'이 보통 업로드의 부재가 아닌 업로드의 잠금장치를 설명한다는 것을 말하는 겁니다. 클라우드 전용 받아쓰기는 언제 터질지 모르는 프라이버시 위협이며, 가장 먼저 피해를 보는 것은 청구서를 볼 수 없는 사람들입니다. 한번은 팀이 분기 한 번에 수만 달러의 클라우드 AI 비용을 쌓는 것을 지켜본 적이 있습니다. 주로 같은 스탠드업 녹음을 네 번이나 다시 전송한 '스마트 재시도' 버그 때문이었습니다. CFO가 분기 검토에서 대시보드를 열었을 때 회의실이 아주 조용해졌습니다. 아무도 그 모든 오디오를 서버로 보내기로 결정하지 않았습니다. 도구가 그렇게 작동하기 때문에 매번 그냥 그렇게 했을 뿐입니다.

로컬 음성 텍스트 변환이 프라이버시를 지키는 방법

프라이빗 버전은 완전히 내 기기에서 실행됩니다. 단축키를 누르고, 말하고, 놓으면, 이미 내 RAM에 로드된 모델이 오디오를 텍스트로 변환해 커서 위치에 붙여넣습니다. 인터넷도, 서버도, 아무것도 전송되지 않습니다. Apple Silicon Mac 또는 Windows 10 이상 PC, 작동하는 마이크, 그리고 몇 분이면 됩니다. 전체 로컬 파이프라인은 로그인된 계정이라면 무료이며, 가입 시 결제 수단이 필요하지 않습니다. 순서는 다음과 같습니다.

1단계 — Whisper 설치 및 로그인.

다운로드 페이지에서 다운로드하고, 설치한 후 무료 계정을 만드세요. 카드 불필요. 전체 로컬 변환 파이프라인이 오프라인으로 즉시 열립니다.

앱 트레이 아이콘이 나타나고 설정 마법사가 모델 선택을 제안하면 작동한 것입니다.

2단계 — 로컬 변환 경로 선택.

앱이 대신 선택해주지 않습니다. 프라이빗 오프라인 받아쓰기를 위해 Local Parakeet 또는 Local Whisper를 선택하세요. 둘 다 내 기기에서 실행됩니다. 세 번째 옵션인 Cloud는 오디오를 업로드하므로 프라이버시가 목적이라면 끄세요.

로컬 모델 다운로드가 완료되고 준비 완료로 표시되면 작동한 것입니다.

3단계 — 단축키 확인.

Windows 기본값은 Ctrl+Space, Mac은 Command+Option을 누른 채로 푸시-투-토크 방식입니다. Mac에서는 프롬프트가 뜰 때 손쉬운 사용 권한을 허용하세요. 없으면 커서 위치에 붙여넣기가 다른 앱에 도달할 수 없습니다.

테스트 녹음이 모든 텍스트 필드에 붙여넣어지면 작동한 것입니다.

4단계 — 네트워크 케이블을 뽑고 말해보세요.

이것이 프라이버시 테스트입니다. Wi-Fi를 끄고, 임의의 텍스트 상자에 커서를 놓고, 단축키를 누른 채 문장을 말하고 놓으세요. 모델이 로컬에서 실행되므로 변환 결과가 여전히 나타납니다.

인터넷이 완전히 꺼진 상태에서도 받아쓰기가 작동하면 성공입니다.

Whisper
설정 화면의 실제 Whisper 데스크톱 앱으로, 로컬 변환 및 AI 패널이 열려 있습니다.

느린 부분은 한 번만 필요한 모델 다운로드로, 이때는 당연히 인터넷이 필요합니다. 이후에는 로컬 모드에서 오디오가 절대 온라인으로 가지 않습니다. 4단계의 케이블 뽑기 테스트는 눈속임이 아닙니다. 그게 유일하게 중요한 증거입니다. 네트워크가 꺼진 상태에서 받아쓰기가 계속 작동한다면, 오디오가 기기에서 변환되고 있는 것입니다. 멈추면 어딘가로 가고 있었던 겁니다. 이 한 가지 테스트가 모든 마케팅 페이지의 모든 '프라이빗' 주장을 꿰뚫습니다.

Windows에서 음성으로 텍스트 입력 · Mac에서

AI 정리도 내 기기 안에서 가능합니다

대부분의 사람들이 물어봐야 한다는 것을 깨닫지 못하는 부분이 여기 있습니다. 원시 받아쓰기는 문장 부호 없이 이어지는 덩어리로 나오고, 가끔 '음' 같은 군말이 들어가며, 문장이 길게 늘어집니다. 해결책은 텍스트를 실제로 쓸 만한 것으로 정리하는 AI 처리 과정입니다. 그런데 많은 '프라이빗' 로컬 도구들이 바로 이 지점에서 슬그머니 외부에 연결합니다. 기기 내에서 변환하고 나서 지저분한 변환 결과물을 클라우드 모델로 보내 정리하는 것입니다. 오디오는 프라이빗하게 남았지만, 단어는 그렇지 않았습니다.

Whisper는 Ollama를 통해 정리도 로컬에서 처리합니다. Ollama는 내 기기의 localhost에서 실행되고 인터넷에 절대 접근하지 않는 무료 로컬 모델 실행기입니다. 활성화 문구 "Hey whisper"를 말하면 텍스트가 커서 위치에 도달하기 전에 개선되며, 모든 처리가 노트북 안에서 이루어집니다. 그래서 연결 고리가 끊어지지 않습니다. 음성이 내 기기에서 텍스트가 되고, 그 텍스트가 내 기기에서 정리됩니다. 문장의 어떤 것도, 오디오도, 초안도, 정리된 버전도 절대 나가지 않습니다.

프라이빗하다고 주장하는 모든 도구에서 확인해야 할 세부 사항이 바로 이것입니다. 변환을 로컬로 유지하고 개선 과정을 슬쩍 클라우드로 보내기 쉽습니다. 개선에 큰 모델이 필요하고, 큰 모델은 빌리기 유혹적이기 때문입니다. 평범한 진실은, 일상적인 받아쓰기에는 Ollama를 통한 로컬 모델로 문장 부호를 수정하고 군말을 제거하기에 충분하다는 것입니다. 진정으로 더 어려운 것을 요청할 때만 클라우드 모델이 필요하며, 그것은 여러분이 의도적으로 내려야 할 선택입니다. 도구가 백그라운드에서 대신 내려주는 것이 아니라.

프라이빗 워크플로에서 로컬과 클라우드 중 어느 모드가 맞을까

프라이빗하다고 부를 만한 모든 것에는 로컬부터 시작하세요. Mac이 Apple Silicon이거나 PC가 최근 몇 년 내 제품이라면, 로컬 엔진이 일상적인 받아쓰기를 거뜬히 처리하며, 클라우드는 기본값이 아닌 탈출구가 됩니다. 앱이 의도적으로 경로를 선택하게 만들며, 기본값을 강제하지 않습니다. 세 가지 차이점을 프라이버시 관점에서 명확하게 보여드립니다.

선택은 오디오가 처리되는 위치와 변환에서 무엇이 필요한지에 달려 있습니다.

  • Local ParakeetNVIDIA의 TDT 엔진으로 약 600 MB이며, 가장 빠른 로컬 옵션입니다. CPU에서 Whisper보다 5~10배 빠릅니다. 영어 외 24개 유럽 언어, 총 25개 언어를 지원합니다. 영어로 번역하는 기능은 없습니다. 완전히 기기 내에서 처리되며 업로드 없음. 영어나 다른 유럽 언어를 사용한다면 빠른 프라이빗 선택입니다.
  • Local Whisper같은 기기에서 Parakeet보다 느리지만, 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다. 영어 전용 빌드는 영어만, 99개가 아닙니다. 마찬가지로 완전히 기기 내 처리. Parakeet가 지원하지 않는 중국어, 일본어, 한국어나 번역 작업에는 이것을 선택하세요. 기본 영어 모델은 약 480 MB입니다.
  • Cloud (OpenAI, BYOK)최고의 정확도와 웹 접근성을 제공하며, OpenAI에 직접 청구되는 내 OpenAI 키를 사용합니다. 변환 기본값은 gpt-4o-mini-transcribe입니다. 이것이 오디오를 업로드하는 유일한 경로로, 기기를 떠나 OpenAI에 도달합니다. 옵트인 방식이며 Whisper Pro의 일부로, 켜지 않으면 꺼져 있습니다.

경계선은 명확합니다. 두 개의 로컬 경로는 구조적으로 프라이빗합니다. 오디오가 기기에서 변환되며 유출될 것이 없습니다. 클라우드 경로는 그렇지 않으며, 우리는 그것을 숨기지 않습니다. OpenAI의 정확도와 실시간 웹 접근성을 얻는 유일한 방법이기 때문에 내 키로 OpenAI에 오디오를 전송합니다. Mac이 M 시리즈이거나 PC가 최근 제품이라면, 로컬 모드로 시작하세요 그리고 로컬이 정말로 부족할 때만 클라우드를 선택하세요. 클라우드는 물려받은 기본값이 아닌, 내가 선택하는 예외입니다.

각 모드에서 실제로 기기를 떠나는 것

데이터에 대해 구체적으로 이야기해봅시다. '프라이빗'은 무엇이 이동하는지 명시하지 않으면 의미가 없습니다. 로컬 모드에서 답은 아무것도 없다는 것입니다. 오디오도, 변환 결과도, 정리된 버전도 없습니다. 녹음은 내 RAM에서 처리되고, 정리는 내 기기의 Ollama를 통해 실행되며, 이동한 것은 모델에서 텍스트 상자로 들어간 단어들뿐입니다. 네트워크를 뽑은 상태에서 확인할 수 있습니다.

AI 정리가 실행될 때, 로컬 모델이 이어진 문장을 읽을 수 있는 텍스트로 수정하는 동안 오버레이가 개선 중 상태를 표시합니다. 이것이 로컬 모드일 때 기기 내에서 이루어지는 변환의 예시입니다. 위는 원시 받아쓰기, 아래는 정리된 텍스트입니다.

Thinking...
AI 정리 중인 오버레이. 로컬 모드에서는 내 기기의 Ollama를 통해 실행되므로 텍스트가 외부로 나가지 않습니다.
원본

okay so send the q3 numbers to marcus before the board call and flag the margin dip um but dont cc the whole finance list

정리됨

Okay, so send the Q3 numbers to Marcus before the board call and flag the margin dip — but don't cc the whole finance list.

클라우드 모드에서는 솔직한 계산이 다릅니다. 스위치를 켜기 전에 알아두세요. 오디오가 내 API 키로 OpenAI의 변환 엔드포인트에 업로드되어 텍스트로 변환됩니다. Cloud AI 개선도 사용하면 변환 결과가 GPT 모델로 가고, 웹 검색을 사용하면 쿼리도 나갑니다. 어느 것도 Remskill을 통하지 않습니다. 내 키로 내 기기에서 OpenAI로 직접 연결됩니다. 하지만 기기를 떠난다는 것이 프라이빗인지 아닌지를 정의하는 유일한 것입니다. Q3 숫자와 Marcus에 대한 그 문장은 내가 로컬로 유지하고 싶은 것입니다. 재미로 받아쓰는 레시피라면, 솔직히 상관없습니다.

말하고 정리하는 동일한 흐름이 모든 앱에서 작동하므로, 설정이 완료되면 음성으로 더 빠르게 입력할 수 있습니다 편집기, 이메일, 터미널 전반에서, 로컬 모드에서는 노트북을 떠나는 것 없이 프라이빗하게.

클라우드로 오디오를 보내는 것이 합리적인 선택일 때

책상 위의 저울, 프라이버시와 정확도 사이의 균형을 상징

로컬이 항상 답이라고 하면 거짓말이 됩니다. 때로는 클라우드가 올바른 선택이며, 프라이버시 측면을 밀기 위해 그렇지 않은 척하는 것은 지금까지 여섯 섹션 동안 불평해온 것과 같은 마케팅 불성실이 됩니다. 교환은 실재합니다. 기기를 절대 떠나지 않는다는 보장을 포기하고, 같은 단축키로 최고의 변환 정확도와 실시간 웹 접근성을 얻습니다.

내용이 민감하지 않고 정확도가 중요할 때 클라우드 모드를 선택하세요. 팟캐스트 변환, 공개 블로그 초안, 장보기 목록, 강한 억양이나 시끄러운 방에서 로컬 모델이 실수하는 어려운 녹음, 이런 것들은 기기에 남아있을 필요가 없으며, OpenAI 모델이 더 깔끔하게 처리합니다. 내 API 키를 사용하므로 오디오가 OpenAI로 직접 가고 분당 비용이 중간 마진 없이 내게 청구됩니다. 품질이 목적인 민감하지 않은 작업에는 합리적인 교환입니다. 실수는 클라우드를 사용하는 것이 아닙니다. 서버에 절대 올리고 싶지 않은 것을 포함해 모든 것에 기본으로 클라우드를 사용하는 것입니다.

정말 짧은 내용이라면 전용 도구를 아예 건너뛰세요. 30단어 텍스트를 받아쓰는 것이라면, Windows 키 + H 또는 macOS 받아쓰기가 무료이고 이미 설치되어 있습니다. 단, Windows 음성 입력 자체가 클라우드 서비스이므로 프라이빗 옵션이 아닌 편리한 옵션이라는 점을 참고하세요. Apple Silicon에서는 macOS 받아쓰기가 일반 텍스트를 기기 내에서 처리할 수 있어, 짧은 내용에 실제로 프라이빗한 유일한 내장 기능입니다. 200단어 미만이라면 아무것도 설치하라고 권하지 않겠습니다. 전용 도구가 빛을 발하는 건, 노트가 길어질 때, Windows에서 오프라인 프라이버시를 원할 때, 또는 어디서나 동일하게 작동하는 하나의 단축키를 원할 때입니다.

주로 프라이버시 보장 때문에 도구를 선택한다면, 이 주장의 더 깊은 버전이 오프라인 음성 텍스트 변환 가이드에 있으며, 네트워크를 뽑은 상태에서 모든 것을 실행하는 방법을 안내합니다.

'프라이빗'은 이 분야에서 가장 남용되는 단어이자 테스트하기 가장 쉬운 단어입니다. 네트워크를 뽑고 여전히 작동하는지 보세요. Local Whisper와 Parakeet는 오디오가 절대 기기를 떠나지 않기 때문에 그 테스트를 통과합니다. AI 정리도 통과합니다. Ollama가 바로 옆에서 실행되기 때문입니다. 클라우드 모드는 의도적으로 실패합니다. OpenAI의 정확도를 빌리는 것이고, 그것은 올바른 작업에서는 합리적인 교환입니다. 저는 Wi-Fi를 끈 상태로 이 가이드 대부분을 받아쓰기했습니다. 강력한 제품 시연이거나 제가 좀 더 밖에 나가야 한다는 신호이거나 둘 중 하나입니다. 둘 다 사실일 수 있습니다.

지금 바로 프라이빗하게 받아쓰기 시작하세요

로컬 모델을 선택하고, 네트워크를 뽑고, 말하세요. 변환 결과가 커서에 나타납니다. 음성은 노트북을 떠나지 않았습니다.

로그인된 계정이라면 로컬 모드 무료. 시작에 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

고객 지원 이메일을 읽는 사람이 저입니다. 아마도 받아쓰기로 답변하고 있을 겁니다.

더 읽을거리