작성자: Denys Medvediev

설명

NVIDIA Parakeet 모델

Parakeet는 NVIDIA의 오픈 소스 음성-텍스트 변환 모델입니다. 현재 빌드인 parakeet-tdt-0.6b-v3는 약 600 MB로, 오프라인에서 실행되며 CPU 기준으로 Whisper보다 5~10배 빠릅니다. 이 모델이 무엇인지, 어떤 점이 다른지 정리했습니다.

최종 업데이트: 2026년 6월

프로세서 칩 위의 추상적인 파란색 오디오 파형. 기기 내 음성 인식을 표현합니다

NVIDIA Parakeet 모델은 FastConformer 인코더와 Token-and-Duration Transducer 디코더를 기반으로 한 오픈 소스 음성-텍스트 변환 모델입니다. 현재 릴리스인 parakeet-tdt-0.6b-v3는 약 6억 개의 파라미터를 가지며, 영어를 포함한 유럽 언어 25개를 전사할 수 있고, CPU에서 Whisper보다 5~10배 빠르게 동작합니다. 영어 번역 기능은 없습니다.

대부분의 사람들은 "Parakeet"라는 단어를 들으면 새를 떠올리지만, 사실은 음성-텍스트 변환 모델입니다. NVIDIA가 만들었고, 관대한 라이선스로 공개되어 있으며, 일상적인 받아쓰기에 쓰이는 버전은 parakeet-tdt-0.6b-v3입니다. "0.6b"는 파라미터 수로, 약 6억 개입니다. 디스크 용량은 약 600 MB입니다. 노트북에 상주하면서 서버에 연결할 필요가 없을 만큼 작은 크기입니다.

제가 이 모델에 관심을 갖는 이유는 단순합니다. 우리가 직접 탑재했기 때문입니다. Parakeet는 Whisper 내부의 로컬 엔진 중 하나로, OpenAI의 Whisper 모델 바로 옆에 자리합니다. 가장 많이 받는 질문이 "어느 걸 써야 하나요, 그리고 왜 이 새가 그렇게 빠른가요?"입니다. 이 글은 그에 대한 솔직한 답변입니다. Parakeet가 실제로 무엇인지, 디코더가 어떻게 속도를 높이는지, 그리고 어떤 상황에서 Whisper를 선택해야 하는지를 설명합니다.

모델 카드의 전문 용어 속에 묻혀 있는 핵심이 있습니다. Parakeet는 전사 모델이며, 오직 전사만 합니다. 오디오를 듣고 구두점과 대소문자를 포함해 내용을 텍스트로 받아씁니다. 요약하지 않고, 영어로 번역하지 않으며, 핫워드도 받지 않습니다. 하는 일은 하나지만, 그 일은 매우 빠르게 합니다.

따라서 "Parakeet 대 Whisper, 누가 이기나?"라는 식으로 비교하는 건 적절하지 않습니다. 각각이 어떤 용도에 맞는지를 따져야 합니다. Parakeet는 완전한 오프라인 환경에서 빠르게 동작하는 영어·유럽어 특화 선택지입니다. Whisper는 99개 언어 지원, 영어 번역, 세밀한 설정이 가능한 선택지이지만 같은 기기에서는 더 느립니다. 속도에 대해 설명하고, 지원 언어 목록을 정확히 알려드리고, Parakeet를 약 2분 안에 무료로 로컬에서 실행하는 방법을 보여드리겠습니다.

Parakeet 모델이란 무엇인가

빛나는 프로세서가 장착된 회로 기판 클로즈업. 기기 내 로컬 전사를 표현합니다

Parakeet는 NVIDIA가 공개한 자동 음성 인식 모델 패밀리입니다. 우리가 탑재한 모델, 그리고 대부분의 사람들이 말하는 모델은 parakeet-tdt-0.6b-v3로, 2025년 8월에 CC-BY-4.0 라이선스로 출시되었습니다. "0.6b"는 6억 개의 파라미터를 의미합니다. 다운로드 용량은 약 600 MB입니다. Whisper 내부에서는 순수 Rust 전사 레이어인 transcribe-rs를 통해 실행되는 ONNX 모델로 작동합니다. Python 런타임도 없고, 별도의 프로세스도 필요 없습니다.

이 모델의 역할은 좁고, 그 점에 솔직합니다. Parakeet는 오디오를 받아 자동 구두점과 대소문자를 포함한 텍스트를 반환하며, 요청 시 단어 단위 타임스탬프도 제공합니다. 언어는 스스로 감지합니다. 사용자가 따로 설정할 필요가 없습니다. 하지 않는 것도 마찬가지로 중요합니다. 영어 번역 없음, 커스텀 어휘 바이어싱 없음, "이 단어를 우선시해라"는 핫워드 목록 없음. 전사만 합니다. 그게 이 모델의 전부입니다.

이름에 붙은 "TDT"가 흥미로운 부분으로, 모델이 단순히 작은 것을 넘어 빠른 이유입니다. TDT는 Token-and-Duration Transducer의 약자입니다. 인코더는 FastConformer로, 대부분의 현대 음성 모델이 사용하는 Conformer 아키텍처를 NVIDIA가 효율적으로 개선한 것입니다. 빠른 인코더와 영리한 디코더의 조합이 바로 그 수치 뒤에 있는 엔지니어링이며, 별도의 섹션에서 설명할 가치가 있습니다.

Token-and-Duration Transducer가 빠른 이유

기존 트랜스듀서 모델은 오디오를 아주 작은 프레임 단위로 순서대로 처리하면서, 각 프레임마다 "여기에 새로운 단어 조각이 있나, 없나?"를 묻습니다. 대부분의 경우 답은 "없다"입니다. 빈 값을 내보내고 한 프레임 앞으로 나아가서 다시 묻습니다. 이 빈 값 반복 루프가 작업의 대부분이자 낭비되는 시간의 대부분입니다. 마치 문장을 픽셀 하나씩 읽는 것과 같습니다.

Token-and-Duration Transducer는 질문을 바꿉니다. 다음 토큰만 예측하는 대신, 토큰과 함께 다음 토큰까지 몇 프레임을 건너뛸지도 예측합니다. 긴 모음이나 침묵이 이어지는 구간이 있으면, 모델이 프레임 하나씩 처리하는 대신 한 번에 건너뜁니다. 디코딩 단계가 줄고, 결과 텍스트는 동일합니다. 이 지속 시간 예측이 바로 "TDT"라는 이름이 가리키는 트릭이며, 속도의 근원입니다.

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있음을 알려줍니다.

사용자 입장에서는 이런 내부 동작이 전혀 보이지 않습니다. 단축키를 누르고, 말하고, 놓으면 커서 위치에 텍스트가 나타납니다. 위에 보이는 오버레이 캡슐이 Whisper가 듣는 동안 보이는 전부입니다. 디코더의 수학은 눈에 보이지 않는 배관입니다. 하지만 그 덕분에 Parakeet는 비교 가능한 Whisper 모델이 아직 빈 프레임을 처리하는 동안 오디오 청크 하나를 끝냅니다. CPU에서 그 차이는 "즉각적"과 "기다려야 함" 사이의 차이입니다.

Parakeet vs. Whisper, 마케팅 없이

사람들은 이걸 대결 구도로 봅니다. 그렇지 않습니다. 두 도구는 서로 다른 모양을 가지고 있으며, 앱 내에서 둘 다 설치해 두고 녹음마다 전환할 수 있습니다. 가장 명확하게 정리하면 이렇습니다. Parakeet는 속도와 오프라인 단순성을 최적화하고, Whisper는 커버리지와 제어력을 최적화합니다.

Parakeet가 더 빠릅니다. NVIDIA 자체 발표와 저희 실행 결과 모두에서, CPU 기준 Whisper보다 5~10배 빠릅니다. 25개 언어를 지원하며 모두 유럽어이고, 영어도 포함됩니다. 구두점과 대소문자를 기본으로 처리합니다. 포기하는 것도 있습니다. 다른 언어를 영어로 번역할 수 없고, 핫워드나 커스텀 어휘 바이어싱이 없으며, Whisper의 다국어 빌드가 기본으로 처리하는 비유럽어들(중국어, 일본어, 한국어, 아랍어, 힌디어)을 다루지 않습니다.

OpenAI의 다국어 빌드 기준으로 Whisper는 99개 언어에 도달하며, 그중 어떤 언어든 영어로 번역할 수 있습니다. Parakeet에는 없는 설정도 제공합니다. 빔 크기, 초기 프롬프트, 이름이나 전문 용어를 위한 핫워드 바이어싱입니다. 대신 동일한 하드웨어에서 처리 시간이 더 걸리고, 더 큰 모델은 더 많은 RAM을 사용합니다. 결론은 단순합니다. 영어나 다른 유럽어를 빠르게 처리하고 싶다면 Parakeet, 번역이나 비유럽어, 세밀한 제어가 필요하다면 Whisper입니다. 솔직히 말하면, 둘 다 써본 사람들의 대부분은 결국 둘 다 유지합니다.

실제 수치: 속도, 그리고 25개 언어

도시들을 연결하는 빛의 흔적이 있는 빛나는 세계 지도. 다양한 언어와 빠른 처리를 표현합니다

속도부터 시작합니다. Parakeet가 우리 앱에 포함된 이유가 바로 속도이기 때문입니다. NVIDIA가 밝힌 수치는 CPU 기준 Whisper보다 5~10배 빠르다는 것이며, 저희가 확인한 결과와 일치합니다. 공개 Open ASR 리더보드에서 이 모델은 실시간 배수가 수천에 달합니다. 즉, 고성능 GPU가 있다면 오디오 재생 속도보다 훨씬 빠르게 전사할 수 있습니다. 물론 그런 GPU는 없을 수 있습니다. 하지만 일반 노트북 CPU에서도 지속 시간 스킵 디코더 덕분에 짧은 받아쓰기가 느리지 않고 즉각적으로 느껴집니다.

이제 지원 언어 목록입니다. 정확하게 알아두면 나중에 당황하지 않습니다. Parakeet v3는 25개 언어를 지원하며, 모두 유럽어입니다. 영어도 그중 하나로, 영어 포함 25개이지 99개가 아닙니다. 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 네덜란드어, 폴란드어에서 시작해 북유럽어와 발트어를 거쳐 러시아어와 우크라이나어까지 포함합니다. 어떤 언어를 말하는지 자동으로 감지합니다. 어떤 모델 페이지나 포럼에서 Parakeet가 99개 언어를 지원한다고 하면, Whisper와 혼동하는 겁니다. 25개이고, 빠르게 처리합니다.

사람들이 자주 걸려 넘어지는 두 가지 한계도 짚고 넘어가겠습니다. Parakeet에는 영어 번역 모드가 없습니다. 말한 언어 그대로 전사할 뿐입니다. 그리고 핫워드를 받지 않으므로, 받아쓰기에 생소한 제품명이나 고유명사가 많아도 미리 등록할 수 없습니다. 이것들은 결함이 아닙니다. 빠르고 집중된 모델의 경계일 뿐입니다. (일반 영어 정확도는 실제로 뛰어납니다. 표준 클린 스피치 벤치마크에서 단어 오류율이 2% 미만입니다. 하지만 "정확하다"는 것과 "내 특수 용어에 맞게 조정할 수 있다"는 것은 다른 약속입니다.)

2분 안에 Parakeet를 무료로 로컬 실행하기

NVIDIA 계정도, Python 설치도, GPU도 필요 없습니다. Apple Silicon Mac 또는 Windows 10 이상의 PC, 작동하는 마이크, 그리고 몇 분이면 됩니다. Parakeet를 포함한 전체 로컬 파이프라인은 로그인된 모든 계정에서 무료이며, 가입 시 결제 수단을 요구하지 않습니다. 순서는 다음과 같습니다.

1단계 — Whisper 설치 및 로그인.

다운로드 페이지에서 내려받아 설치하고 무료 계정을 만드세요. 카드 불필요. 전체 로컬 전사 파이프라인이 바로 열립니다.

앱 트레이 아이콘이 나타나고 설정 마법사가 모델 선택을 안내하면 정상입니다.

2단계 — Local Parakeet 선택.

앱은 세 가지 경로를 제시하며 직접 선택하지 않습니다. Cloud, Local Parakeet, Local Whisper 중에서 Local Parakeet를 선택하고 약 600 MB 모델을 한 번 다운로드하면 됩니다.

Parakeet 다운로드가 완료되고 준비 완료 상태로 표시되면 정상입니다.

3단계 — 단축키 확인.

Windows 기본값은 Ctrl+Space, Mac은 Command+Option을 길게 눌러 푸시-투-토크로 사용합니다. Mac에서는 안내에 따라 손쉬운 사용 권한을 허용해야 합니다. 없으면 커서 위치에 텍스트를 붙여넣을 수 없습니다.

테스트 녹음이 텍스트 필드에 붙여넣기되면 정상입니다.

4단계 — 커서를 어디든 놓고 말하기.

이메일, 문서, 채팅 등 텍스트 입력 창을 클릭하고 단축키를 누른 채 한 문장을 말한 뒤 놓으세요. Parakeet가 전사하고 커서 위치에 텍스트가 나타납니다.

말한 문장이 손을 뗀 직후 필드에 텍스트로 나타나면 정상입니다.

Whisper
설정 화면의 실제 Whisper 데스크탑 앱. Parakeet를 선택하는 전사 패널이 보입니다.

느린 부분은 딱 한 번의 모델 다운로드입니다. 이후는 위의 4단계이며, Parakeet가 디스크에 저장된 후에는 외부 연결 없이 실행됩니다. 오디오와 전사 결과 모두 내 기기에 머뭅니다. Windows에서 받아쓰기Mac에서 설정해본 적이 있다면, 같은 흐름에 더 빠른 엔진이 붙은 것입니다.

정확도, 연속 발화, 그리고 텍스트 정리

Parakeet를 포함한 모든 엔진의 원시 받아쓰기 결과는 이어지는 문장으로 나옵니다. "좋아 스탠드업을 열 시로 옮기고 파라킷 초안 파일 올리고 마르코한테 핑 날려"라고 말하면 구두점 없는 텍스트 덩어리가 그대로 나옵니다. Parakeet는 자체적으로 구두점과 대소문자를 추가하는데, 이는 많은 모델보다 나은 점입니다. 하지만 "음"이나 "어" 같은 필러 단어를 제거하거나 뒤죽박죽인 생각을 깔끔한 문장으로 재구성하지는 않습니다.

그때 AI 처리가 제 역할을 합니다. 활성화 문구 "Hey whisper"를 말하면 전사된 텍스트가 최종 출력 전에 개선됩니다. 필러 단어 제거, 연속 발화 분리, 말한 내용을 실제로 보낼 만한 텍스트로 변환합니다. 로컬 설정에서는 내 기기의 Ollama를 통해 실행되고, 클라우드 모드에서는 기본적으로 gpt-5-mini가 사용됩니다. Parakeet는 듣고, 개선 기능은 정리합니다.

Thinking...
원본

okay so move the standup to ten file the parakeet draft and ping marco um before lunch

정리됨

Okay, so move the standup to ten, file the Parakeet draft, and ping Marco before lunch.

정확도 자체에 대해서는, Parakeet가 깨끗한 영어에서 실제로 강합니다. 표준 벤치마크에서 단어 오류율이 2% 미만으로, Whisper와 비슷한 수준이지 그 아래가 아닙니다. 솔직한 주의 사항은 아무도 마케팅하지 않는 것입니다. 나쁜 오디오를 고쳐주는 모델은 없습니다. $20짜리 USB 마이크가 엔진을 바꾸는 것보다 전사 정확도에 더 큰 영향을 미칩니다. 저도 그걸 지루한 방식으로 배웠습니다. 일주일 동안 모델을 탓하다가, 결국 노트북 내장 마이크가 설거지 소리를 줍고 있었다는 걸 알게 됐습니다.

말하고 정리하는 습관은 한 앱을 넘어 더 넓은 곳에서도 효과를 발휘합니다. 단축키 하나로 이메일과 문서 전체를 음성으로 작성할 수 있어서, 긴 단락도 키보드를 두드리는 대신 몇 문장 말하면 됩니다.

Parakeet 대신 Whisper를 선택해야 할 때

다른 방향을 가리키는 두 개의 화살표가 포장도로에 그려져 있습니다. 도구 선택을 표현합니다

Parakeet를 만능 해결책으로 소개한다면 솔직하지 않은 겁니다. 빠른 선택지이지, 범용 선택지가 아닙니다. 분명히 Whisper 모델 중 하나를 선택해야 하거나, 이미 기기에 탑재된 무료 받아쓰기를 써야 하는 경우가 있습니다.

다음 중 하나라도 해당되면 Parakeet 대신 Whisper를 선택하세요. Parakeet의 25개 지원 언어 밖의 언어가 필요한 경우 — 중국어, 일본어, 한국어, 아랍어, 힌디어, 그 외 비유럽어 — Parakeet는 단순히 지원하지 않습니다. 영어 번역이 필요한 경우 — Parakeet에는 해당 모드가 없습니다. 또는 전문 용어, 생소한 이름, 제품명이 많아서 핫워드 바이어싱으로 잠그고 싶은 경우 — Whisper만 이 기능을 제공합니다. 이 중 하나라도 해당되면, Whisper의 다국어 빌드와 99개 언어 지원이 올바른 도구입니다. 같은 노트북에서 더 느리더라도요.

그리고 가끔은 우리 앱이 아닌 것이 맞는 도구일 수 있습니다. 텍스트 필드에 20단어짜리 메모만 간간이 입력한다면, 운영 체제가 이미 무료로 제공합니다. Windows 키 + H를 누르면 커서 위치에서 어디서든 음성 입력이 열립니다(인터넷이 필요하므로 오프라인은 아닙니다). Mac에서는 시스템 설정 → 키보드의 받아쓰기 기능이 Apple Silicon에서 기기 내 처리로 어디서든 입력할 수 있습니다. 속도, 오프라인 개인 정보 보호, 깔끔한 AI 처리가 실제로 중요하지 않은 수준이라면 무료인 것을 쓰세요. 한 줄짜리 메모를 위해 엔진을 설치하라고 권하지는 않겠습니다.

Apple 기기에서 구체적으로 설정을 선택하신다면, Parakeet, Whisper, Apple 자체 받아쓰기 간의 트레이드오프를 Mac에서 가장 좋은 음성-텍스트 옵션에서 Mac 관점의 속도 대 커버리지 선택 과정을 따라 정리했습니다.

Parakeet는 새 이름을 단 600 MB 모델로, 하는 일은 하나입니다. 유럽어 음성을 텍스트로 빠르게, 내 기기에서, 그 이상은 하지 않습니다. 모든 도구가 모든 것을 한다고 주장하는 시대에, 저는 그 절제가 묘하게 안심이 됩니다. 이 설명서의 지저분한 초안은 Parakeet를 로컬로 실행해 받아쓰기로 작성했고, AI 처리로 연속 발화를 정리한 뒤, 우크라이나어로 인용한 한 줄을 번역하기 위해 Whisper 모델로 전환했습니다. Parakeet도 잘 전사했지만, 번역이 필요했습니다. 두 엔진, 단축키 하나, 서버 없음. 둘 다 갖는 것의 요점이 바로 그겁니다.

내 기기에서 Parakeet 사용해 보기

단축키를 누르고, 말하고, 놓으세요. Parakeet가 로컬에서 전사하고 열려 있는 모든 앱의 커서 위치에 텍스트를 입력합니다.

로그인된 모든 계정에 무료 로컬 모드 제공. 시작 시 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

지원 이메일을 읽는 사람이 저입니다. 아마 답장도 받아쓰기로 하고 있을 겁니다.

더 읽어보기