Av Denys Medvediev

Guide

Slik konverterer du mp3 til tekst

For å konvertere en mp3 til tekst kjører du filen gjennom et tale-til-tekst-verktøy. Den gratis og private veien er en lokal app med åpen kildekode, som Buzz eller kommandolinjeverktøyet OpenAI Whisper, som transkriberer på din egen maskin. Den raskeste veien å komme i gang på er en nettkonverterer du laster opp til.

Sist oppdatert: juni 2026

En dataskjerm som viser bølgeformen til et lydopptak i et lydredigeringsprogram

For å konvertere en mp3 til tekst kjører du filen gjennom et tale-til-tekst-verktøy. Den gratis og private veien er en lokal app med åpen kildekode, som Buzz eller kommandolinjeverktøyet OpenAI Whisper, som transkriberer på din egen maskin. Den raskeste veien å komme i gang på er en nettkonverterer du laster opp til. Begge gjør lyd om til redigerbar tekst.

Så du har en mp3 og du trenger ordene som ligger inni den. Et innspilt intervju, et talememo, en podkastepisode, en forelesning du lagret fra telefonen. Oppgaven er den samme i hvert tilfelle: ta lyd, få tekst du kan redigere.

Den gode nyheten er at dette er et løst problem i 2026, og de fleste måtene å gjøre det på er gratis. Den litt irriterende nyheten er at verktøyene alle har navn som høres like ut, så la meg rydde opp i dem.

Det finnes tre ærlige veier. Kjør et gratis lokalt verktøy på din egen datamaskin (mest privat, ingen opplasting, koster ingenting). Bruk en Mac-app laget for jobben. Eller last opp filen til en nettjeneste som transkriberer den på en server, som er raskest å komme i gang med, men da forlater lyden maskinen din. Hvilken som er riktig kommer an på om du bryr deg mest om personvern eller bekvemmelighet, og hvor teknisk du føler deg i dag.

Jeg bør si den litt kleine biten tidlig, for det ville vært uærlig å begrave den. Appen teamet mitt lager, Whisper by Remskill, konverterer ikke mp3-filer. Den er et verktøy for direkte diktering. Du holder inne en hurtigtast, du snakker, og ordene dine dukker opp i det du nå skriver i. Helt annen jobb. Jeg skal forklare hvor den passer inn mot slutten, men hvis du kom hit for å konvertere et eksisterende opptak, er verktøyene under de du vil ha.

Den gratis og private veien er et lokalt verktøy med åpen kildekode

Hvis du ikke vil at opptaket ditt skal ligge på noen andres server, kjører du transkriberingen på din egen datamaskin. Motoren nesten alle bruker til dette er OpenAI Whisper, utgitt under MIT-lisensen, gratis å bruke, gratis å lese, gratis å kjøre. Det er samme familie av modell som driver mange av de betalte appene du har sett reklamert for.

Det finnes noen måter å faktisk bruke den på, fra «jeg er komfortabel i en terminal» til «vær så snill og gi meg en knapp å trykke på».

OpenAI Whisper (Python-kommandolinje)

Installer den med pip, installer ffmpeg-verktøyet den er avhengig av, og pek den så mot filen din: whisper recording.mp3 --model turbo. Den leser mp3-en, transkriberer den, og skriver ut en tekstfil. Det finnes seks modellstørrelser, fra en bitteliten rask til en stor og nøyaktig, så du kan bytte hastighet mot nøyaktighet. Den er flerspråklig og kan til og med oversette ikke-engelsk lyd til engelsk. Haken er oppsettet. pip og ffmpeg er ikke vanskelig, men det er ikke ingenting heller. Jeg brukte en gang tjue minutter på å fikse en ffmpeg-sti på en fersk laptop. Jeg har en mastergrad.

whisper.cpp

Samme Whisper-modell, skrevet om i ren C og C++ slik at den kjører raskt uten Python og uten tunge avhengigheter. Den kjører på CPU alene og er hardt optimalisert for Mac-er med Apple Silicon. Også MIT-lisensiert. Du bygger den fra kildekoden og kjører den fra kommandolinjen, så den er klart for de som er komfortable i en terminal. Det er det slanke valget hvis du har mange filer å tygge deg gjennom.

Buzz

Dette er den jeg sender ikke-tekniske folk til. Buzz er en helt vanlig skrivebordsapp med et helt vanlig vindu. Du åpner den, du velger mp3-en din, den transkriberer offline på maskinen din. Den er bygget på OpenAI Whisper, den kan transkribere og oversette, og den kjører på macOS, Windows og Linux. MIT-lisensiert og gratis. Ingen terminal, ingen pip, ingen ffmpeg-fikling. Hvis du har én fil og vil ha den gjort med minst mulig styr, er dette svaret.

Whisper Desktop (Const-me)

En Windows-app for folk med et grafikkort. Den transkriberer lydfiler og bruker GPU-en til å gjøre det raskt, noe som teller når filen din er lang. Den er åpen kildekode under MPL-2.0-lisensen. Kun Windows. Hvis du sitter på en PC med et anstendig GPU og et to timers opptak, er dette ekspressfilen.

Kode og en terminal med kommandolinje åpen på en laptopskjerm på et ryddig skrivebord

På en Mac sparer en dedikert app deg for oppsettet

Hvis du sitter på en Mac og kommandolinjen ikke er din idé om en god kveld, er MacWhisper laget for akkurat dette. Du drar en lyd- eller videofil inn i den og den transkriberer på selve enheten, så ingenting forlater maskinen din. Den kjører de samme OpenAI Whisper-modellene, pluss NVIDIAs Parakeet-motor, og den gjør jobben med filtranskribering godt. Den eksporterer også til formatene du faktisk trenger, som undertekstfiler for video.

MacWhisper er fil-først av design: opptak inn, tekst ut. Det er hele poenget med den, og den er god til det. Jeg peker spesielt på den fordi den er det nærmeste man kommer et ett-klikks Mac-svar på akkurat det du søkte etter.

En nettkonverterer er raskest å komme i gang med, men lyden din forlater maskinen

Den andre veien trenger ingen installasjon i det hele tatt. Mange nettjenester lar deg laste opp en mp3, vente ett minutt, og laste ned en transkripsjon. Ingen oppsett, ingen modell å laste ned, fungerer fra en telefon eller en lånt laptop. For en rask engangsjobb er den bekvemmeligheten reell, og jeg skal ikke late som om noe annet.

Her er den ene sterke meningen i denne artikkelen, og jeg skal støtte den med den åpenbare grunnen i stedet for å vifte med hendene. Når du laster opp et opptak til en nettkonverterer, forlater lyden datamaskinen din og lander på noen andres server. For en podkast du uansett er i ferd med å publisere, hvem bryr seg. For en innspilt HR-samtale, et legenotat, eller et klientmøte der et lønnstall eller et pasientnavn blir sagt høyt, er det en personvernbeslutning du tar, ofte uten å lese siden som forteller deg hvor lenge filen oppbevares. Et lokalt verktøy gjør den samme jobben og lyden går aldri noe sted. Skybasert transkribering er, for sensitive opptak, en personvernkatastrofe som bare venter på å bli transkribert.

Hvis en nettkonverterer virkelig er det rette valget for deg, er landskapet av transkriberingstjenester verdt et blikk. Jeg har skrevet om den gjengen andre steder. Start med gjennomgangen av rask transkribering og guiden til lyd-til-tekst-konverterere, som begge dekker opplastingsveien og den lokale side om side.

Velg nøyaktighet og språk med modellen, ikke med markedsføringen

Uansett hvilket verktøy du lander på, kommer nøyaktigheten stort sett ned til to ting du styrer: modellstørrelsen og mikrofonen lyden ble tatt opp med. Større modeller er tregere og mer nøyaktige. Mindre modeller er raskere og lettere. De fleste av de lokale verktøyene over lar deg velge, fordi de alle kjører de samme underliggende Whisper-modellene under forskjellige knapper.

Den kjedelige sannheten ingen som selger deg en «smart AI»-konverterer vil si høyt: et rent opptak på en billig USB-mikrofon slår et grøtete et kjørt gjennom den største modellen. Verktøyet kan ikke høre bort fra klimaanlegget. Hvis mp3-en din ble tatt opp tvers over et rom på en laptop-mikrofon, så juster forventningene dine og kanskje ta opp på nytt hvis du fortsatt kan.

Hvor Whisper by Remskill passer inn, og hvor den ikke gjør det

Nå den ærlige biten jeg lovte. Whisper by Remskill tar ikke mp3-en din og gjør den om til tekst. Den er bygget for et annet øyeblikk.

Den er et verktøy for direkte diktering. Du trykker på en hurtigtast (Ctrl+Space på Windows som standard, kan ombelegges), du snakker, og ordene dine blir skrevet rett inn i hvilken som helst app du er i: e-posten din, dokumentet ditt, en Slack-melding, en kodekommentar. Transkriberingen skjer lokalt mens du snakker, og teksten lander ved markøren din et øyeblikk etter at du stopper. Ingen fil, ingen opplasting, ingen ta-opp-så-konverter-runde.

Pasted
Det leverte overlegget etter diktering — en direkte diktering som avsluttes ved markøren din, ikke en fil som blir konvertert.

Så når er det verktøyet du faktisk vil ha? Når ordene du trenger ennå ikke finnes som et opptak, fordi de fortsatt sitter i hodet ditt. Hvis ditt egentlige mål aldri var å «konvertere denne filen», men å «få mine egne talte ord inn i et dokument raskt», hopper du over opptaket helt. Du tenker det, du sier det, det blir skrevet. Hele den lokale prosessen er gratis, og den kjører på Windows og Mac (Apple Silicon). Jeg dikterte en gang en e-post til en lærer, en handleliste og et svar til søsteren min i tiden det tok vannkokeren å koke opp, og glemte så å faktisk helle i teen. Verktøyet virket. Det gjorde ikke jeg.

Whisper
Den direkte Whisper by Remskill-appen — sidefelt, transkriberingspanel og AI-instruksjonskort. Dette er det ekte grensesnittet, ikke et skjermbilde.

For det fulle bildet av hvordan den direkte, offline transkriberingen fungerer under panseret går guiden til offline tale-til-tekst dypere. Men hvis du har et opptak liggende i nedlastingsmappen din akkurat nå, gå opp igjen på siden. Buzz eller Whisper-kommandolinjen er det du vil ha, ikke oss.

Hvis du bare trenger dette én gang

Én fil, én gang, ingen planer om å gjøre det igjen? Åpne Buzz, slipp mp3-en din inn, la den kjøre. Den er gratis, den fungerer offline, og du vil ikke ha installert noe du må vedlikeholde. Det er hele anbefalingen. Spar terminalverktøyene til dagen du har femti filer i stedet for én.

Den raskeste måten å konvertere en mp3 på er å ikke ha en mp3. Men for opptaket du allerede har, får et gratis lokalt verktøy deg dit uten å sende det noe sted.

Whisper by Remskill er for direkte diktering, ikke filkonvertering

Hvis målet ditt er å få dine egne talte ord inn i et dokument uten å skrive, se hvordan direkte diktering fungerer. For å konvertere et opptak du allerede har, er Buzz det gratis svaret over.

Gratis lokal prosess. Windows og Mac (Apple Silicon).

Bilde av Denys Medvediev

Denys Medvediev

Jeg er den som leser support-e-posten vår, mest sannsynlig ved å diktere svarene.

Videre lesing