How do I convert audio to text?

Pick a converter, give it your audio, and read back the text. Web tools want you to upload a file; a desktop app like Whisper can transcribe a recording locally or dictate live at the cursor with a hotkey. The text comes back editable.

Can AI transcribe audio to text accurately?

Yes, on clear audio. Vendors quote 96 to 99% on clean recordings, though those are marketing figures, not independent benchmarks. Accuracy drops on noisy audio, heavy accents, and overlapping speakers. A decent microphone helps more than a bigger model.

Does audio to text work offline?

With the right tool, yes. Whisper's local mode processes everything on your computer and needs no internet after a one-time model download of about 140 MB to 3 GB. The free web converters in this search all require an upload, so they need a connection.

Is there a free audio to text converter?

Several, with limits. HappyScribe offers 10 free minutes with no card; AudioConvert.ai gives 30 minutes a day. Whisper's entire local pipeline is free for authenticated users with no payment method at signup.

What audio formats can I convert to text?

Most tools take the common ones. The OpenAI transcription API accepts mp3, mp4, mpeg, mpga, m4a, wav, and webm. NoteGPT lists MP3, WAV, MP4, and AVI. Cloud uploads also hit a 25 MB ceiling per request on the OpenAI endpoint.

Does it support multiple languages?

Depends on the model. Whisper's multilingual models cover 99 languages with auto-detect; its English-only builds are locked to English. The faster Parakeet engine covers English plus 24 European languages, with no Asian languages and no translate-to-English.

Can I transcribe audio from a video file?

Yes. Transcription only cares about the audio track, so the OpenAI endpoint accepts mp4. For a video on your own drive, local transcription keeps the file off any server while it works.

Av Denys Medvediev13 mars 2026

Guide

Ljud till text-omvandlare, förklarat

Gratis webbverktyg, offline-skrivbordsappar och moln med din egen nyckel gör alla om ljud till text. Det som verkligen spelar roll är var ljudet behandlas.

Senast uppdaterad: juni 2026

Närbild på ett digitalt ljudgränssnitt som visar en lysande ljudvågform på en mörk skärm

En ljud till text-omvandlare gör en inspelning eller direkttal till redigerbar och sökbar text med hjälp av en taligenkänningsmodell. Det som verkligen spelar roll är var ljudet behandlas: gratis webbverktyg laddar upp filer till en server, medan en skrivbordsapp som Whisper kan transkribera helt på din egen dator, offline, och klistra in resultatet precis där markören står.

De flesta gratis ljud till text-verktyg ger dig bara de första 10 till 30 minuterna av transkribering, och ber sedan om ett kort. Den delen är rimlig. Servrar kostar pengar. Det som ingen säger högt är att ditt ljud först var tvunget att resa till de där servrarna. En läkares röstmemo, en inspelning från ett styrelsemöte, en fil för att förbereda en vårdnadstvist: allt uppladdat till en leverantör du aldrig har träffat.

Jag har en åsikt om det, och jag återkommer till den.

En ljud till text-omvandlare gör ett enda jobb: den lyssnar på ljud och skriver ner orden. De intressanta skillnaderna ligger i hur den lyssnar (en modell), var den lyssnar (din maskin eller en server) och vad den gör med texten efteråt (lägger den i en fil, eller klistrar in den där du redan skriver). De tre topprankade gratisomvandlarna för den här sökningen är alla av typen ladda-upp-en-fil-och-vänta. Whisper by Remskill är ett annat djur. Den är diktering-först, vilket betyder att du trycker på en snabbtangent, talar och texten dyker upp vid markören i vilken app som helst.

Den här guiden förklarar hur omvandlare fungerar, går igenom trestegsvägen för en inspelad fil och berättar när en webbomvandlare är rätt val och när den inte är det. Efter ett år av att läsa vår supportmejl kan jag säga dig att det mesta kommer från folk som valde ett molnverktyg för ljud som aldrig borde ha lämnat deras dator.

En ljud till text-omvandlare gör inspelningar till ord du kan redigera

Whisper

Den riktiga Whisper-appen — klicka runt i inställningarna för att se hur lokal och molnbaserad transkribering ställs in.

Under huven kör varje omvandlare samma sak: en taligenkänningsmodell. Den tar vågformen från ditt ljud och förutsäger orden, en bit i taget. Modellen är där noggrannheten finns. Den stora öppna modellen bakom många av de här verktygen är OpenAI:s Whisper, som stöder 99 språk i sina flerspråkiga varianter. Samma OpenAI Speech-to-Text API erbjuder whisper-1 plus de nyare modellerna gpt-4o-transcribe och gpt-4o-mini-transcribe.

Resultatet är enkel, redigerbar text. Du kan rätta ett namn, söka efter en fras, lägga in den i ett mejl. Det är hela poängen. Ljud är svårt att skumma, text är lätt. Whisper producerar samma redigerbara text, men istället för att ge dig en nedladdning kan den klistra in direkt i vilken app du än befinner dig i. Appen ovan är det riktiga skrivbordsgränssnittet, inte en attrapp.

Vilken modell du väljer är beslutet om noggrannhet, och den öppna Whisper-modellen och Google Cloud Speech-to-Text hamnar på olika platser; vår jämförelse mellan Whisper och Google Speech-to-Text ställer de två motorerna sida vid sida vad gäller noggrannhet, språktäckning och var ditt ljud hamnar.

Så här omvandlar du en ljudfil till text i tre steg

För en inspelad fil är vägen kort. Gratis webbomvandlare beskriver det som ladda upp, klicka, ladda ner.

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

En typisk webbomvandlare: släpp in en fil, vänta på uppladdningen, ladda ner transkriberingen.

Välj var den körs. Molnomvandlare kräver att du laddar upp filen till deras server. Whisper kör transkriberingen på din egen maskin i lokalt läge, så filen lämnar aldrig din dator.

Välj en modell för ditt språk. Filer med enbart engelska går snabbast på en mindre modell. Flerspråkigt eller blandat ljud behöver en flerspråkig modell som täcker 99 språk.

Hämta texten och redigera den. Transkriberingen kommer tillbaka som enkel text. Rätta de stavfel som en modell alltid gör på egennamn, så är du klar.

CancelTranscribing

Whisper transkriberar en inspelning lokalt — filen lämnar aldrig din maskin.

En hake värd att känna till: moln-API:er har storleksgränser. OpenAI:s transkriberingsslutpunkt begränsar uppladdningar till 25 MB per förfrågan. En lång mötesinspelning i WAV passerar det snabbt. Lokal behandling har ingen sådan gräns utöver din egen disk och ditt tålamod.

Inspelade filer kontra direktdiktering: vilket behöver du?

Här är frågan som de flesta omvandlarsidor hoppar över. Transkriberar du en fil som redan finns, eller försöker du skriva något nytt med rösten?

Om du har en inspelning (en intervju, en föreläsning, en podd) är en filomvandlare rätt verktyg. Ladda upp den, hämta transkriberingen, gå vidare. De tre bästa gratisverktygen klarar detta, med dagliga minutgränser på gratisnivån.

Cancel

Whispers overlay för direktinspelning — håll in snabbtangenten, tala, släpp.

Om du skriver ett nytt mejl, en anteckning eller ett dokument vill du inte ha en fil alls. Du vill att orden ska dyka upp medan du talar. Det är diktering, och det är en annan mekanism. Med Whisper håller du in en snabbtangent, talar och släpper. På Windows är standardvalet Ctrl+Space, och på macOS är det ett Command+Option-grepp för tryck-och-tala (håll in båda, släpp endera tangenten för att stoppa). Den transkriberade texten klistras in vid markören i vilken applikation som helst. Ingen uppladdning, ingen nedladdning, inget flikbyte. Overlayen ovan är vad du ser medan den lyssnar.

De flesta som söker efter en ljud till text-omvandlare vill ha det första och upptäcker att de också ville ha det andra. Du spelar in färre saker än du skriver. Jag ägnade två veckor förra året åt att jaga efter en bättre filomvandlare när det jag faktiskt behövde var att sluta knappa in svar med ett finger i taget under min dotters simträning.

Lokalt kontra moln: var ditt ljud behandlas (och varför det spelar roll)

Rader av serverrack i ett datacenter med aktiv utrustning, som representerar molnbaserad ljudbehandling

Vägskälet som spelar roll kommer här, och det är det som gratisverktygen är tystast om. En webbomvandlare behandlar ditt ljud på sina servrar. AudioConvert.ai säger att filer raderas inom 24 timmar. HappyScribe och NoteGPT laddar också upp till molnet. Det är standard, och för en offentlig podd är det helt okej.

Nu till åsikten jag lovade. Molnbaserad ljudomvandling är en integritetskatastrof som väntar på att transkriberas. Ett team jag en gång arbetade med lät en konsult bygga en intern dikteringsprototyp som anropade en moln-AI för varje yttrande. Chefen öppnade kostnadspanelen i slutet av kvartalet och hittade en femsiffrig räkning, mestadels från att standup-inspelningar transkriberades fyra gånger om för att försökslogiken var alltför ivrig. Ekonomichefens svar var kort: eller så kunde vi låta bli att betala för att ladda upp möten som redan har anteckningar. Pengarna var det lilla problemet. Det större var att kvartal av interna samtal nu låg på någon annans servrar.

Whispers lokala läge svarar på det. I lokalt läge behandlas allt ljud på din dator och ingenting lämnar enheten; efter en engångsnedladdning av modellen (allt från cirka 140 MB till 3 GB beroende på modell) fungerar den helt offline. Två motorer körs på enheten: Whisper-modellerna, och NVIDIA:s Parakeet, som är 5 till 10 gånger snabbare än Whisper på CPU men bara täcker engelska plus 24 europeiska språk, utan översättning till engelska. Om du föredrar molnet har Whisper ett OpenAI-läge med din egen nyckel som använder gpt-4o-mini-transcribe eller gpt-4o-transcribe (samma modeller som API:et erbjuder), debiterat direkt av OpenAI, utan något påslag från oss. Poängen är att du väljer. De gratis webbverktygen väljer åt dig, och svaret är alltid deras server. För mer om att hålla dig helt borta från molnet, se vår guide till offline tal till text.

Att välja noggrannhet: vilken modell klarar din dialekt och ditt språk

Noggrannhet är mestadels en modellfråga, och modellen är en språkfråga. Gratisomvandlarna gör reklam för stora siffror. AudioConvert.ai hävdar upp till 99 % noggrannhet på tydligt ljud, HappyScribe säger upp till 96 %. Det är leverantörers marknadsföringspåståenden utan någon publicerad metod, så behandla dem som broschyren, inte som riktmärket.

Det som påverkar noggrannheten är att matcha modellen mot ditt ljud. Whisper levereras med 8 lokala modeller uppdelade i enbart engelska och flerspråkiga. De engelskspråkiga byggena (Base på ~140 MB upp till Medium på ~1,5 GB) låser språkväljaren till engelska och gör det jobbet bra. De flerspråkiga byggena (Small, Medium, Large v3 på ~3 GB, och en Large v3 Turbo) täcker 99 språk med automatisk identifiering. Blandad ukrainska och engelska i en mening? Det kräver en flerspråkig modell. Ett rent engelskt röstmemo? Den engelska Base-modellen är snabbare och lättare.

Whisper

Modell- och språkväljaren i den riktiga Whisper-appen — byggen med enbart engelska och flerspråkiga sida vid sida.

Den tråkiga sanningen som ingen modellsida erkänner: en billig clip-on-mikrofon gör mer för noggrannheten än någon modelluppgradering. Skräp in, skräp ut. Ingen mängd AI fixar en inspelning gjord bredvid en igångsatt diskmaskin. Jag ägnade en helg åt att finjustera modellinställningar för att städa upp mitt eget grumliga ljud innan jag insåg att problemet var bärbara datorns mikrofon femton centimeter från en fläkt. Jag har en masterexamen. Inställningspanelen ovan är där du väljer modell och språk.

När du bör hoppa över en webbomvandlare (och använda något annat)

En städad skrivbordsyta med ett anteckningsblock, glasögon och pennor, som antyder manuella alternativ för anteckningar

En webbomvandlare är ibland det bättre valet, och jag säger det hellre än att låta dig kämpa med fel verktyg. Om du har en kort inspelning (ett fem minuter långt intervjuklipp, ett enda röstmemo) och du inte bryr dig om att den rör en server, ger en gratisomvandlare som HappyScribe dig de första 10 minuterna gratis utan kort. Öppna sidan, ladda upp, klart. Att installera en skrivbordsapp för det är överdrivet.

Hoppa över webbomvandlaren när något av tre saker stämmer: ljudet är känsligt (medicinskt, juridiskt, ekonomiskt), filen är stor nog att slå i en molngräns på 25 MB, eller du skriver något nytt snarare än transkriberar något gammalt. De första två fallen vill ha lokal behandling. Det tredje vill ha diktering, inte en omvandlare alls. För mötesliknande transkribering med flera talare och sammanfattningar passar ett dedikerat verktyg i den kategorin bättre än någotdera — det är ett annat jobb, som vi tar upp i vår översikt över transkriberingsprogram.

Vad det kostar

Whisper är gratis för alla för hela den lokala pipelinen (båda transkriberingsmotorerna, AI-textstädning, historik och den anpassade snabbtangenten) utan att något betalsätt behövs för att registrera sig. Molnytan med din egen nyckel är den betalda Pro-nivån, och OpenAI debiterar dig direkt för de faktiska minuter du transkriberar. De gratis webbomvandlarna i den här sökningen kör på en freemium-minutgräns: HappyScribe ger 10 gratisminuter, AudioConvert.ai ger 30 minuter per dag. Whisper finns idag för Windows och macOS på Apple Silicon. För de exakta sifferna per plan har prissidan dem nedskrivna.

Gratisomvandlarna är bra på det de gör — släpp in en fil, vänta, kopiera ut texten. Använd en för poddklippet du inte har något emot att dela. Men de inspelningar som betyder mest är oftast just de du minst av allt vill ladda upp, och det är då en omvandlare som körs på din egen dator slutar vara enbart trevlig att ha.

Prova en inspelning som aldrig lämnar din maskin

Min yngsta dotter dikterade ett mejl på 90 ord till sin mormor förra lördagen och frågade mig vart orden tog vägen. Ingenstans, sa jag. De stannade här. Det svaret är hela anledningen till att jag byggde detta.

Ladda ner Whisper Se hur det fungerar

Gratis för hela den lokala pipelinen. Inget betalsätt behövs för att registrera sig.

Denys Medvediev

Jag är den som läser vår supportmejl, troligen genom att diktera svaren.

Vidare läsning

Vanliga frågor

Välj en omvandlare, ge den ditt ljud och läs av texten. Webbverktyg vill att du laddar upp en fil; en skrivbordsapp som Whisper kan transkribera en inspelning lokalt eller diktera direkt vid markören med en snabbtangent. Texten kommer tillbaka redigerbar.

Av Denys Medvediev13 mars 2026

Guide

Ljud till text-omvandlare, förklarat

Gratis webbverktyg, offline-skrivbordsappar och moln med din egen nyckel gör alla om ljud till text. Det som verkligen spelar roll är var ljudet behandlas.

Senast uppdaterad: juni 2026

Jag har en åsikt om det, och jag återkommer till den.

En ljud till text-omvandlare gör inspelningar till ord du kan redigera

Whisper

Den riktiga Whisper-appen — klicka runt i inställningarna för att se hur lokal och molnbaserad transkribering ställs in.

Så här omvandlar du en ljudfil till text i tre steg

För en inspelad fil är vägen kort. Gratis webbomvandlare beskriver det som ladda upp, klicka, ladda ner.

converter · web upload

interview.wavuploading to server… 64%

files deleted within 24h Download transcript

En typisk webbomvandlare: släpp in en fil, vänta på uppladdningen, ladda ner transkriberingen.

Välj var den körs. Molnomvandlare kräver att du laddar upp filen till deras server. Whisper kör transkriberingen på din egen maskin i lokalt läge, så filen lämnar aldrig din dator.

Välj en modell för ditt språk. Filer med enbart engelska går snabbast på en mindre modell. Flerspråkigt eller blandat ljud behöver en flerspråkig modell som täcker 99 språk.

Hämta texten och redigera den. Transkriberingen kommer tillbaka som enkel text. Rätta de stavfel som en modell alltid gör på egennamn, så är du klar.

CancelTranscribing

Whisper transkriberar en inspelning lokalt — filen lämnar aldrig din maskin.

Inspelade filer kontra direktdiktering: vilket behöver du?

Här är frågan som de flesta omvandlarsidor hoppar över. Transkriberar du en fil som redan finns, eller försöker du skriva något nytt med rösten?

Cancel

Whispers overlay för direktinspelning — håll in snabbtangenten, tala, släpp.

Lokalt kontra moln: var ditt ljud behandlas (och varför det spelar roll)

Att välja noggrannhet: vilken modell klarar din dialekt och ditt språk

Whisper

Modell- och språkväljaren i den riktiga Whisper-appen — byggen med enbart engelska och flerspråkiga sida vid sida.

När du bör hoppa över en webbomvandlare (och använda något annat)

Vad det kostar

Prova en inspelning som aldrig lämnar din maskin

Ladda ner Whisper Se hur det fungerar

Gratis för hela den lokala pipelinen. Inget betalsätt behövs för att registrera sig.

Denys Medvediev

Jag är den som läser vår supportmejl, troligen genom att diktera svaren.

Ljud till text-omvandlare, förklarat

En ljud till text-omvandlare gör inspelningar till ord du kan redigera

Så här omvandlar du en ljudfil till text i tre steg

Inspelade filer kontra direktdiktering: vilket behöver du?

Lokalt kontra moln: var ditt ljud behandlas (och varför det spelar roll)

Att välja noggrannhet: vilken modell klarar din dialekt och ditt språk

När du bör hoppa över en webbomvandlare (och använda något annat)

Vad det kostar

Prova en inspelning som aldrig lämnar din maskin

Vidare läsning

Vanliga frågor

Röststyrning i Word

Genvägen för rösttext i varje operativsystem

Alternativ till Google röstinmatning: diktera var som helst

Ljud till text-omvandlare, förklarat

En ljud till text-omvandlare gör inspelningar till ord du kan redigera

Så här omvandlar du en ljudfil till text i tre steg

Inspelade filer kontra direktdiktering: vilket behöver du?

Lokalt kontra moln: var ditt ljud behandlas (och varför det spelar roll)

Att välja noggrannhet: vilken modell klarar din dialekt och ditt språk

När du bör hoppa över en webbomvandlare (och använda något annat)

Vad det kostar

Prova en inspelning som aldrig lämnar din maskin

Vidare läsning

Vanliga frågor

Röststyrning i Word

Genvägen för rösttext i varje operativsystem

Alternativ till Google röstinmatning: diktera var som helst

Ljud till text-omvandlare, förklarat

En ljud till text-omvandlare gör inspelningar till ord du kan redigera

Så här omvandlar du en ljudfil till text i tre steg

Inspelade filer kontra direktdiktering: vilket behöver du?

Lokalt kontra moln: var ditt ljud behandlas (och varför det spelar roll)

Att välja noggrannhet: vilken modell klarar din dialekt och ditt språk

När du bör hoppa över en webbomvandlare (och använda något annat)

Vad det kostar

Prova en inspelning som aldrig lämnar din maskin

Vidare läsning

Vanliga frågor

Läs vidare

Röststyrning i Word

Genvägen för rösttext i varje operativsystem

Alternativ till Google röstinmatning: diktera var som helst

Ljud till text-omvandlare, förklarat

En ljud till text-omvandlare gör inspelningar till ord du kan redigera

Så här omvandlar du en ljudfil till text i tre steg

Inspelade filer kontra direktdiktering: vilket behöver du?

Lokalt kontra moln: var ditt ljud behandlas (och varför det spelar roll)

Att välja noggrannhet: vilken modell klarar din dialekt och ditt språk

När du bör hoppa över en webbomvandlare (och använda något annat)

Vad det kostar

Prova en inspelning som aldrig lämnar din maskin

Vidare läsning

Vanliga frågor

Läs vidare

Röststyrning i Word

Genvägen för rösttext i varje operativsystem

Alternativ till Google röstinmatning: diktera var som helst