Guide
Så transkriberar du intervjuer
För att transkribera en intervju automatiskt kör du inspelningen genom ett tal-till-text-verktyg: ett gratis alternativ med öppen källkod som Buzz eller OpenAI Whisper på din egen dator för integritetens skull, eller en molnbaserad transkriberingstjänst när du också behöver talarlistor och en snygg redigerare. Välj lokalt för gratis och privat, molnet för diarisering.
Senast uppdaterad: juni 2026

För att transkribera en intervju automatiskt kör du inspelningen genom ett tal-till-text-verktyg: ett gratis alternativ med öppen källkod som Buzz eller OpenAI Whisper på din egen dator för integritetens skull, eller en molnbaserad transkriberingstjänst när du också behöver talarlistor och en snygg redigerare. Välj lokalt för gratis och privat, molnet för diarisering.
Jag tar det jobbiga först, för det sparar dig tio minuter. Whisper by Remskill — appen som den här bloggen tillhör — transkriberar inte intervjuinspelningar. Det är livediktering: du håller ned ett snabbtangent, talar, och orden hamnar vid markören i vilken app som helst. Det är något helt annat än att mata in en timslång inspelning av två personer och få tillbaka ett märkt utskrift. Den här guiden handlar alltså om verktygen som faktiskt klarar intervjujobbet — skriven av någon som hellre skickar dig till rätt verktyg än låtsas att vi är det.
En intervjutranskription är svårare än den låter av en anledning: talarna. Ett vanligt transkriptionsverktyg ger dig en textvägg. Det du oftast vill ha är "Intervjuare:" och "Respondent:" framför varje replik. Det kallas diarisering, och inte alla verktyg klarar det. Den viktiga skiljelinjen är lokalt kontra molnet. Lokala verktyg körs på din laptop, kostar ingenting och laddar aldrig upp ditt ljud. Molntjänster laddar upp filen men hanterar i regel talarlistor och ger dig en redigerare. Nedan är den ärliga kartan — och sedan avsnittet där jag berättar exakt var vi passar in och var vi inte gör det.
Det gratis, privata sättet körs på din egen dator
Om intervjun är känslig — en källa som behöver skyddas, en patient, en intern chef — bör inspelningen aldrig lämna din maskin. De gratis verktygen med öppen källkod transkriberar helt på enheten.
OpenAIs Whisper är den modell som de flesta av dessa bygger på. Den är utgiven under MIT-licensen, installeras med ett enda pip-kommando och transkriberar ljudfiler från kommandoraden. Den levereras i sex storlekar, fyra med engelska varianter, så du väljer mellan hastighet och noggrannhet beroende på din hårdvara. Den är flerspråkig och kan till och med översätta tal till engelska medan den transkriberar. Problemet för intervjuer: grundversionen av Whisper skriver ner orden men märker inte vem som sade vad. Talardiarisering kräver extra verktyg ovanpå, eller en molntjänst som har det inbyggt.
Om kommandoraden känns avskräckande är Buzz det enkla alternativet. Det är en grafisk app som transkriberar och översätter ljud offline på din dator, byggd på Whisper, MIT-licensierad och tillgänglig på macOS, Windows och Linux. Dra in inspelningen, välj en modell, vänta, läs utskriften. För de flesta som transkriberar en intervju gratis är det här den kortaste vägen.
Två till värda att känna till. whisper.cpp är en ren C/C++-port av Whisper som körs enbart på CPU och är starkt optimerad för Apple Silicon: snabbare, ingen Python, men du bygger det och kör det från kommandoraden. Och MacWhisper är en Mac-app byggd kring Whisper på enheten och NVIDIAs Parakeet, med fokus på filtranskription — precis det som intervjuanvändningen kräver. Alla dessa håller ljudet på din maskin. Ingen av dem ger dig rena talarlistor på egen hand.
Molntjänster lägger till talarlistor och en redigerare
Det här är vägskälet där du bestämmer vad din integritet är värd. De dedikerade transkriberingstjänsterna laddar upp din inspelning till sina servrar, bearbetar den och ger dig tillbaka en utskrift som vanligtvis namnger talarna och placerar dem i en redigerare där du kan rätta namn och exportera. Den bekvämligheten är verklig — och för en offentlig podd eller ett panelsamtal du är bekväm med att dela är det det bättre verktyget.
Om det är ditt behov (talarlistor med flera deltagare, tidsstämplar, en ren redigeringsyta) titta på den etablerade kategorin mötes- och inspelningstranskriberingstjänster snarare än en dikteringsapp. Jag har skrivit om det landskapet i Otter.ai-alternativ-artikeln och i Rev-alternativ-artikeln; båda täcker molnverktygen som hanterar diarisering och redigering ordentligt.
Här är min åsikt — och den följs av en räkning. Ett team jag jobbade med lät en konsult bygga en intern dikteringsprototyp som anropade ett moln-AI för varje yttrande. Chefen öppnade kostnadspanelen i slutet av kvartalet och såg ett femsiffrigt tal, mestadels från att ha omtranskriberat standup-inspelningar fyra gånger om eftersom återförsökslogiken var för ivrig. CFO:ns svar var kort: eller så slutar vi betala för att ladda upp möten som redan har anteckningar. Pengarna var det lilla problemet. Det stora var att en fjärdedel av interna samtal nu låg på en leverantörs servrar. Molntranskribering är genuint rätt val för talarlistor och redigering. Det är fel val för en inspelning du aldrig vill ska lämna huset. Välj utifrån den axeln, inte utifrån marknadsföringen.
Hur du väljer — på en utandning
Det finns tre typer av människor som hamnar på den här sidan: de integritetsmåna, de deadlinedrabbade och de som bara vill ha talarnamn utan att tänka på det. Två av dem bör välja lokalt.
- Behöver det gratis och privat — Buzz (enklast) eller Whisper på din egen maskin. Ljudet laddas aldrig upp.
- Behöver talarlistor och en snygg redigerare — en molnbaserad transkriberingstjänst. Ljudet laddas upp — det är priset.
- På en Mac, vill ha en filcentrerad app — MacWhisper, på enheten.
Den ärliga avgöraren: om inspelningen är känslig är svaret lokalt, utan undantag. Om det är ett offentligt samtal och du vill ha diarisering serverad åt dig tjänar molnet sitt pris. De flesta intervjutranskriptioner tillhör den första kategorin, vilket är varför jag börjar med de gratis lokala verktygen. Om ren handläggningstid är din oro går guiden för att transkribera ljud snabbt igenom hastighetsknapparna.
Var Whisper by Remskill faktiskt passar in
Nu avsnittet där jag drar gränsen tydligt, för det värsta som kan hända med den här artikeln är att du laddar ner vår app och förväntar dig att den ska tugga igenom en inspelning. Det gör den inte. Whisper by Remskill är diktering i första hand: ett snabbtangent utlöser ditt livetalande, som transkriberas och klistras in vid markören i vilken app du än befinner dig i. Det finns ingen "ladda upp en intervjufil"-knapp och ingen talardiarisering, eftersom den är byggd för en röst: din, i stunden.
Var använder då en intervjuare den? Runt intervjun, inte på den. Diktera dina förberedelsefrågor i ett dokument innan du går in. Tala ut dina uppföljningsanteckningar sekunden samtalet är slut, medan intrycken är färska och händerna fortfarande håller i kaffet. Utkasta skrivningen med rösten när transkriptionen väl finns. Standardsnabbtangenten på Windows är Ctrl+Space, helt omkarterbar, och hela den lokala pipelinen är gratis för alla inloggade användare utan kort vid registrering. Det finns också ett betalt molnnivå som lägger till OpenAI-driven transkribering och webbsökning för livediktering — men det handlar fortfarande om att skriva med rösten, inte om att transkribera en tvåpersoners inspelning.
Använd den för skrivandet kring intervjun. Använd Buzz eller en molntjänst för själva intervjun. Olika verktyg, olika jobb. Hellre att du vet det innan du installerar något.
Ett sista ord
De flesta intervjuinspelningar som är värda att transkribera är de du minst av allt vill ladda upp: det off-the-record-tillägget, källan som litade på dig, patienten. Det är hela anledningen till att de gratis lokala verktygen förtjänar sin plats — filen stannar på din laptop. Jag spenderade en gång en helg på att finjustera modellinställningar för att städa upp mitt eget grumliga ljud innan jag märkte att det riktiga problemet var laptop-mikrofonen som satt femton centimeter från ett fläkt. Jag har en masterexamen. Köp mikrofonen först.
Och när transkriptionen är klar och det är dags att faktiskt skriva artikeln — det är då vår app slutar vara en åskådare.
Diktera skrivningen när transkriptionen finns
Transkribera intervjun med Buzz eller en molntjänst. Ladda sedan ner Whisper by Remskill och diktera artikeln — den del av intervjuflödet vi är byggda för. Den lokala pipelinen är gratis, utan kort vid registrering.
Gratis lokal diktering för alltid. Inget betalningssätt vid registrering. Vi transkriberar inte inspelningar — använd ett lokalt verktyg eller en molntjänst för det.



