Av Denys Medvediev

Guide

Appar för föreläsningstranskription, förklarade

Liveinspelning eller egendiktion – varifrån ljudet kommer och var gränsen mellan lokalt och molnet går, något studenter borde fundera mer på.

Senast uppdaterad: juni 2026

Rymlig tom föreläsningssal med blå stolar och bänkar inför en klass, där föreläsningstranskription fångar upp ljudet

En app för föreläsningstranskription omvandlar talade lektioner till sökbar text – antingen genom att spela in ljud direkt eller transkribera en inspelning i efterhand. En del verktyg spelar in salen i molnet. Andra, som Whisper, transkriberar det du dikterar lokalt på enheten med ett push-to-talk-kortkommando. Vilket verktyg som passar beror på vems röst du fångar och var ljudet bearbetas.

Förra våren skickade en student en inspelning av en 90 minuter lång organisk kemilektion till mig och undrade varför hans transkriptionsverktyg hade gjort om "enantiomer" till "en antilopsmör". En rimlig fråga. Det ärliga svaret är att de flesta föreläsningsappar kämpar med samma grundproblem – att omvandla ett bullrigt rum med en lugn professor till ren text – och de skiljer sig åt i var ljudet tar vägen och vem som får behålla det. En 90 minuter lång föreläsning är det värsta tänkbara ljudscenariot: avstånd, eko, jargong och en mikrofon som är byggd för videosamtal.

Studenter har velat ha pålitlig föreläsningstranskription i flera år, och de inbyggda anteckningsapparna har länge legat ett snäpp över oanvändbara för korta klipp. År 2026 har klyftan minskat. Flera appar kan nu omvandla en hel föreläsning till ett sökbart transkript plus en sammanfattning, och ett par kör allt lokalt på din laptop utan att något lämnar enheten. Den här artikeln tar upp skillnaden mellan att spela in en levande klass och att diktera egna anteckningar, varifrån ljudet kommer, och var gränsen mellan lokalt och molnet går – något studenter borde fundera mer på. Jag läser det mesta av den supportpost vi får från studenter, och den tråkiga sanningen är att merparten kommer från folk som valde fel typ av app från dag ett. Den högen med ärenden är, på ett omvägsbetonat sätt, anledningen till att den här artikeln finns.

Tre typer av studenter letar efter en app för föreläsningstranskription: den vars hand krampar efter 20 minuters anteckningar, den som tappar fokus och vill ha en backup, och den som studerar på ett språk som inte är modersmålet. Alla tre löser samma problem – att hänga med en pratande människa – och alla tre är på väg att lära sig att "transkriptionsapp" kan betyda två helt olika saker.

Spela in föreläsningen, få ren text. Det är hela grejen.

Skala bort marknadsföringen så gör varje app för föreläsningstranskription en enda sak. Den tar ljud från någon som pratar och ger tillbaka text du kan söka i, citera och studera utifrån. Professorn talar, appen lyssnar, orden landar på sidan. Skillnaderna mellan verktygen handlar om det som kommer efter: om ljudet fångas direkt eller i efterhand, om det bearbetas på en server eller lokalt, och hur appen städar upp resultatet.

Whisper by Remskill hanterar dikteringssidan av det jobbet. Du håller in ett kortkommando, pratar, och transkriptet klistras in vid markören i vilken app du än skriver i – Notion, Word, ett Google-dokument eller ett mejl. På Windows är standardkortkommandot Ctrl+Space. På macOS är det Command+Option push-to-talk: håll in för att spela in, släpp för att avsluta. Efter att du släppt hålls mikrofonen öppen i en 500 millisekunder lång svansbufer så att det sista ordet inte klipps bort. Det finns inget "gå med i mötet"-steg och ingen väntan på uppladdning. Du pratar och ett par sekunder senare är texten på plats.

CancelTranscribing
Whisper omvandlar en inspelning till text – håll in tangenten, prata, släpp, och transkriptet hamnar vid markören.

Den skillnaden spelar större roll för föreläsningar än i de flesta andra sammanhang – vilket är nästa sak att reda ut.

Liveinspelning och att diktera egna anteckningar är inte samma sak

Rader av orangefärgade stolar i en inomhusauditorie – miljön där en föreläsning spelas in direkt för transkription

Här är uppdelningen som förvirrar de flesta studenter. En del appar är byggda för att fånga en levande klass: de spelar in rummet eller ansluter till ett Zoom-samtal och transkriberar professorns röst åt dig. Andra är byggda för att du ska diktera – med din egen röst – de anteckningar och sammanfattningar du vill ha. Båda ger ett transkript. De är inte utbytbara.

Whisper tillhör den andra gruppen. Den transkriberar det mikrofonen hör när du pratar. Det är utmärkt för den del av studierna som kommer efter föreläsningen: att diktera din sammanfattning medan den är färsk, prata igenom en problemsamling, spela in din egen förklaring av ett begrepp, eller skriva ett mejl till en studiegrupp. Det är inte en bot som sitter i salen och fångar professorn åt dig. Om du vill ha övervakad liveinspelning av någon annans föreläsning är ett dedikerat inspelningsverktyg bättre lämpat – jag namnger alternativ längre fram i den ärliga sektionen.

Den tråkiga sanningen är att det mest exakta transkriptet du kan få av en föreläsning är det där talet sker nära en bra mikrofon. När du dikterar din egen sammanfattning är munnen 20 centimeter från mikrofonen. När du spelar in en professor är deras mun 20 meter bort, bakom ett podium, i kamp med ett ventilationssystem. Samma programvara, två helt olika resultat.

Varifrån föreläsningsljudet kommer

Rymlig tom modern auditorie med träbänkar och stora fönster, där föreläsningsljudet bärs genom salen

Varje transkript börjar med en mikrofon, och en föreläsningssal är där bra mikrofoner möter sin undergång. Ljudet kan komma från tre ställen. Det första är laptopens inbyggda mikrofon, som är inställd för den som sitter rakt framför den – bra för att diktera egna anteckningar, men svag för en professor tvärs över en sal med 200 platser. Det andra är systemets loopback-ljud, det vill säga det som kommer ur högtalarna, vilket är det du fångar under ett live-Zoom-möte eller en inspelad onlinelektion. Det tredje är en dedikerad extern mikrofon placerad nära källan.

Mikrofonplacering är den enskilt viktigaste faktorn för noggrannhet – inte modellen. En $20 USB-mikrofon gör mer för ett transkript än att uppgradera till en större modell. Jag har sett studenter grubbla länge på vilken app som är "mest exakt" medan de dikterar in i en laptopmic på ett kafé. Appen var aldrig problemet. Det var ljudet.

För en onlinelektion eller ett Zoom-möte fungerar det bra att fånga loopback-ljud, eftersom talet redan kommer via rena digitala kanaler. För en stor sal i verkligheten är det realistiska svaret att spela in nära källan – sätt dig nära framme eller använd en clip-on-mikrofon – och transkribera efteråt. Ingen app förvandlar en grumlig salsinspelning till ett perfekt transkript. De omvandlar bra ljud till bra text, och dåligt ljud till "en antilopsmör".

Lokalt och molnbaserat sätter en integritetsgräns studenter borde se

De flesta jämförelser av föreläsningsappar hoppar över den här delen, och det är den jag hade brytt mig mest om som student. Var bearbetas ljudet? Två svar. Molnverktyg skickar din inspelning till en server, transkriberar den där och skickar tillbaka texten. Lokala verktyg gör allt på din laptop utan att något lämnar maskinen.

Ärligt talat är molnbaserad transkription av en föreläsning ett integritetsbeslut som folk fattar utan att inse att de gör det. En inspelning av din professor – deras ord, deras opublicerade forskning, sidokommentaren om den kommande tentan – som ligger i en leverantörs loggar är en liten sak tills det inte är det längre. Lokalt först, annars inte alls. Det är ett starkare påstående än jag brukar göra, och jag backar det: när en inspelning bara finns på din laptop finns det inget serverintrång som kan läcka den, ingen förändring av användarvillkoren som i smyg ger träningsrättigheter, inget konto du glömde radera.

Whisper
Den riktiga Whisper-appen – både lokala motorer och det valfria molnet i ett och samma fönster. Klicka runt i Inställningar.

Whisper kör lokal transkription i ren Rust utan Python-sidecar, med två motorer att välja mellan. Local Whisper erbjuder flera modellstorlekar, från en Base-modell på ungefär 140 MB till en flerspråkig Large v3 på ungefär 3 GB, och de flerspråkiga varianterna täcker 99 språk med översättning till engelska. NVIDIA Parakeet är en modell på ungefär 600 MB, täcker engelska plus 24 europeiska språk (25 totalt) och kör 5 till 10 gånger snabbare än Whisper på en CPU, men kan inte översätta eller hantera asiatiska språk. Om du vill ha bästa kvalitet och webbåtkomst finns också ett molnläge som använder din egen OpenAI-nyckel. Hela den lokala pipelinen är gratis för alla inloggade användare utan krav på kort vid registrering; molnet är ett betalt tillägg. Det hela fungerar också helt utan internet, och det finns en längre genomgång i vår guide till offline tal-till-text om det är din huvudfråga.

De andra föreläsningsapparna värda att känna till

Whisper är ett dikteringsverktyg, inte en bot som spelar in salen, så för liveinspelning av föreläsningar är det ärliga draget att hänvisa dig till appar byggda för det. Här är hur de vanligaste alternativen skiljer sig åt, med riktiga siffror där en primärkälla angett dem.

AppByggd förVar ljud bearbetasGratisplan i praktikenSpråk
Whisper by RemskillDiktera egna anteckningar och sammanfattningarLokalt (Whisper eller Parakeet) eller moln med din egen nyckelHela den lokala pipelinen gratis, inget kort99 på flerspråkigt Whisper; 25 på Parakeet
OtterSpela in och sammanfatta livemöten/lektionerCloud300 min/månad, max 30 min per inspelningUppges ej av källan
Apple Voice MemosSpela in en föreläsning och sedan läsa ett transkriptApple (inbyggt)Ingår i macOSUppges ej av källan
NottaMoln-AI-anteckningsverktyg för möten/lektionerCloudPrissättning ej verifieradDussintals, enligt Nottas egna uppgifter
Hur vanliga alternativ för föreläsningstranskription skiljer sig vad gäller vad de fångar, var ljud bearbetas och vad som ingår gratis.

Ett par av de raderna förtjänar en mening. Otters gratisplan Basic ger 300 transkriptionsminuter per månad med ett tak på 30 minuter per inspelning, vilket innebär att en enstaka 90 minuter lång föreläsning inte ryms i en gratis inspelning. Apple Voice Memos kan spela in ljud och sedan visa ett transkript av det, så för Mac-studenter är det ett genuint "spela in lektionen, läs den sen"-alternativ som redan finns på maskinen. Notta säger att de stöder dussintals språk, men jag kunde inte öppna deras prissida för att verifiera minutgränserna – behandla plandetaljerna som "kolla innan du binder dig".

När du bör välja bort Whisper för föreläsningar

Om ditt faktiska behov är att ställa ett verktyg framför en levande professor och gå därifrån med deras ord – välj bort Whisper. Vi transkriberar det du dikterar, inte vad någon tvärs över salen säger. För övervakad liveinspelning, välj ett verktyg som är byggt för det. På en Mac spelar Apple Voice Memos in rummet och visar sedan ett transkript gratis, helt utan installation. Vill du ha livemötesupptagning med talarmärkning och sammanfattningar är Otter byggt för det. Gratisplanen klarar 300 minuter per månad, men gränsen på 30 minuter per inspelning innebär att en hel föreläsning kräver betalplanen. Använd Whisper för studierna som sker efter lektionen: sammanfattningen du dikterar, problemet du pratar igenom, mejlet du skickar medan du lagar middag.

Gratis lokal transkription, Pro för molnfunktioner

Här är det studenter frågar mest om: kostnad. Hela den lokala sidan av Whisper – båda motorerna, AI-städning via en lokal modell, historik, anpassat kortkommando och modellnedladdningar – är gratis för alla inloggade användare, utan krav på betalningsuppgifter vid registrering. Det är ett medvetet val. Lokal transkription kör på din laptops egen CPU. Att ta ut en månadsavgift för beräkningskraft du redan betalt för har aldrig känts rätt.

Den betalda nivån, Whisper Pro, lägger till molnfunktioner: OpenAI-molntranskription, moln-AI-förbättring och röststyrd webbsökning. Det är den del som har en kostnad per användning hos OpenAI och en server i flödet, och den sitter därför bakom en prenumeration med en kort molnprovperiod. De exakta siffrorna finns på prissidan. För ren föreläsnings- och studiediktion stannar de flesta studenter på den gratis lokala nivån. Det är poängen.

En tisdagskväll förra terminen stod jag och packade matlådor (smörgås, frukt, den yoghurt den yngste vägrar äta) när min äldre dotter behövde ett svar till sin lärare om en utflykt. Jag tog upp laptopen med ena handen, höll in tangenten och dikterade mejlet mellan gurkskivorna: en paus för att kolla hur läraren stavade sitt namn, en paus till när den yngste frågade varför månen ibland inte syntes, och sedan vidare. Mejlet skickades. Matlådorna blev klara. Min handstil hade, om jag ska vara ärlig, inte åstadkommit något av det. Det är den versionen av transkription som passar ett verkligt liv – inte en bot i en föreläsningssal, utan en röst som hänger med när händerna är fulla. Välj verktyget som matchar jobbet, och gå sedan och plugga. Se hur Whisper fungerar.

Vill du prova det inför nästa studiesession?

Ladda ner Whisper, håll in tangenten och diktera din föreläsningssammanfattning medan den är färsk. Hela den lokala pipelinen är gratis.

Gratis lokal transkription för alla inloggade användare – inget kort vid registrering.

Foto på Denys Medvediev

Denys Medvediev

Jag är den som läser vår supportpost – troligen dikterad som svar.

Vidare läsning