Guide
Transkribera YouTube-videor: 3 sätt
Tre metoder täcker nästan allt: öppna videons egen transkriptionspanel, klistra in länken i en gratisgenerator eller diktera dina egna anteckningar med rösten. De två första kräver bara en webbläsare.
Senast uppdaterad: juni 2026

För att transkribera YouTube-videor täcker tre metoder nästan allt: öppna videons egen Visa transkription-panel för vilken video som helst med textning, klistra in länken i en gratis transkriptionsgenerator online för renare text och nedladdningar, eller fånga och diktera dina egna anteckningar med ett skrivbordsverktyg. De två första kräver bara en webbläsare.
Förra veckan lade jag tjugo minuter på att försöka kopiera tre meningar ur ett fyrtio minuter långt konferensföredrag. Inte transkribera hela. Tre meningar, sagda någonstans runt artonminutersmarkeringen, som jag ville citera i ett mejl. Jag spolade fram och tillbaka som om jag desarmerade en bomb. Den tråkiga sanningen är att de flesta som söker efter ett verktyg för att transkribera YouTube-videor inte behöver hela transkriptionen. De vill läsa istället för att titta, fånga ett citat eller förvandla en video till anteckningar de kan söka i senare.
YouTube-videor samlas i flikar på samma sätt som olästa böcker samlas på en hylla, och att titta på en i normal hastighet är det långsammaste sättet att få ut information ur den. Just nu är sökresultaten för det här en vägg av klistra-in-länken-widgetar, alla nästan identiska, alla med löfte om gratis transkriptioner på sekunder. De flesta av dem fungerar bra. Frågan är vilken metod som passar det du håller på med. Den här guiden går igenom tre: YouTubes egen inbyggda transkription, gratisgeneratorer där du klistrar in en URL, och ett skrivbordsverktyg för diktering för den del som generatorerna inte klarar. När du är klar vet du vilken du ska ta till på under tio sekunder, och du kommer inte sitta och spola i tidslinjen med sammanbiten käke. Jag läser vår support-mejl, så jag har sett många välja fel först. Oftast precis efter att jag själv valt fel först.
Det gratis sättet finns redan inuti YouTube
Om videon har textning har du redan transkriptionen. Du behöver inget verktyg, inget konto och inget kreditkort. Öppna videon, titta under den efter beskrivningsområdet och klicka på Visa transkription. En panel öppnas bredvid spelaren med hela texten, och när videon spelas rullar panelen till den rad som sägs. Klicka på vilken rad som helst så hoppar videon till det ögonblicket.
Det här är metoden som de flesta artiklar gömmer längst ner, antagligen för att det inte finns något att sälja runt den. Den fungerar både på dator och mobil. Haken: videon måste ha textning från första början. De flesta populära kanaler har det, antingen autogenererat eller upplagt av den som laddat upp, men en liten kreatörs äldre uppladdning kanske inte har det.
Kolla att det funkade: transkriptionspanelen visar text som rullar i takt med ljudet. Om den inte öppnas alls har videon ingen textning, och då går du vidare till metod två.
En sak till som folk missar. Transkriptionspanelen har en liten meny för att slå av tidsstämplarna, vilket gör texten mycket lättare att kopiera som ren prosa. Den inställningen finns i panelen, inte i supportdokumentationen. Den är väldokumenterad men inte på YouTubes officiella hjälpsida. Värt att veta innan du klistrar in en vägg av siffror i ett dokument.
Klistra in en länk, få renare text
När du vill ha transkriptionen utanför YouTube (för att ladda ner den, köra den genom en sammanfattare, eller läsa en video som krånglar med den inbyggda panelen) är en gratisgenerator där du klistrar in URL:en rätt drag. Formen är alltid densamma. Kopiera YouTube-URL:en, klistra in den i en ruta, få tillbaka texten.
Tactiqs gratis YouTube-transkriptionsgenerator tar emot en inklistrad URL, kräver ingen installation, ingen inloggning och ingen e-post, och låter dig ladda ner resultatet som en .txt-fil. Den är rak på sak med att den automatiska taligenkänningen inte alltid är 100 % korrekt, vilket är det ärliga att säga. NoteGPT:s generator gör samma klistra-in-länken-trick, lämnar tillbaka en transkription med tidsstämplar, stöder flera språk, låter dig kopiera med eller utan tidsstämplarna och bjuder dessutom på AI-sammanfattning. Det rankade förstaresultatet, youtubetotranscript.com, gör reklam för översättning, längdgränser och ett API i sin FAQ. Ta det som påståenden, inte testat.
Kolla att det funkade: du kan markera, kopiera eller ladda ner transkriptionstexten. Om verktyget hänger sig eller inte returnerar något har videon oftast ingen textning att hämta från. Dessa generatorer läser YouTubes befintliga textningsspår, de lyssnar inte på ljudet.
Den sista meningen är hela begränsningen. Och det är där den tredje metoden kommer in.
Det som länkverktygen inte klarar
Varje metod ovan är beroende av att YouTube har ett textningsspår att lämna ifrån sig. Ingen textning, ingen transkription. Det täcker de flesta offentliga videor, men det lämnar en lucka: ljud som inte alls är en offentlig YouTube-video. En privat länk som någon delat med dig. En livestream som inte har textning ännu. Ett klipp i en kursspelare. Ditt eget material innan du laddar upp det.
Det lämnar också en andra, tystare lucka. Ibland vill du inte ha videons ord. Du vill ha dina egna ord om videon. Anteckningen du skulle skriva medan du tittar. Sammanfattningen i dina egna formuleringar. De tre meningarna du skulle diktera till en kollega för att förklara varför det här föredraget är viktigt.
Det är här ett röstverktyg för skrivbordet gör sig förtjänt av sin plats, och det är värt att vara precis med vad det gör och inte gör. Whisper by Remskill är en diktatapp som styrs med ett kortkommando. Tryck på kortkommandot, prata i mikrofonen, så landar dina ord som text vid markören i vilken app du än befinner dig i. Den tar inte emot en YouTube-länk och transkriberar videon åt dig. Det är klistra-in-länken-generatorernas jobb, inte vårt. Det den gör är att låta dig titta på en video och fånga dina egna anteckningar genom att prata istället för att skriva, vilket för många faktiskt är den uppgift som gömmer sig bakom transkribera den här videon.
Prata dina anteckningar medan videon spelas
Så här ser arbetsflödet jag använder ut. Spela videon. När något är värt att behålla, håll in kortkommandot, säg anteckningen högt, släpp. Texten dyker upp i ditt dokument. Inget flikbyte, ingen paus för att skriva, ingen tappad tråd.
På Windows är standardkortkommandot Ctrl+Space. På macOS är det ett tryck-och-prata-ackord med bara modifierartangenter: håll in Command+Option tillsammans, släpp endera tangenten för att stoppa. Du kan ändra det i Inställningar om det krockar med något. Inspelningsoverlayen visar dig att den lyssnar, så du behöver aldrig gissa om den fångade dig.
Transkriptionen körs på två sätt, och du väljer. Lokalt läge körs på din egen maskin via två rena Rust-motorer: OpenAI Whisper, med modellstorlekar från runt 140 MB upp till cirka 3 GB och 99 språk på de flerspråkiga varianterna, och NVIDIA Parakeet TDT, en enda modell på ~600 MB som täcker 25 språk (engelska plus 24 europeiska), den snabbare av de två. Ingenting lämnar din laptop i lokalt läge. Molnläge är ta-med-din-egen OpenAI-nyckel, som använder gpt-4o-mini-transcribe eller gpt-4o-transcribe för tal-till-text, för när du vill ha de senaste modellerna och webbåtkomst.
Det lokala flödet är gratis för varje inloggad användare; molnet är Whisper Pro-lagret.
Det här är den del där jag erkänner mitt eget partiska synsätt. De flesta produktivitetsverktyg är skrivproblem i förklädnad. En anteckningsapp, en urklippshanterare, en andra hjärna med elva nästlade databaser: under allt ihop är det samma handling att flytta fingrarna över tangenterna för att fånga något du redan vet hur du ska säga. Diktering hoppar över tangentbordet. Att prata går i runt 145 ord per minut mot ungefär 40 för att skriva, så en videoanteckning som tog en minut att skriva tar cirka femton sekunder att säga. Lösningen på ett skrivproblem är oftast inte en snyggare app. Det är att inte skriva.
Kolla att det funkade: du kan titta på hela videon och sluta med en sida full av anteckningar utan att någonsin röra tangentbordet annat än för att scrolla.
Tidsstämplar, SRT-filer och andra språk
Tre saker som folk frågar efter och som inte alla kommer från samma ställe, så låt mig reda ut det.
Tidsstämplar. YouTubes inbyggda panel och NoteGPT ger dig båda rader med tidsstämplar som du kan kopiera med eller utan siffrorna. Om du vill ha tidsstämplar knutna till videons befintliga textning, använd dem. Ett diktatverktyg för mikrofon vet inte var du befinner dig i någon annans video.
SRT- och VTT-undertextfiler. Det här är ett jobb för att exportera undertexter. OpenAI:s egen tal-till-text-API kan mata ut srt- och vtt-format med whisper-1-modellen, och redigeringsverktyg som Descript skapar undertextfiler från media du laddar upp. Whisper by Remskill klistrar in ren text vid markören. Den är byggd för att få in ord i dina appar, inte för att skapa en .srt-fil. Rätt verktyg, rätt jobb.
Andra språk. Klistra-in-länken-generatorerna hanterar flera språk från YouTubes textningsspår. Om du dikterar dina egna flerspråkiga anteckningar täcker den lokala Whisper-motorn 99 språk på sina flerspråkiga modeller och kan översätta tal till engelska; Parakeet täcker 25 och översätter inte. För steg-för-steg-uppsättning av diktering går guiden till röst-till-text-appen igenom hela grejen.
Intervjuer och inspelade samtal. Samma dra-och-släpp-flöde för filer hanterar inspelade intervjuer, där du oftast vill ha ren talartext ur en lång sittning. Vår guide om hur du transkriberar intervjuer automatiskt täcker just det fallet från början till slut.
När du ska hoppa över Whisper helt
Om ditt enda jobb är att läsa en offentlig YouTube-video som text, hoppa över Whisper och tänk inte två gånger. YouTubes inbyggda transkription är gratis, direkt och redan installerad i din webbläsare.
Om du behöver en nedladdningsbar fil eller en renare kopia gör en gratisgenerator som Tactiq det utan konto och utan e-post, och exporterar en .txt.
Om du klipper in undertexter i en video du redigerar är en tung redigerare som Descript (som gör reklam för 30-plus språk och upp till 95 % noggrannhet på uppladdat material) rätt kategori, inte vi. Vi är till för den del de verktygen inte rör: att fånga dina egna ord, med rösten, medan du tittar.
Eftermiddagen då jag förlorade tjugo minuter på tre meningar gick min äldsta dotter förbi, såg mig spola samma tio sekunder för fjärde gången, och frågade varför jag inte bara läste det. Jag sa att videon inte kom med någon transkription. Hon sa att allt har en transkription nu, pappa, och gick iväg för att göra läxor som hon en timme senare skulle förhandla sig ur. Hon hade till stor del rätt. Transkriptionen finns oftast redan där: under videon, bakom en länk, eller ett kortkommando bort i dina egna ord.
Testa det på din nästa video
Ladda ner Whisper och diktera din nästa omgång videoanteckningar istället för att skriva dem.
Gratis för hela det lokala flödet. Inget kort vid registrering.



