Veiledning
Transkribere YouTube-videoer: 3 måter
Tre metoder dekker nesten alt: åpne videoens egen transkripsjonspanel, lim lenken inn i en gratis generator, eller diktér dine egne notater med stemmen. De to første trenger bare en nettleser.
Sist oppdatert: juni 2026

For å transkribere YouTube-videoer dekker tre metoder nesten alt: åpne videoens eget Vis transkripsjon-panel for enhver video med teksting, lim lenken inn i en gratis transkripsjonsgenerator på nett for renere tekst og nedlastinger, eller fang og diktér dine egne notater med et skrivebordsverktøy. De to første trenger bare en nettleser.
Forrige uke brukte jeg tjue minutter på å prøve å kopiere tre setninger ut av et førti minutter langt konferanseforedrag. Ikke transkribere hele greia. Tre setninger, sagt et sted rundt attenminuttersmerket, som jeg ville sitere i en e-post. Jeg spolte fram og tilbake som om jeg desarmerte en bombe. Den kjedelige sannheten er at de fleste som griper etter et verktøy for å transkribere YouTube-videoer ikke trenger hele transkripsjonen. De trenger å lese i stedet for å se, ta et sitat, eller gjøre en video om til notater de kan søke i senere.
YouTube-videoer hoper seg opp i faner på samme måte som uleste bøker hoper seg opp i hylla, og å se én i normal hastighet er den tregeste måten å få informasjon ut av den på. Akkurat nå er søkeresultatene for dette en vegg av lim-inn-lenken-widgeter, alle nesten identiske, alle med løfte om gratis transkripsjoner på sekunder. De fleste av dem fungerer fint. Spørsmålet er hvilken metode som passer det du holder på med. Denne guiden går gjennom tre: YouTubes egen innebygde transkripsjon, gratis generatorer der du limer inn URL-en, og et skrivebordsverktøy for dikteringen de generatorene ikke kan røre. Når du er ferdig, vet du hvilken du skal gripe etter på under ti sekunder, og du slipper å spole i en tidslinje med kjevene knyttet. Jeg leser support-e-posten vår, så jeg har sett mange folk velge feil først. Som oftest rett etter at jeg selv valgte feil først.
Den gratis måten finnes allerede inni YouTube
Hvis videoen har teksting, har du allerede transkripsjonen. Du trenger ikke et verktøy, en konto eller et kredittkort. Åpne videoen, se under den etter beskrivelsesområdet, og klikk Vis transkripsjon. Et panel åpnes ved siden av spilleren med hele teksten, og mens videoen spilles ruller panelet til linjen som blir sagt. Klikk på en linje, og videoen hopper til det øyeblikket.
Dette er metoden de fleste artikler gjemmer nederst, sannsynligvis fordi det ikke er noe å selge rundt den. Den fungerer både på datamaskin og mobil. Haken: videoen må ha teksting i utgangspunktet. De fleste populære kanaler har det, enten autogenerert eller lagt til av opplasteren, men en eldre opplasting fra en liten skaper har det kanskje ikke.
Sjekk at det fungerte: transkripsjonspanelet viser tekst som ruller i takt med lyden. Hvis det ikke åpnes i det hele tatt, har videoen ingen teksting, og du går videre til metode to.
Én ting til som folk overser. Transkripsjonspanelet har en liten meny for å slå av tidsstemplene, noe som gjør teksten langt enklere å kopiere som ren prosa. Den bryteren ligger i panelet, ikke i hjelpedokumentasjonen. Den er godt dokumentert, men ikke på YouTubes offisielle hjelpeside. Verdt å vite før du limer en vegg av tall inn i et dokument.
Lim inn en lenke, få renere tekst
Når du vil ha transkripsjonen utenfor YouTube (for å laste den ned, kjøre den gjennom et oppsummeringsverktøy, eller lese en video som kjemper mot deg i det innebygde panelet), er en gratis generator der du limer inn URL-en veien å gå. Formen er alltid den samme. Kopier YouTube-URL-en, lim den inn i en boks, få teksten tilbake.
Tactiqs gratis YouTube-transkripsjonsgenerator tar en innlimt URL, krever ingen installasjon, ingen innlogging og ingen e-post, og lar deg laste ned resultatet som en .txt-fil. Den er ærlig på at den automatiske talegjenkjenningen ikke alltid er 100 % nøyaktig, noe som er det redelige å si. NoteGPTs generator gjør det samme lim-inn-lenken-trikset, gir tilbake en transkripsjon med tidsstempler, støtter flere språk, lar deg kopiere med eller uten tidsstemplene, og kaster inn AI-oppsummering på toppen. Resultatet på førsteplass, youtubetotranscript.com, reklamerer for oversettelse, lengdegrenser og et API i sin FAQ. Behandle de tingene som annonsert, ikke testet.
Sjekk at det fungerte: du kan markere, kopiere eller laste ned transkripsjonsteksten. Hvis verktøyet stopper opp eller ikke gir noe tilbake, har videoen som regel ingen teksting å hente fra. Disse generatorene leser YouTubes eksisterende tekstingsspor, de lytter ikke på lyden.
Den siste setningen er hele begrensningen. Og det er der den tredje metoden kommer inn.
Det lenkeverktøyene ikke kan gjøre
Alle metodene over avhenger av at YouTube har et tekstingsspor å gi fra seg. Ingen teksting, ingen transkripsjon. Det dekker de fleste offentlige videoer, men det etterlater et hull: lyd som ikke er en offentlig YouTube-video i det hele tatt. En privat lenke noen delte med deg. En direktesending uten teksting ennå. Et klipp i en kursavspiller. Ditt eget opptak før du laster det opp.
Det etterlater også et annet, stillere hull. Noen ganger vil du ikke ha videoens ord. Du vil ha dine egne ord om videoen. Notatet du ville skrevet mens du så. Oppsummeringen i din egen formulering. De tre setningene du ville diktert til en kollega for å forklare hvorfor dette foredraget betyr noe.
Det er her et skrivebordsbasert stemmeverktøy gjør seg fortjent til plassen sin, og det er verdt å være presis på hva det gjør og ikke gjør. Whisper by Remskill er en dikteringsapp som styres med en hurtigtast. Trykk på hurtigtasten, snakk inn i mikrofonen, og ordene dine lander som tekst der markøren står, i hvilken app du enn er i. Den tar ikke en YouTube-lenke og transkriberer videoen for deg. Det er jobben til lim-inn-lenken-generatorene, ikke vår. Det den gjør, er å la deg se en video og fange dine egne notater ved å snakke i stedet for å skrive, noe som for mange er den egentlige oppgaven som gjemmer seg bak transkribér denne videoen.
Snakk notatene dine mens videoen spilles
Her er arbeidsflyten jeg bruker. Spill av videoen. Når noe er verdt å beholde, hold inne hurtigtasten, si notatet høyt, slipp. Teksten dukker opp i dokumentet ditt. Ingen fanebytte, ingen pause for å skrive, ingen tapt tråd.
På Windows er standardhurtigtasten Ctrl+Space. På macOS er det en push-to-talk-akkord med kun modifikatortaster: hold Command+Option samtidig, slipp én av tastene for å stoppe. Du kan endre den i Innstillinger hvis den kolliderer med noe. Opptaksoverlegget viser deg at det lytter, så du gjetter aldri på om det fikk med seg det du sa.
Transkripsjonen kjører på to måter, og du velger. Lokal modus kjører på din egen maskin gjennom to motorer skrevet i ren Rust: OpenAI Whisper, med modellstørrelser fra rundt 140 MB opp til omtrent 3 GB og 99 språk på de flerspråklige variantene, og NVIDIA Parakeet TDT, en enkelt modell på ~600 MB som dekker 25 språk (engelsk pluss 24 europeiske), den raskeste av de to. Ingenting forlater den bærbare PC-en din i lokal modus. Skymodus er bring-din-egen OpenAI-nøkkel, og bruker gpt-4o-mini-transcribe eller gpt-4o-transcribe til tale-til-tekst, for når du vil ha de nyeste modellene og nettilgang.
Den lokale pipelinen er gratis for alle innloggede brukere; sky er Whisper Pro-laget.
Dette er delen der jeg innrømmer min egen slagside. De fleste produktivitetsverktøy er skriveproblemer i forkledning. En notatapp, en utklippstavlehåndterer, en andre-hjerne med elleve nøstede databaser: under alt sammen ligger den samme handlingen — å flytte fingrene over tastene for å fange noe du allerede vet hvordan du skal si. Diktering hopper over tastaturet. Å snakke ligger på rundt 145 ord i minuttet mot omtrent 40 for skriving, så et videonotat som tok et minutt å skrive tar omtrent femten sekunder å si. Løsningen på et skriveproblem er som regel ikke en mer elegant app. Den er å ikke skrive.
Sjekk at det fungerte: du kan se hele videoen og ende opp med en side full av notater uten å røre tastaturet annet enn for å scrolle.
Tidsstempler, SRT-filer og andre språk
Tre ting folk spør om som ikke alle kommer fra samme sted, så la meg sortere dem.
Tidsstempler. YouTubes innebygde panel og NoteGPT gir deg begge linjer med tidsstempler som du kan kopiere med eller uten tallene. Hvis du vil ha tidsstempler knyttet til videoens eksisterende teksting, bruk dem. Et mikrofonbasert dikteringsverktøy vet ikke hvor du er i en annens video.
SRT- og VTT-undertekstfiler. Dette er en undertekst-eksportjobb. OpenAIs egen tale-til-tekst-API kan gi ut srt- og vtt-formater med whisper-1-modellen, og redigeringsverktøy som Descript lager tekstfiler fra medier du laster opp. Whisper by Remskill limer inn ren tekst der markøren står. Den er bygget for å få ord inn i appene dine, ikke for å lage en .srt-fil. Rett verktøy, rett jobb.
Andre språk. Lim-inn-lenken-generatorene håndterer flere språk fra YouTubes tekstingsspor. Hvis du dikterer dine egne flerspråklige notater, dekker den lokale Whisper-motoren 99 språk på de flerspråklige modellene og kan oversette tale til engelsk; Parakeet dekker 25 og oversetter ikke. For trinn-for-trinn-oppsett av diktering går guiden til stemme-til-tekst-appen gjennom hele greia.
Intervjuer og innspilte samtaler. Den samme dra-og-slipp-fil-flyten håndterer innspilte intervjuer, der du som regel vil ha ren tekst per taler ut av en lang prat. Guiden vår om hvordan du transkriberer intervjuer automatisk dekker akkurat det tilfellet fra start til slutt.
Når du skal hoppe over Whisper helt
Hvis den eneste jobben din er å lese en offentlig YouTube-video som tekst, hopp over Whisper og ikke tenk to ganger. YouTubes innebygde transkripsjon er gratis, umiddelbar og allerede installert i nettleseren din.
Hvis du trenger en nedlastbar fil eller en renere kopi, gjør en gratis generator som Tactiq det uten konto og uten e-post, og eksporterer en .txt.
Hvis du klipper undertekster inn i en video du redigerer, er en tung redigerer som Descript (som reklamerer for 30 pluss språk og opptil 95 % nøyaktighet på opplastede medier) den rette kategorien, ikke oss. Vi er til for delen de verktøyene ikke rører: å fange dine egne ord, med stemmen, mens du ser.
Den ettermiddagen jeg tapte tjue minutter til tre setninger, gikk den eldste datteren min forbi, så på meg mens jeg spolte de samme ti sekundene for fjerde gang, og spurte hvorfor jeg ikke bare leste det. Jeg sa at videoen ikke kom med en transkripsjon. Hun sa at alt har en transkripsjon nå, pappa, og gikk for å gjøre lekser hun en time senere ville forhandle seg ut av. Hun hadde stort sett rett. Transkripsjonen er som regel allerede der: under videoen, bak en lenke, eller én hurtigtast unna i dine egne ord.
Prøv det på din neste video
Last ned Whisper og diktér din neste runde med videonotater i stedet for å skrive dem.
Gratis for hele den lokale pipelinen. Ingen kort ved registrering.



