Människa vs. maskin

Två olika metoder

De som har arbetat med forskningsunderlag eller andra områden där en skriftlig version av en ljudfil är nödvändig känner säkert till att det finns maskintranskribering. Det innebär att ett program läser in din ljudfil och genererar en textversion utifrån ljudet, i stället för att en människa sitter och lyssnar och skriver ut det. Men kan dessa två metoder verkligen anses vara jämbördiga?

Ibland hör maskinen fel…

Det finns många saker en maskin inte kan ta med i beräkningen: tonläge, nyanser i talet, särskiljning mellan röster som är för lika, och så vidare. Dessutom måste alltid en människa i slutändan gå igenom transkriptionen manuellt för att säkerställa att den är korrekt, lägga till passande skiljetecken, samt rätta på de ställen där maskinen har hört fel. För vad sägs om de här felhörningarna mellan maskin och människa:

Maskin: ”… det gäller att vara stroganoff förstår du.”
Människa: ”… det gäller att vara strong enough, förstår du.”

Maskin: ”Hur katten ser ut. Ja. Vit och platt får man väl sälja.”
Människa: ”Hur katten ser ut? Ja … Vit och svart, får man väl säga.”

Människan vinner i slutändan!

Förutom de tydliga felen när det gäller rena ord så vinner man mycket på att få med hur saker och ting sägs, för att lättare kunna få fram nyanserna i talet (extra viktigt om du gör kvalitativa studier, till exempel). Så det finns mycket att vinna på att låta en människa transkribera din ljudfil!