Kan maskinen ersätta människan?

Varför ska jag anställa en transkriberare? Det finns ju trots allt många olika dikteringsprogram i världen, där du helt enkelt kan tala in det du vill ha nedskrivet, så skriver programmet ut det i text. Jag har själv prövat sådana program när jag har velat göra anteckningar men inte orkat skriva, och ibland är resultatet användbart. Vid andra tillfällen blir det helt tokigt.

Hur fel kan det bli?

Som många andra av min generation tillbringar jag mycket tid på Youtube. Jag sätter ofta på undertexter, särskilt om jag gör något samtidigt som ger ljud ifrån sig, eller om jag inte vill ha ljud på just nu över huvud taget. Ofta tvingas jag då titta på Youtubes automatiska undertexter, och flera gånger per video vet jag då inte vad som har sagts. Antingen hoppar programmet över ord, eller missförstår och skriver fel ord, ibland på sätt som kan bli väldigt underhållande, men som inte speglar det personen i videon faktiskt sade. Jag såg nyligen en video där Henrik VIII av Englands hustru Anne Boleyn blev ”an balloon”.

Jag tänker även på en person i min närhet som skulle pröva ett mycket avancerat dikteringsprogram, och läste upp en lista på ord för att programmet skulle lära sig hens röst. Ordet ”bukspottskörteln” fick programmet då till ”håll käften”. Detta trots att personen ifråga befann sig i en lugn miljö utan störande ljud, och talade så tydligt hen kunde.

Hur kan det bli så fel?

Det kan röra sig om dialekter som programmet inte förstår, eller att personen talar för fort eller för långsamt. Det kanske finns mycket bakgrundsljud som stör, eller så är ljudkvaliteten helt enkelt så pass dålig att programmet inte ens förstår att någon pratar.

De bästa dikteringsprogrammen kan lära sig att känna igen just din röst och just hur du pratar, men det hjälper naturligtvis inte när du intervjuar många olika personer vid många olika tillfällen, men bara en gång per person. Programmet hinner inte lära sig.

Skillnaden mellan att höra och förstå

Framför allt är vi tyvärr inte i den ljusa framtid där dikteringsprogrammen förstår sig på logik. Du kan lära programmet att ”höra” orden som sägs, men är talet det minsta otydligt så gissar programmet helt enkelt hej vilt. En mänsklig transkriberare, däremot, vänjer sig dels mycket snabbare vid de röster den hör, och förstår när någonting låter logiskt tokigt. När detta händer kan vi lyssna om en gång till, kanske i långsammare eller snabbare takt för att göra det lättare att förstå. Kanske inser vi att vi måste köra filen igenom ett ljudredigeringsprogram för att få bort bakgrundsljudet som gör det svårt att höra. Framför allt så vet vi att ballonger inte fanns på 1500-talet, och förstår att i en medicinsk kontext (och troligen de flesta kontexter) är det betydligt troligare att vi hörde ordet ”bukspottskörteln” än att respondenten bad intervjuaren att hålla käften.