Stemmestyring og kunstig intelligens er for alvor ved at vinde indpas i mange danskeres hverdag.
Men det kan være frustrerende, hvis man gentagne gange skal bede sin Tesla om at åbne handskerummet, fordi den ikke helt kan forstå, hvad der bliver sagt.
Når man kommer fra Næstved, så har man nogle lidt voldsomme stød
Det kan særligt være en udfordring, hvis man taler dansk med dialekt.
For selvom Danmark er et lille land, så er der stor forskel på, hvordan sproget tales. Så stor, at den kunstige intelligens kan have svært ved at forstå det, hvis man for eksempel taler klingende sydsjællandsk.
- Dansk er så lille et sprog, så de store tech-virksomheder, der udvikler taleteknologier, fokuserer ikke så meget på det danske sprog, da det er et meget lille marked, siger Sif Bernstorff Lehmann, der er antropolog på Alexandra Instituttet.
Derfor er Alexandra Instituttet i gang med et større projekt kaldet CoRal, hvor de optager stemmer fra hele landet, som skal gøre den kunstige intelligens bedre til at forstå de forskellige måder at tale dansk på.
I alt skal der optages 1500 timers optagelser med danske dialekter.
Dialekt-charme
Fredag lagde projektet turen forbi Vordingborg. Her har frivillige kunnet tilmelde sig til at indtale cirka to timers bånd.
Det kan taleteknologi bruges til
Stemmestyrede hjælpemidler til for eksempel ældre, borgere med synshandicap eller særlige behov
Diktat af sundhedsjournaler eller automatisk dokumentation af samtaler med borgere eller kunder
Voice- og chatbots til for eksempel it-hjælp som nulstilling af passwords, navigation på hjemmesider, etc.
Bedre maskinoversættelse mellem dansk og andre sprog
Bedre digital oplæsning i for eksempel GPS eller i offentlig transport
Beslutningsstøtte med relevant viden til medarbejdere
Kilde: Alexandra Instituttet
Både i form af simpel oplæsning af en tekst og samtale med en anden.
En af dem er Anette Jensen fra Vordingborg.
- Jeg synes, der er en hvis charme i, at der i det her lille bitte land er så mange dialekter - så det ville være ærgerligt, hvis de forsvandt, siger hun.
Hun har ikke selv oplevet at blive misforstået på grund af sin dialekt. Alligevel lægger hun gerne stemme til projektet.
- Der er helt sikkert mennesker, der bliver misforstået inden for sundhedsvæsnet eller velfærd generelt, så hvis det her kan være med til at mindske misforståelse, så er det jo helt fantastisk, siger Anette Jensen.
Alexandra Instituttet har i TV2 ØSTs sendeområde også lagt turen forbi Næstved og Nykøbing Falster for at indsamle taledata.
At støde eller ikke at støde
Bare internt på Sjælland er der faktisk store afvigelser i, hvordan det danske sprog tales. Det fortæller Michael Ejstrup, der er sprogforsker.
- Det sjoveste område er mellem Næstved, Præstø og Vordingborg, for der skifter det helt vildt, siger han.
- Når man kommer fra Næstved, så har man nogle lidt voldsomme stød, som man i folkemunde oversætter til, at alle enstavelsesord bliver til tostavelsesord og omvendt. Så man siger the-e og kaf'.
- Når man så kommer til Præstø, så bliver stødene mindre vigtige og i Vordingborg, der ryger stødene helt væk, siger sprogforskeren.
Han har selv stået i spidsen for en podcast om dansk talesprog, hvor han blandt andet indsamlede optagelser af dansk fra forskellige egne og sociale lag. Og han bifalder, at Alexandra Instituttet nu vil forbedre den kunstige intelligens' forståelse af det danske sprogs finurligheder.
- Det er vildt godt, for det har vi brug for. Det der jo er kendetegnene for dialekter er, at vi siger ting på forskellige måder, så det er meget vigtigt at få mennesker fra hele landet til at sige noget, så vi får et bredere spektrum for, hvordan vi bruger sproget, siger Michael Ejstrup.
Et millionprojekt
Alexandra Instituttets indsamlinger er blot første fase i CoRal-projektet, der forventes at vare to år og ti måneder.
- I bund og grund er det jo et meget demokratisk projekt, for det handler om at gøre det muligt for alle at være med på den her teknologi-trend, siger Sif Bernstorff Lehmann.
Det samlede budget er på knap 22,2 millioner kroner, hvoraf 14,2 millioner er doneret af Innovationsfonden.
Alle data og modeller bliver testet og offentliggjort løbende.