Talegenkendelse er automatisk genkendelse og omsætning til maskinlæsbar skrift af sproglyde i sammenhængende tale. Talegenkendelse er den umiddelbart største udfordring inden for taleteknologien.
Der har været arbejdet med talegenkendelse siden 1950'erne, men de væsentligste fremskridt er sket efter 1980, hvor man begyndte at anvende statistiske metoder til modellering af det talte sprogs basale elementer, fonemerne. Senere i 1980'erne inddrog man desuden lingvistiske metoder, som udnytter sprogets grammatiske, semantiske og pragmatiske forhold. I 1990'erne gennemløb forskningen i talegenkendelse en rivende udvikling, bl.a. mht. menneske-maskine-kommunikation.
For at computeren kan genkende naturlig tale, må den have adgang til store databaser med akustiske og tekstuelle data. Taledatabaser indeholder talesignaler, der er repræsentative for den måde, et sprog bruges og tales på tværs af aldersklasser, dialektale forskelle og køn. Tekstuelle databaser indeholder store mængder af tekst, der repræsenterer forskellige kategorier af det skrevne sprog, som det fx forekommer i aviser og korrespondance. Disse sproglige resurser er i stort omfang indsamlet siden begyndelsen af 1990'erne.
Ved talegenkendelse indledes den computerbaserede bearbejdning af det digitaliserede talesignal, fx en talt sætning, med, at computeren på grundlag af en fast opdeling af signalet i tidsintervaller, fx af 20 ms varighed, analyserer signalets frekvensindhold. Derefter sammenlignes resultaterne fra hvert tidsinterval med et stort antal lydmodeller, ordmodeller og en sprogmodel. Hver lydmodel er karakteristisk for et bestemt fonem fra det talte sprog, og hvert ord foreligger i form af én eller flere modeller for mulige udtalevarianter. Sprogmodellen beskriver ords potentielle føjninger til korrekte sætninger. Med dagens teknik består talegenkendelsessystemer af analyse- og sammenligningsmoduler samt hertil knyttede modeldatabaser.
Efter denne indledende bearbejdning finder computeren vha. et sandsynlighedsmål mindst ét skøn på en mulig opdeling af talesignalet. Først findes en kæde af fonemer svarende til det talte signal, som herefter sammenlignes med mulige ordudtaler, der findes i databasen med ordmodeller. Det fører til en kæde af ord, som igen sammenlignes med sprogmodellen, der indeholder mulige sætninger.
En lydmodel kan beskrives ved en såkaldt Markovmodel, der er en statistisk repræsentation af, i hvilke akustiske sammenhænge et fonem kan manifesteres i naturlig tale. Ved talegenkendelse modelleres en fonembaseret Markovmodel ofte ved en såkaldt trifon, der matematisk beskrives vha. tre sandsynlighedsfunktioner. For de to yderste lyddele afhænger sandsynlighedsfunktionen dels af en del af fonemet selv, dels af dets påvirkning fra nabofonemet. Sandsynlighedsfunktionen for den midterste lyddel afhænger af lyden i den centrale del af fonemet. Sandsynlighedsfunktionerne "trænes" og fastlægges på grundlag af frekvensanalyserede talesignaler for alle sprogets fonemer. I praksis omfatter træningen flere tusinde trifonmodeller.
Koartikulation, det forhold, at artikulationen af en sproglyd overlapper med artikulationen af den foregående og/eller den efterfølgende, fører ofte til flere, lige sandsynlige ordkæder. Hvert ord er sammenføjet af flere trifoner, fx vil ordet for tallet "seks" være sammenføjet af de fire trifoner [sɛgs]. Ordet "otte" kan både være sammenføjet af tre trifoner [ɔ:də] og af to trifoner [ɔ:d].
For at genkendelsen kan afgøre, hvilket ord der bedst svarer til et givet talesignal, er det nødvendigt at bibringe computeren viden om mulige ordføjninger (syntaks/grammatik). Computeren programmeres med denne viden i form af en sprogmodel. Den består af mulige føjninger af ord til sætninger, og sprogmodellen benyttes af genkenderen til at undersøge sandsynligheden for, at sætninger i sprogmodellen svarer til talesignalet. På grundlag heraf beslutter computeren, hvilken sætning der med størst sandsynlighed repræsenterer talesignalet. Et fragment af en sprogmodel kan fx bestå af de mulige ordføjninger, der skal til for at genkende et vilkårligt af tallene fra "nul" til "nioghalvfems". Træning af en sprogmodel sker vha. de tekstuelle databaser og fører til mulige sætninger som grundlag for genkendelse af naturlig tale.
Det er i praksis ikke muligt at få sprogmodellen til at arbejde med en grammatik, der beskriver hele sproget. I anvendelser med talegenkendelse arbejdes der derfor ofte med en stærkt begrænset sprogmodel (et såkaldt delsprog), som kan beskrives vha. langt mere simple og mindre omfattende ordføjninger. Ordgenkendelsesraten er procentdelen af ord, der i middel genkendes korrekt ud af et givet antal testord. Tilsvarende er sætningsgenkendelsesraten procentdelen af sætninger, der genkendes korrekt. Genkendelsesraten for sætninger er lavere end for ord, idet den teoretisk er lig med ordgenkendelsesraten opløftet i en potens, der er givet ved antallet af ord i sætningen. Udnyttelse af sprogmodellen i forbindelse med genkendelsen medfører imidlertid, at sætningsgenkendelsesraten øges i forhold til den teoretiske bundgrænse.
Der er mange faktorer, der afgør et systems genkendelsesrate. Ud over systemets indbyggede fejlmuligheder påvirkes raten af en række "ydre" forhold som støj fra omgivelserne samt størrelse og sværhedsgrad af både ordforråd og delsprog. Et talegenkendelsessystems anvendelighed kan dog forbedres med muligheden for online-fejlretning.
Anvendelsesmulighederne inden for talegenkendelse er fx nummeroplysning, hvor man indtaler navn og adresse på en person og får oplyst telefonnummer (vha. talesyntese), Call Center Automation til fx forenkling og billiggørelse af telefonbaserede spørgeskemaundersøgelser, diktering ved brevskrivning og journalisering og billetbestilling til bl.a. transportsystemer, teatre og biografer. Yderligere kan man forestille sig, at oplæsning i fx radio eller tv ved talegenkendelse simultant kan undertekstes for hørehæmmede.
Efterhånden som producenter og udbydere får erfaring med og indtjening fra taleteknologiske systemer, forventes der også at blive udviklet kompenserende hjælpemidler for handicappede, fx personer, der er ramt af afasi, har nedsat syn eller er blinde.
Kommentarer
Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.
Du skal være logget ind for at kommentere.