Poiché nella comunicazione orale facciaa-faccia il segnale verbale viene trasmesso
contemporaneamente ad altre informazioni su
più canali, in particolare ad informazioni visive, tra le tecnologie del parlato si stanno sempre più imponendo all'attenzione dei ricercatori la sintesi e il riconoscimento bimodali uditivo-visivi.
Infatti, sebbene la modalità uditiva rappresenti il canale sensoriale più importante nel
processo di percezione del parlato, è stato
ormai accertato, sulla base delle ricerche sullo
speech-reading o lip-reading [1-3], che l'informazione estratta dai movimenti articolatori
visibili (movimento delle labbra, della mandibola, della lingua e visibilità dei denti), consente di migliorarne l'intelligibilità soprattutto
quando il segnale acustico risulta degradato
dalla presenza di rumore [4-6] oppure quando
le capacità percettive dell'ascoltatore siano
state danneggiate da patologie dell'udito.
Questo successo della percezione bimodale nell'identificazione delle unità fonologiche
segmentali e quindi delle uscite lessicali si
basa, intuitivamente, sul sinergismo tra le
informazioni uditive e visive relative ad uno
stesso fonema, in quanto prodotti sensoriali
della realizzazione fonetica di uno stesso
intento fonologico e collegati tra loro dalla
relazione causale esistente tra movimenti articolatori e segnale acustico risultante.
Grazie a tale sinergismo risulta raccomandabile l'applicazione sistemi di sintesi e
riconoscimento bimodali in vari tipi di interazione uomo-macchina per soggetti normali e
patologici.
La sintesi audiovisiva può rendere infatti
più naturale, robusto e amichevole l'accesso a
tutti i tipi di banche-dati, dalla lettura di notiziari all'e-commerce, dalla didattica (insegnamento della lingua materna e di lingue straniere) alla pratica clinica e logopedica per la
valutazione e riabilitazione dei soggetti ipoacusici e può essere utilizzata nella videotelefonia, nelle teleconferenze, nell'industria cinematografica e televisiva (cartoni animati,
videogiochi, doppiaggio, "sottotitolatura" di
messaggi in LIS, Lingua Italiana dei Segni,
creazione di Attori Virtuali, ecc). Anche per i
sistemi di riconoscimento automatico l'approccio bimodale fa prevedere notevoli vantaggi
soprattutto qualora la decodificazione del parlato debba avvenire in ambiente rumoroso,
come avviene in tutte le applicazioni reali del
riconoscimento vocale, o in condiz
LIAV (lessico dell' italiano audiovisivo): corpus lessicale audiovisivo per l'analisi, la sintesi e il riconoscimento bimodali dell'italiano parlato
Publication type:
Contributo in atti di convegno
Source:
TIPI 2002, tecnologie nella promozione della lingua italiana, pp. 115–119, Rome, Italy, June 25-26, 2002
Date:
2002
Resource Identifier:
http://www.cnr.it/prodotto/i/240757
http://www.isticom.it/documenti/rivista/2002_115.pdf
Language:
Ita