Nuovi strumenti di Interface per l’elaborazione delle facce parlanti

Questo articolo presenta gli sviluppi più recenti di InterFace, un software interattivo realizzato in Matlab all'ISTC-SPFD, per l'animazione audio-visuale delle Facce Parlanti. Per completezza di informazione, questo testo riprende ed integra in maniera esaustiva le presentazioni parziali già fatte precedentemente (Tisato et alii, 2005a, Tisato et alii, 2005b, Cosi et alii, 2005).
La ricerca nel campo delle teorie di produzione e percezione della lingua parlata, del riconoscimento della voce, degli agenti conversazionali, dell'insegnamento delle lingue, della riabilitazione della voce, dello studio delle emozioni, ecc., deve far fronte a necessità sempre crescenti di elaborazione di dati articolatori ed acustici.
La realizzazione di InterFace intende rispondere a queste esigenze con lo sviluppo di strumenti software adeguati alla complessità delle problematiche implicate.
Per quanto riguarda in particolare i dati articolatori, InterFace permette di:
oEstrarre le traiettorie 3D provenienti da sistemi di Motion Capture, e sottoporle a elaborazione come: filtraggio del rumore, eliminazione delle componenti dovute alla rototraslazione, riscalamento alle dimensioni della faccia da animare.
oDefinire un insieme di misure sulle traiettorie per ottenere i parametri articolatori voluti (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc., con le relative misure di velocità ed accelerazione).
oRicavare da quelle stesse traiettorie articolatorie una modellizzazione dei parametri rilevanti dal punto di vista linguistico, che tenga in debito conto i fenomeni di coarticolazione.
oGenerare il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni.
Per quanto riguarda, d'altra parte, le Facce Parlanti, il sistema può arrivare ad un set di parametri di sintesi, partendo da quattro differenti tipi di dati (Fig. 1):
oDati reali provenienti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis.
oDati testuali (puro testo o testo XML), da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, o anche, nel caso dell'XML, una Symbolic-Driven Synthesis.
oDati audio elaborati in modo da ricavare la segmentazione fonetica del parlato con un sistema di riconoscimento automatico, e ottenere così la sincronizzazione dell'animazione con un audio preesistente. Questa modalità può essere chiamata una Wav-to-Animation Synthesis.
oDati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.

Tipo Pubblicazione: 
Contributo in atti di convegno
Author or Creator: 
Graziano Tisato
Piero Cosi
Giacomo Sommavilla
Claudio Zmarich
Publisher: 
EDK Editore, Torriana, ITA
Source: 
AISV 2006,3° Convegno Nazionale Convegno Nazionale dell’Associazione Italiana di Scienze della Voce (AISV), "Scienze Vocali e del Linguaggio - metodologie di valutazione e risorse linguistiche", pp. 67 (CD Rom 353)–67 (CD Rom 382), Pantè di Povo, (Trento)
Date: 
2006
Resource Identifier: 
http://www.cnr.it/prodotto/i/140075
http://www.aisv.it/it/convegni-aisv?start=6
urn:isbn:978-88-95112-69-5
Language: 
Ita
Eng
ISTC Author: 
Ritratto di Claudio Zmarich
Real name: 
Ritratto di Piero Cosi
Real name: