Share

Speech and Multimodal Communication Laboratory

Il Laboratorio per le ricerche sperimentali sul parlato, funzionante presso la Sezione padovana dell’ISTC, è stato creato, a partire dagli anni ’80, all’interno del Centro di Studio per le Ricerche di Fonetica del CNR, costituito nel 1971 presso l’Istituto di Glottologia e Fonetica dell’Università degli Studi di Padova e trasformato nel 1998 in IFD (Istituto di Fonetica e Dialettologia) e successivamente in ISTC-SPFD (Istituto di Scienze e Tecnologie della Cognizione – Sezione di Padova “Fonetica e Dialettologia”). Le ricerche acustiche, articolatorie e percettive condotte presso tale Laboratorio hanno costituito per decenni un punto di riferimento metodologico per tutti gli studiosi del settore in Italia, collocando il Centro in una posizione assolutamente paritaria sulla scena internazionale rispetto a Istituzioni simili. In tempi più recenti le ricerche analitiche, di grande rilevanza per la descrizione dell’italiano parlato e per le applicazioni nel campo della riabilitazione logopedica, sono state integrate da indirizzi tecnologici informatici estremamente innovativi, quali la sintesi e il riconoscimento unimodali acustico-uditivi e bimodali acustico-visivi del parlato (Facce Parlanti), ricerche che sono state scelte dal CNR come argomenti focus nel 2000 e 2001 e a cui sono stati attribuiti numerosi progetti nazionali (TICCA, MIUR-FIRB 2003) ed europei (MAGICSTER, PF-Star).

Keywords:
  • Speech, Multimodal, Communication, ASR, TTS, Talking Head
Coordinator: 
Piero Cosi.

Profile

Gli Agenti Virtuali con Faccia Parlante costituiscono infatti la più recente proposta per una interazione uomo-macchina più robusta e più naturale rispetto agli attuali sistemi unimodali uditivo-vocali di sintesi e di riconoscimento automatico del parlato. Sono sistemi più naturali perché si propongono di riprodurre l'interazione comunicativa umana faccia-a-faccia nella quale l'informazione viene scambiata lungo i canali uditivo e visivo per mezzo di messaggi verbali, intonazione, gesti, sguardi, espressioni del viso e movimenti del corpo. Sono considerati anche più robusti perché la trasmissione di informazione su più canali garantisce una migliore intelligibilità e comprensione del messaggio, soprattutto nei casi in cui il segnale acustico risulta distorto, danneggiato o ridotto a causa di situazioni ambientali sfavorevoli, di patologie del ricevente o di inadeguatezza del parlato sintetico. Grazie a queste caratteristiche si prevede l’utilizzazione degli Agenti Virtuali nell’accesso a banche dati, anche in rete, nei servizi di informazione (lettura di notiziari, guide museali, annunci commerciali), nelle applicazioni alla didattica per soggetti normali o patologici, nei servizi di vendita, oltre che nell'industria dello spettacolo (videogames, cinema e televisione). Negli esperimenti di implementazione di un tale Agente Virtuale con Faccia Parlante in italiano è stata utilizzata un'ampia serie di dati ricavati dalle ricerche linguistiche e informatiche svolte presso l'IFD, in particolare dagli studi sulla comunicazione multimodale e sulla tecnologia del parlato. Sono state infatti necessarie le conoscenze sulle caratteristiche articolatorie, acustiche e percettive delle unità fonologiche segmentali e soprasegmentali dell’italiano; sugli indici acustici che veicolano le emozioni; sulle caratteristiche spazio-temporali dei movimenti labiali e mandibolari nella produzione delle unità fonologiche dell'italiano e le loro modificazioni nella realizzazione del parlato emotivo; sulla quantità e qualità di informazione trasmessa dai movimenti articolatori visibili, ottenuti da test di lettura labiale; sull'organizzazione della gestualità coverbale, con l'individuazione delle regole di coproduzione tra unità linguistiche del messaggio verbale (parole, caratteristiche prosodiche e intonative) e le diverse tipologie di gesti (simbolici, deittici, pantomimici, pittografici, ideografici); sulle tecniche di codificazione e decodificazione del segnale acustico; sulle tecniche di analisi del segnale acustico; sui programmi per la sintesi automatica da testo scritto; sui programmi per l'animazione facciale e per la sincronizzazione dei segnali verbale e visivo relativo sia ai movimenti facciali della “visual prosody” sia ai gesti coverbali.

Oltre alla rilevanza applicativa degli Agenti Virtuali Animati va sottolineata l'importanza di queste interfacce bimodali audio-visive come potenziale e potente strumento di ricerca: il metodo della “analysis by synthesis” permette allo studioso di verificare la significatività e la correttezza delle sue analisi, dei modelli e delle teorie proposte tanto per la produzione che per la percezione del parlato. Infatti le Facce Parlanti, dato che permettono di controllare separatamente le caratteristiche morfologiche e temporali di stimoli visivi e uditivi e quindi di creare stimoli bimodali in cui le informazioni uditive e visive possono essere coerenti o in conflitto (vedasi l'“effetto McGurk”), possono essere utilizzate per individuare indici distintivi, per studiare i processi di categorizzazione e discriminazione nella percezione unimodale visiva e bimodale uditivo-visiva, per definire le regole di integrazione di informazioni visive e uditive nel riconoscimento fonologico e lessicale.

Questi settori di ricerca sono considerati importanti e strategici nel panorama delle Scienze Fonetiche, nel settore dell’elaborazione automatica del parlato, nel campo delle ricerche più avanzate e specialistiche sulla multimodalità (si vedano le ricerche svolte presso: MIT, Max Plank Institute, OGI CSLU Oregon, CSLR CU Boulder Colorado, KTH, ICP-Institute de la Communication Parlée, LIMSI-Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur……) e le pubblicazioni di ricercatori della Sezione di Padova dell’ISTC rappresentano validamente l’Italia in tutte queste sedi, come dimostra la loro partecipazione ai Congressi Internazionali di Scienze Fonetiche, dell’ICSLP (International Conference on Spoken Language Processing), dell’EUROSPEECH, dell’ICASSP (IEEE International Conference on Acoustics, Speech, and Signal Processing), dell’AVSP (Audio Visual Speech Processing), ecc.

People

Coordinator

Piero Cosi
Researcher

Administrative Staff

Researchers

Researcher
Researcher
Researcher
Researcher

Student&PhDs

Student&PhD
Student&PhD

Associate Researchers

Associate Researcher
Associate Researcher

Technicians

Technician

Technical Staff

Publications

No results. Please change your search criteria above.

Projects

Mon, 01/03/2010 - Sun, 31/08/2014
Wed, 10/06/2009 - Sat, 09/06/2012
Fri, 01/08/2008 - Sat, 31/07/2010
Tue, 01/01/2008 - Wed, 31/12/2008
Tue, 01/01/2008 - Wed, 31/12/2008
Thu, 24/04/2008 - Fri, 29/08/2008
Thu, 15/06/2006 - Thu, 14/06/2007
Tue, 01/10/2002 - Thu, 30/09/2004

Resources

Strumentazioni per la registrazione dei diversi tipi di segnale coinvolti nell'atto di comunicazione orale faccia-a-faccia:

1) segnale acustico:

cabina silente, registratori digitali ad alta fedeltà (DAT), microfoni e cuffie professionali, impianti analogici HiFi e digitali (PC con schede professionali di acquisizione digitale) per l'acquisizione, l'eleborazione e la riproduzione del segnale ecc.;

2) segnali articolatori:

movimenti della lingua: dispositivi elettropalatografici

(RION, KAY ELEMETRICS)

movimenti delle labbra e mandibola: sistemi

optoelettronici (ELITE);

3) segnali aerodinamici:

aerometri, pletismografi, pneumotacografi, ecc.;

4) segnali glottografici:

elettroglottografi, laringografi;

5) segnali video per la comunicazione multimodale nel parlato faccia-a-faccia:

telecamere analogiche e digitali, videoregistratori, sistemi di acquisizione digitale su PC;

6) per le ricerche percettive:

dispositivi per filtraggi e mascheramenti del segnale acustico.

B) Programmi per l'analisi acustica del parlato

MULTISPEECH

SCICON

SYGNALIZE

CSL-Kay Elemetric Co.

MATLAB

PRAAT

SFS

Snack (KTH)

Wavesurfer (KTH)

C) Programmi per la segmentazione ed etichettatura plurilivello del segnale acustico

Multitool

Transcriber

Anvil

TASX

ISTC-SPFD Automatic Aligner

D) Programmi per l'analisi dei movimenti labiali

Matlab

Mavis

ISTC-SPFD Interface

Track

Optimize

IFDCin

FacePlayer

Exml2FAP

EmotionDisk

E) Programmi per l'analisi dei movimenti facciali

Matlab

Mavis

ISTC-SPFD Interface

Track

Optimize

IFDCin

FacePlayer

Exml2FAP

EmotionDisk

F) Programmi per la segmentazione ed etichettatura plurilivello dei segnali che veicolano informazione nella comunicazione multimodale faccia-a-faccia

(segnale acustico del parlato e segnali visivi prodotti dai movimenti delle mani - gestualità coverbale - e della faccia - movimenti di testa, sopracciglia, occhi, bocca)

Partitura (Magno Caldognetto e Poggi) in ANVIL (M.Kipp)

Anvil

TASX

G) Programmi di sintesi automatica del parlato da testo

FESTIVAL (CSTR The Centre for Speech Technology Research, University of Edinburgh Edinburgh)

FESTIVAL per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

MBROLA per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

PARLA per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

MaryTTS per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

H) Programmi di sintesi bimodale da testo

(Agenti Virtuali e Facce Parlanti)

LUCIA (P. Cosi)

GRETA (C. Pelachaud & P. Cosi)

BALDINI (D. Massaro & P. Cosi)

I) Programmi per l'esecuzione di test percettivi unimodali uditivi, unimodali visivi, bimodali uditivo-visivi

L) CORPORA VOCALI:

MIC 1 (read speech, Microphonic)

o Speech (Aree di Esistenza, Ferrero 1968) (ISTC-SMCL)

o 7 vocali isolate, segnale microfonico, 25 soggetti maschili, 25 soggetti femminili, 1 ripetizione , 16 bit PCM, 10 kHz

MIC 2 (read speech, Microphonic)

o Speech (Italian I-set) (ISTC-SMCL)

o [ /'bi/, /'tSi/, /'di/, /'dZi/, /'i/, /'pi/, /'ti/, /'vi/, /'Li/, /'si/ ], segnale microfonico, 7 soggetti maschili, 5 ripetizioni, segmentazione (ASCII), 16 bit PCM, 16 kHz

MIC 3 (read speech, Microphonic)

o Speech (Italian E-set) (ISTC-SMCL)

o [ /'Effe/, /'Elle/, /'Emme/, /'Enne/, /'Erre/, /'Esse/ ], segnale microfonico, 7 soggetti maschili, 5 ripetizioni, segmentazione (ASCII), etichettatura (ASCII), 16 bit PCM, 16 kHz

MIC-ART 1 [read audio/visual speech, Microphonic Articulatory (ELITE)]

o Speech (Italian VCV-set) (ISTC-SMCL)

o /'VCV/, C=/21 Italian consonants/, V=/a/, 5 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), segmentazione (ASCII), etichettatura (ASCII)

MIC-ART 2 [read audio/visual speech, Microphonic Articulatory (ELITE)]

o Speech (Italian /p&f-set) (ISTC-SMCL)

o /'VCV/, C=/21 Italian consonants/, V=/a/, 5 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), segmentazione (ASCII), etichettatura (ASCII)

MIC-ART 3 [read audio/visual speech, Microphoni Articulatory (ELITE)]

o Speech (Italian Plosive-set) (ISTC-SMCL)

o /'VCV/, C=/p,t,k,b,d,g/, V=/a,i,u/, 10 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), 40+40 coefficienti uditivi, codificati (unsigned-short), 16 bit PCM, 500 Hz (2 ms), segmentazione (ASCII), etichettatura (ASCII)

MIC-ART Emotion 1 [read audio/visual speech, Microphonic-Articulatory (ELITE)]

o Emotional Speech (isolated words) (ISTC-SMCL)

MIC-ART Emotion 2 [read audio/visual speech, Microphonic-Articulatory (ELITE)]

o Emotional Speech (isolated words and simple sentences) (ISTC-SMCL)

MBROLA ita3 (read speech, Microphonic)

o TTS male diphone DB (Mbrola) (ISTC-SMCL)

MBROLA ita4 (read speech, Microphonic)

o TTS female diphone DB (Mbrola) (ISTC-SMCL)

SARIS (spontaneous/read speech, Michrophonic)

o Spontaneous and read monologues

VISF (spontaneous speech, Microphonic)

o Spontaneous and read monologues

§ vocalizzazioni infantili sullo sviluppo fonetico, registrazioni babbling (anche videoregistrazioni), soggetti normali di età evolutiva (dai 6 mesi a 21 mesi), classificazione percettiva, e trascrizione fonetica stretta, analisi fonetica e acustica, statistiche elaborate con SYSTAT

AVIP (spontaneous speech, Microphonic)

o Archivio delle Varietà di Italiano Parlato

o (progetto MURST, Cofin 97)

API (spontaneous speech, Michrophonic)

o Archivio del Parlato Italiano

o (progetto MURST, Cofin 99)

SPK (continuous speech, Michrophonic)

o Isolated digits (ITC-IRST, ELRA)

APASCI (continuous/read speech, Michrophonic)

o Acoustic-Phonetic and Spontaneous Speech Corpus (ITC-IRST, ELRA)

SIVA the Muser (continuous/read speech, Michrophonic)

o Digits, Acoustic-Phonetic and Spontaneous Speech Corpus (FUB)

CSLU 30K numbers (continuous/read speech, Michrophonic)

o Isolated/continuous digits

o (OGI CSLU Portland Oregon)

TIMIT (continuous/read speech, Michrophonic)

o Acoustic-Phonetic and Spontaneous Speech Corpus (NIST SpeechDisc)

I vari cataloghi elettronici messi a disposizione potranno essere consultati direttamente per ricerche specializzate oppure per l'accesso diretto, vista la notevole dimensione digitale dei dati trattati per le ricerche nel campo fonico/articolatorio, l'archivio elettronico verrà organizzato come una serie di pagine esplicative dei vari corpora o delle varie informazioni a disposizione, che potranno essere successivamente richiesti all'SMCL sotto forma di CDrom o, nel caso di dimensioni ridotte, essere forniti direttamente in rete tramite collegamento telematico (FTP/ HTTP).