Speech, Language, and Neural Computations

Il Laboratorio per le ricerche sperimentali sul parlato, funzionante presso la Sezione padovana dell’ISTC, è stato creato, a partire dagli anni ’80, all’interno del Centro di Studio per le Ricerche di Fonetica del CNR, costituito nel 1971 presso l’Istituto di Glottologia e Fonetica dell’Università degli Studi di Padova e trasformato nel 1998 in IFD (Istituto di Fonetica e Dialettologia) e successivamente in ISTC-SPFD (Istituto di Scienze e Tecnologie della Cognizione – Sezione di Padova “Fonetica e Dialettologia”) e ora denominato ISTC-SS Padova (Istituto di Scienze e Tecnologie della Cognizione – Sede Secondaria di Padova”) .

Nel 2011 al Laboratorio è stata affidata l'organizzazione di INTERSPEECH 2011 il più prestigioso convegno mondiale dedicato alle scienze della comunicazione parlata ed alle tecnologie del linguaggio.

Nel 2013 al Laboratorio si è affiancato lo SpinOff denominato MIVOQ che si propone di sfruttare gli anni di esperienza nel settore delle tecnologie vocali per proporne l'uso in abbinamento alle più recenti tecnologie ICT e per realizzare la personalizzazione della sintesi vocale da testo scritto.

Address:

Via Beato Pellegrino, n.28, 35137 Padova (PD), Italy

Computational Neuroscience

machine learning

Phonetics

Language acquisition and development

Bilingualism

Speech corpora

Sociophonetics

Ultrasound Tongue Imaging

MAIA

PACE

Additional info

Profile

Le ricerche acustiche, articolatorie e percettive condotte presso tale Laboratorio hanno costituito per decenni un punto di riferimento metodologico per tutti gli studiosi del settore in Italia, collocando il Centro in una posizione assolutamente paritaria sulla scena internazionale rispetto a Istituzioni simili.

Nel corso degli anni le ricerche analitiche, di grande rilevanza per la descrizione dell’italiano parlato e per le applicazioni nel campo della riabilitazione logopedica, sono state integrate da indirizzi tecnologici informatici estremamente innovativi, quali la sintesi e il riconoscimento unimodali acustico-uditivi e bimodali acustico-visivi del parlato (Avatar Parlanti), ricerche che sono state scelte dal CNR come argomenti focus nel 2000 e 2001, e a cui sono stati attribuiti numerosi progetti nazionali (TICCA, MIUR-FIRB) ed europei (MAGICSTER, PF-Star)

Più recentemente il Laboratorio si è interessato ad alcune ricerche volte all'’utilizzazione di robot umanoidi parlanti nell'ambito del progetto ALIZ-E (Adaptive Strategies for Sustainable Long-Term Social Interaction) il cui obiettivo è stato quello di elaborare metodi per sviluppare e testare robot mobili interattivi in grado di interagire con gli utenti umani, in particolare bambini malati di diabete, per lunghi periodi di tempo.

Gli Agenti Virtuali con Faccia Parlante costituiscono la più recente proposta per una interazione uomo-macchina più robusta e più naturale rispetto agli attuali sistemi unimodali uditivo-vocali di sintesi e di riconoscimento automatico del parlato. Sono sistemi più naturali perché si propongono di riprodurre l'interazione comunicativa umana faccia-a-faccia nella quale l'informazione viene scambiata lungo i canali uditivo e visivo per mezzo di messaggi verbali, intonazione, gesti, sguardi, espressioni del viso e movimenti del corpo. Sono considerati anche più robusti perché la trasmissione di informazione su più canali garantisce una migliore intelligibilità e comprensione del messaggio, soprattutto nei casi in cui il segnale acustico risulta distorto, danneggiato o ridotto a causa di situazioni ambientali sfavorevoli, di patologie del ricevente o di inadeguatezza del parlato sintetico. Grazie a queste caratteristiche si prevede l’utilizzazione degli Agenti Virtuali nell’accesso a banche dati, anche in rete, nei servizi di informazione (lettura di notiziari, guide museali, annunci commerciali), nelle applicazioni alla didattica per soggetti normali o patologici, nei servizi di vendita, oltre che nell'industria dello spettacolo (videogames, cinema e televisione). Negli esperimenti di implementazione di un tale Agente Virtuale con Faccia Parlante in italiano è stata utilizzata un'ampia serie di dati ricavati dalle ricerche linguistiche e informatiche svolte presso l'Istituto, in particolare dagli studi sulla comunicazione multimodale e sulla tecnologia del parlato. Sono state infatti necessarie le conoscenze sulle caratteristiche articolatorie, acustiche e percettive delle unità fonologiche segmentali e soprasegmentali dell’italiano; sugli indici acustici che veicolano le emozioni; sulle caratteristiche spazio-temporali dei movimenti labiali e mandibolari nella produzione delle unità fonologiche dell'italiano e le loro modificazioni nella realizzazione del parlato emotivo; sulla quantità e qualità di informazione trasmessa dai movimenti articolatori visibili, ottenuti da test di lettura labiale; sull'organizzazione della gestualità coverbale, con l'individuazione delle regole di coproduzione tra unità linguistiche del messaggio verbale (parole, caratteristiche prosodiche e intonative) e le diverse tipologie di gesti (simbolici, deittici, pantomimici, pittografici, ideografici); sulle tecniche di codificazione e decodificazione del segnale acustico; sulle tecniche di analisi del segnale acustico; sui programmi per la sintesi automatica da testo scritto; sui programmi per l'animazione facciale e per la sincronizzazione dei segnali verbale e visivo relativo sia ai movimenti facciali della “visual prosody” sia ai gesti coverbali.

Oltre alla rilevanza applicativa degli Agenti Virtuali Animati va sottolineata l'importanza di queste interfacce bimodali audio-visive come potenziale e potente strumento di ricerca: il metodo della “analysis by synthesis” permette allo studioso di verificare la significatività e la correttezza delle sue analisi, dei modelli e delle teorie proposte tanto per la produzione che per la percezione del parlato. Infatti le Facce Parlanti, dato che permettono di controllare separatamente le caratteristiche morfologiche e temporali di stimoli visivi e uditivi e quindi di creare stimoli bimodali in cui le informazioni uditive e visive possono essere coerenti o in conflitto (vedasi l'“effetto McGurk”), possono essere utilizzate per individuare indici distintivi, per studiare i processi di categorizzazione e discriminazione nella percezione unimodale visiva e bimodale uditivo-visiva, per definire le regole di integrazione di informazioni visive e uditive nel riconoscimento fonologico e lessicale.

Questi settori di ricerca sono considerati importanti e strategici nel panorama delle Scienze Fonetiche, nel settore dell’elaborazione automatica del parlato, nel campo delle ricerche più avanzate e specialistiche sulla multimodalità (si vedano le ricerche svolte presso: MIT, Max Plank Institute, OGI CSLU Oregon, CSLR CU Boulder Colorado, KTH, ICP-Institute de la Communication Parlée, LIMSI-Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur……) e le pubblicazioni di ricercatori della Sezione di Padova dell’ISTC rappresentano validamente l’Italia in tutte queste sedi, come dimostra la loro partecipazione ai Congressi Internazionali di Scienze Fonetiche, dell’ICSLP (International Conference on Spoken Language Processing), dell’EUROSPEECH, dell’ICASSP (IEEE International Conference on Acoustics, Speech, and Signal Processing), dell’AVSP (Audio Visual Speech Processing), ecc.

Research

We use laboratory methods to discover, explain and reproduce via speech technologies the sound structure of human language.Based on acoustic, kimematic and perceptual data we address the fundative questions of how from a continuous acoustic signal discrete phonetic and phonologocial categories emerge in the language-acquiring child, how do they vary according to geographical, historical and social factors in adults, how they are perceived and produced in second language learning, how they get disrupted in adults’ and childrens’ speech disorders.What is acquired, learned, varied, transmitted and lost in the spoken language is not only of segmental nature: in the flow of speech the continuous sequence of consonants and vowels is structurally organized in terms of prosodic categories and modulated by pitch variations. Segmental, prosodic and melodic categories participate in conveying linguistic meaning by interfacing with other components of the language faculty (syntax, semantics). One of our interests is to model how linguistic and pragmatic meaning emerge from the interplay of segmental, prosodic and melodic structures.Segmental and prosodic structures of speech are synthesized from written texts, automatically recognized using HMMs and DNNs and implemented in intelligent agents.Specific interests

Phonetic (on acoustic, kinematic, perceptual data) and phonological analysis on the acquisition of the segmental and suprasegmental aspects of Italian L1 and L2 in normal and pathological preschool subjects
Design and implementation of tests, IT systems and databases for the assessment, enhancement and\or treatment of phonetic-phonological characteristics in language acquisition
Speech Perception: perception of non-native phonological contrasts
L2/Ln learning: maintenance/change of native phonetic and phonological categories in adult multilinguals
Dialects: gathering syntactic and phonetic microcues from data harvesting Veneto dialects
Prosody: the intonational structure of regional varieties of Italian; the interplay of syntax/semantics/pragmatics with intonational structure in conveying complex meaning.
Design and on-line implementation of Speech Corpora and Linguistic Atlases
ASR, TTS, Talking Avatar, Talking Humanoid Robots

Projects

PROSYNT - Prosody Syntax Interface (University of Venice);
RFLSLI - La ricerca fondamentale sul linguaggio al servizio della lingua italiana: documentazione, acquisizione monolingue, bilingue e L2, e ideazione di prodotti multimediali (FIRB);
Design and implementation of tests, IT systems and databases for the assessment, enhancement and\or treatment of phonetic-phonological characteristics in language acquisition;
Migrazioni (CNR); IRIAS – Italian Roots in Australian Soil (University of Western Sydney);
AMDV – Atlante Multimediale dei DialettiVeneti (Fondazione Cariparo);
VeDHA – Veneto Dialects in the 21 century;
Digital/Analog at Home/Abroad: Indici fonetici predittivi della balbuzie in età prescolare (CNR);
ESPRIT-SAM - Multilingual Speech Input Output Assessment - Evaluation of Automatic European Multilanguage TTS and ASR Systems (EU-Project n. 1541-1988);
PF-STAR – Praparing Future Multisensorial Interaction Research (EU-IST-2001-37599-RTD);
ALIZE - Adaptive Strategies for Sustainable Long-Term Social Interaction (EU-FP7-2009);
DCLFTPI - Determinanti cognitive, linguistiche, formative e tecnologiche dei processi di integrazione (MIUR FIRB 2009);
SPEAKY ACUTATTILE - una nuova piattaforma inclusiva di assistente intelligente vocale multicanale (MISE);
WIKIMEMO.IT - Il Portale della Lingua e della Cultura Italiana (MIUR FIRB 2009);
AVATAR - Avatar intelligenti per la fruizione interattiva di beni letterari (POS FER 2016 Regione Veneto, UniPD);
INTERFACCE INTELLIGENTI - Interfacce uomo-macchina evolute per facilitare la collaborazione nella fabbrica 4.0 (POS FER 2017 Regione Veneto, UniPD).

Computational neuroscienceResearch Methods

Computational simulations of brain functions at the neuronal and behavioral level;
Behavioral, physiological, imaging investigations of human cognition.

Recent Highlights

Model-Based Bayesian Reinforcement Learning analysis of the Hippocampus and Ventral Striatum;
SVEP brain correlates of visual lexical perception;
Letter perception emerges from unsupervised deep learning and recycling of natural images;
Biofeedback improves visual attention and resilience.

Resources

Strumentazioni per la registrazione dei diversi tipi di segnale coinvolti nell'atto di comunicazione orale faccia-a-faccia:

1) segnale acustico:

cabina silente, registratori digitali ad alta fedeltà (DAT), microfoni e cuffie professionali, impianti analogici HiFi e digitali (PC con schede professionali di acquisizione digitale) per l'acquisizione, l'eleborazione e la riproduzione del segnale ecc.;

2) segnali articolatori:

movimenti della lingua: dispositivi elettropalatografici

(RION, KAY ELEMETRICS)

movimenti delle labbra e mandibola: sistemi

optoelettronici (ELITE);

3) segnali aerodinamici:

aerometri, pletismografi, pneumotacografi, ecc.;

4) segnali glottografici:

elettroglottografi, laringografi;

5) segnali video per la comunicazione multimodale nel parlato faccia-a-faccia:

telecamere analogiche e digitali, videoregistratori, sistemi di acquisizione digitale su PC;

6) per le ricerche percettive:

dispositivi per filtraggi e mascheramenti del segnale acustico.

B) Programmi per l'analisi acustica del parlato

MULTISPEECH

SCICON

SYGNALIZE

CSL-Kay Elemetric Co.

MATLAB

PRAAT

SFS

Snack (KTH)

Wavesurfer (KTH)

C) Programmi per la segmentazione ed etichettatura plurilivello del segnale acustico

Multitool

Transcriber

Anvil

TASX

ISTC-SPFD Automatic Aligner

D) Programmi per l'analisi dei movimenti labiali

Matlab

Mavis

ISTC-SPFD Interface

Track

Optimize

IFDCin

FacePlayer

Exml2FAP

EmotionDisk

E) Programmi per l'analisi dei movimenti facciali

Matlab

Mavis

ISTC-SPFD Interface

Track

Optimize

IFDCin

FacePlayer

Exml2FAP

EmotionDisk

F) Programmi per la segmentazione ed etichettatura plurilivello dei segnali che veicolano informazione nella comunicazione multimodale faccia-a-faccia

(segnale acustico del parlato e segnali visivi prodotti dai movimenti delle mani - gestualità coverbale - e della faccia - movimenti di testa, sopracciglia, occhi, bocca)

Partitura (Magno Caldognetto e Poggi) in ANVIL (M.Kipp)

Anvil

TASX

G) Programmi di sintesi automatica del parlato da testo (TTS)

FESTIVAL (CSTR The Centre for Speech Technology Research, University of Edinburgh Edinburgh)

FESTIVAL per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

MBROLA per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

PARLA per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

MaryTTS per l'italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

MIVOQ TTS (Italiano, Inglese, Francese, Tedesco, ...) (MIVOQ)

H) Programmi di riconoscimento automatico del parlato (ASR)

CSLU-TOOLKIT (Italiano, Inglese)

SONIC (Italiano, Inglese)

SPHINX (Italiano, Inglese)

JULIUS (Italiano, Inglese)

BAVIECA (Italiano, Inglese)

KALDI (Italiano, Inglese)

I) Programmi di sintesi bimodale da testo

(Agenti Virtuali e Facce Parlanti)

LUCIA (P. Cosi)

GRETA (C. Pelachaud & P. Cosi)

BALDINI (D. Massaro & P. Cosi)

L) Programmi per l'esecuzione di test percettivi unimodali uditivi, unimodali visivi, bimodali uditivo-visivi

M) CORPORA VOCALI:

MIC 1 (read speech, Microphonic)

o Speech (Aree di Esistenza, Ferrero 1968) (ISTC-SMCL)

o 7 vocali isolate, segnale microfonico, 25 soggetti maschili, 25 soggetti femminili, 1 ripetizione , 16 bit PCM, 10 kHz

MIC 2 (read speech, Microphonic)

o Speech (Italian I-set) (ISTC-SMCL)

o [ /'bi/, /'tSi/, /'di/, /'dZi/, /'i/, /'pi/, /'ti/, /'vi/, /'Li/, /'si/ ], segnale microfonico, 7 soggetti maschili, 5 ripetizioni, segmentazione (ASCII), 16 bit PCM, 16 kHz

MIC 3 (read speech, Microphonic)

o Speech (Italian E-set) (ISTC-SMCL)

o [ /'Effe/, /'Elle/, /'Emme/, /'Enne/, /'Erre/, /'Esse/ ], segnale microfonico, 7 soggetti maschili, 5 ripetizioni, segmentazione (ASCII), etichettatura (ASCII), 16 bit PCM, 16 kHz

MIC-ART 1 [read audio/visual speech, Microphonic Articulatory (ELITE)]

o Speech (Italian VCV-set) (ISTC-SMCL)

o /'VCV/, C=/21 Italian consonants/, V=/a/, 5 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), segmentazione (ASCII), etichettatura (ASCII)

MIC-ART 2 [read audio/visual speech, Microphonic Articulatory (ELITE)]

o Speech (Italian /p&f-set) (ISTC-SMCL)

MIC-ART 3 [read audio/visual speech, Microphoni Articulatory (ELITE)]

o Speech (Italian Plosive-set) (ISTC-SMCL)

o /'VCV/, C=/p,t,k,b,d,g/, V=/a,i,u/, 10 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), 40+40 coefficienti uditivi, codificati (unsigned-short), 16 bit PCM, 500 Hz (2 ms), segmentazione (ASCII), etichettatura (ASCII)

MIC-ART Emotion 1 [read audio/visual speech, Microphonic-Articulatory (ELITE)]

o Emotional Speech (isolated words) (ISTC-SMCL)

MIC-ART Emotion 2 [read audio/visual speech, Microphonic-Articulatory (ELITE)]

o Emotional Speech (isolated words and simple sentences) (ISTC-SMCL)

MBROLA ita3 (read speech, Microphonic)

o TTS male diphone DB (Mbrola) (ISTC-SMCL)

MBROLA ita4 (read speech, Microphonic)

o TTS female diphone DB (Mbrola) (ISTC-SMCL)

SARIS (spontaneous/read speech, Michrophonic)

o Spontaneous and read monologues

VISF (spontaneous speech, Microphonic)

o Spontaneous and read monologues

§ vocalizzazioni infantili sullo sviluppo fonetico, registrazioni babbling (anche videoregistrazioni), soggetti normali di età evolutiva (dai 6 mesi a 21 mesi), classificazione percettiva, e trascrizione fonetica stretta, analisi fonetica e acustica, statistiche elaborate con SYSTAT

AVIP (spontaneous speech, Microphonic)

o Archivio delle Varietà di Italiano Parlato

o (progetto MURST, Cofin 97)

API (spontaneous speech, Michrophonic)

o Archivio del Parlato Italiano

o (progetto MURST, Cofin 99)

SPK (continuous speech, Michrophonic)

o Isolated digits (ITC-IRST, ELRA)

APASCI (continuous/read speech, Michrophonic)

o Acoustic-Phonetic and Spontaneous Speech Corpus (ITC-IRST, ELRA)

SIVA the Muser (continuous/read speech, Michrophonic)

o Digits, Acoustic-Phonetic and Spontaneous Speech Corpus (FUB)

CSLU 30K numbers (continuous/read speech, Michrophonic)

o Isolated/continuous digits

o (OGI CSLU Portland Oregon)

TIMIT (continuous/read speech, Michrophonic)

o Acoustic-Phonetic and Spontaneous Speech Corpus (NIST SpeechDisc)

I vari cataloghi elettronici messi a disposizione potranno essere consultati direttamente per ricerche specializzate oppure per l'accesso diretto, vista la notevole dimensione digitale dei dati trattati per le ricerche nel campo fonico/articolatorio, l'archivio elettronico verrà organizzato come una serie di pagine esplicative dei vari corpora o delle varie informazioni a disposizione, che potranno essere successivamente richiesti all'SMCL sotto forma di CDrom o, nel caso di dimensioni ridotte, essere forniti direttamente in rete tramite collegamento telematico (FTP/ HTTP).

Contacts

cinzia.avesani@cnr.it - piero.cosi@cnr.it

Members