Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)
Pier Marco Bertinetto°, Cristina Burani*, Alessandro Laudanna^ *, Lucia Marconi#,
Daniela Ratti#, Claudia Rolando#†, e Anna Maria Thornton§
° Scuola Normale Superiore, Pisa
* Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma
^ Università di Salerno
# Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova
§ Università de L'Aquila
† in memoriam
Il corpus di riferimento è costituito da testi tratti da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri, considerando anche i libri letti per motivi scolastici o professionali. Consta di 3.798.275 ricorrenze lessicali, così ripartite:
- quotidiani: 1.836.119
- periodici: 1.306.653
- libri: 655.503
Nel campionare i testi, gli autori hanno ponderato i dati dell'ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono.
Per una descrizione più dettagliata del corpus, si veda:
Laudanna, A., Thornton, A.M., Brown, G., Burani, C. e Marconi, L. (1995). Un corpus dell'italiano scritto contemporaneo dalla parte del ricevente. In S. Bolasco, L. Lebart e A. Salem (a cura di), III Giornate internazionali di Analisi Statistica dei Dati Testuali. Volume I, pp. 103-109. Roma: Cisu
Il lessico di frequenza tratto dal corpus include due sottoparti: formario e lemmario.
Il formario contiene la frequenza di ciascuna forma presente nel corpus (ad es. porti), senza distinguere fra i vari lemmi a cui la forma si può ricondurre.
Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza (ad es. porti come forma plurale del sostantivo porto, oppure seconda persona singolare dell'indicativo del verbo portare). Il lemmario indica inoltre la frequenza delle parole 'sintagmatiche' (anche dette 'polirematiche'), ossia le locuzioni costituite da due o più parole, spesso con significato autonomo rispetto agli elementi che le costituiscono (ad es. Gazzetta Ufficiale, poco di buono, a causa di, spesse volte). Per la lemmatizzazione dei testi sono stati definiti appositi criteri.
I punti di forza di CoLFIS, rispetto ai lessici di frequenza precedentemente disponibili per l'italiano sono dunque i seguenti:
- il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale;
- la sua ampiezza. Se è vero che le tecnologie informatiche hanno reso ormai relativamente agevole l'accesso a larghi corpora testuali, è altrettanto vero che non esistono molti altri esempi, di corpora di queste dimensioni interamente lemmatizzati.
I files del lessico di frequenza sono disponibili per il download.
Il corpus (limitatamente alla parte per cui sono state rilasciate le autorizzazioni) è consultabile presso: http://www.ge.ilc.cnr.it/strumenti.php.
L'accesso è gratuito. Quest'opera è stata realizzata col finanziamento del CNR * che per molto tempo ha svolto una meritoria opera di sostegno alla ricerca italiana. Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto, aumentandone le funzioni e la fruibilità.
È possibile scaricare i files in tre formati: formato .txt (solo testo), formato .mdb (Microsoft Access) e formato .dbf (utilizzabile con Filemaker per utenti Mac e/o PC e/o con DBase in ambiente dos).
I files .txt possono essere convertiti e consultati mediante qualsiasi programma di gestione di basi di dati. Il modo più efficiente (evitando perdite di dati) per gli utenti PC di consultare e interrogare i files .mdb è utilizzare l'applicativo Microsoft Access 97 o versioni successive (Microsoft Excel non riesce a gestire files così lunghi: importandoli direttamente con Microsoft Excel si perdono dei dati).
La presentazione di CoLFIS, le introduzioni alla consultazione dei files del lessico di frequenza in formato .txt, .mdb e .dbf sono di Pasquale Rinaldi e Cristina Burani (Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma).
Gli esempi di interrogazione con Access, sono di Pasquale Rinaldi (Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma).
Gli esempi di interrogazione con Filemaker sono di Maddalena Agonigi (Scuola Normale Superiore, Pisa).
Download CoLFIS
[L'archivio CoLFIS è disponibile anche su http://linguistica.sns.it/CoLFIS/Home.htm e su http://www.ge.ilc.cnr.it/strumenti.php]
* CNR - Comitati Nazionali "Scienze e Tecnologie dell'Informazione" e "Scienze Storiche, Filosofiche e Filologiche". Finanziamento: Banca dati lessicale dell'Italiano scritto contemporaneo, a Pier Marco Bertinetto, Cristina Burani, e Lucia Marconi.