COVerLeSS Corpus On line del Verismo tra Letteratura, Storia e Società
COVerLeSS mira a conservare, valorizzare e analizzare, in un ambiente web integrato e open access, un archivio interrogabile della letteratura secondaria (recensioni, testi giornalistici e saggistici) relativa alla produzione letteraria del verismo italiano. Dal punto di vista culturale, il progetto mira a fornire un’immagine innovativa del verismo, grazie al suo riverbero nei testi giornalistici e saggistici del tempo e al modo in cui essi contribuirono a costruire un’immagine dell’Italia meridionale post-unitaria, a livello sociale, culturale ed economico. Sul piano della conservazione, l’importanza della creazione di questo archivio nasce dalla forte dispersione e frammentazione bibliografica delle fonti di letteratura secondaria, quasi mai fruibili a testo pieno; d’altronde, le caratteristiche dell’archivio fanno di esso un esperimento pilota per la costruzione di archivi della letteratura secondaria, tuttora assenti dai repertori digitali per lo studio della letteratura italiana.
Il progetto si inserisce nell'ambito multidisciplinare delle DH e nella tradizione delle Digital Scholarly Editions e delle edizioni semantiche. Il progetto consta di tre macro-fasi, ciascuna con propria metodologia: conservazione, valorizzazione e fruizione, analisi. La prima, svolta in accordo con le LG del Piano Nazionale di Digitalizzazione, si suddivide in ulteriori tre fasi: acquisizione e metadatazione (tecnologie IIIF per gestione e visualizzazione delle immagini; metadatazione descrittiva, strutturale e gestionale in Dublin Core e METS), trascrizione e codifica (OCR, come Tesseract o eScriptorium, secondo gli standard XML-ALTO e XML/TEI), gestione e organizzazione (database nativo XML e ontologie in RDF-OWL).
La seconda fase prevede lo sviluppo del sistema di gestione, indicizzazione e il Search Engine progettati e implementati secondo le buone pratiche di ingegneria del software e modelli formali per la gestione di documenti testuali. In accordo al paradigma dei LOD, l’ambiente sarà interoperabile (sia tecnicamente che semanticamente) con altri repertori, dataset e risorse sul Web. In un’ottica di long term preservation in linea con i principi FAIR e secondo i principi TRUST si depositeranno i dati in infrastrutture di ricerca quali CLARIN e/o DARIAH. L’ultima fase prevede lo sviluppo di strumenti per un'analisi dei dati attraverso alcuni algoritmi di NLP e Text Mining.