Creazione di una biblioteca digitale multimediale a partire da scansioni digitali di documenti storici. I contenuti digitali possono essere utilizzati sia per creare nuove forme di fruizione delle informazioni, sia per rappresentare in modi diverse e personalizzate le informazioni stesse. La creazione di una libreria digitale non è solo riconoscimento del testo (OCR), ma è soprattutto riconoscimento delle componenti fondamentali di una pagina (testo, tabelle, immagini, didascalie, …) e riconoscimento della struttura del testo (capitolo, sotto-capitolo, …), estraendo conoscenza dal formato digitale, attribuendo semantica alla struttura (titolo, sottotitolo, autore, riferimento bibliografico, …), creando automaticamente metadati e permettendone la indicizzazione e la ricerca per contenuti. L’analisi automatica dei documenti rende possibile la creazione di bibliteche digitali anche di grandi dimensioni con solo una minima, o addirittura senza, supervisione manuale.

Il prodotto consiste in librerie software che implementano le funzionalità di analisi automatica dei documenti, e di una interfaccia multimediale corredata da strumenti grafici che permettano di interagire manualmente con i risultati ottenuti. Il sistema progettato di HCI ha lo scopo di correggere eventuali errori o aggiungere informazioni non ottenibili direttamente dall’analisi automatica, come riferimenti a contenuti esterni. I metadati ottenuti possono poi essere utilizzati per diverse presentazioni dei contenuti del documento, dalla visualizzazione in un sito web, alla fruizione interattiva in un museo.
Un nuovo metodo di analisi documentale automatica permette di estrarre le informazioni da documenti storici con un’accuratezza nettamente superiore rispetto a quanto attualmente disponibile sul mercato, soprattutto in termini di immagini, schemi e disegni. Inoltre, l’integrazione con uno strumento grafico permette di ottenere la stessa qualità di un operazione manuale, ma con una mole di lavoro estremamente inferiore.
Le tecnologie proposte permetto la creazione di una libreria digitale a partire da scansioni digitali. In questo modo è possibile rendere efficienti l’archiviazione, la ricerca dei contenuti, che possono poi essere presentati nei modi più appropriati. Il progetto pone le basi per applicazioni per le industrie culturali e creative.

Digitalizzazione dell’Enciclopedia Treccani
La digitalizzazione dell’Enciclopedia Treccani permette di integrare e migliorare la visualizzazione online dei contenuti. Il metodo di analisi automatica è stato adattato per riconoscere oltre a testo e immagini, anche tabelle, grafici, disegni fatti a mano e formule matematiche. Una approfondita analisi del testo permette di riconoscere i caratteri in diverse lingue e alfabeti. Le informazioni testuali sono organizzate secondo la tipica struttura in lemmi e diversi. Sviluppo di una libreria software per l’analisi automatica di documenti, e di uno strumento grafico per interagire con i risultati ottenuti.
Treccani
Il metodo di analisi automatica è stato pubblicato su una rivista di rilievo internazionale. I risultati ottenuti permettono di migliorare la qualità e la quantità dei contenuti presentati sul sito web dell’azienda.
