Creazione di una biblioteca digitale multimediale a partire da scansioni digitali di documenti storici. I contenuti digitali possono essere utilizzati sia per creare nuove forme di fruizione delle informazioni, sia per rappresentare in modi diverse e personalizzate le informazioni stesse. La creazione di una libreria digitale non è solo riconoscimento del testo (OCR), ma è soprattutto riconoscimento delle componenti fondamentali di una pagina (testo, tabelle, immagini, didascalie, …) e riconoscimento della struttura del testo (capitolo, sotto-capitolo, …), estraendo conoscenza dal formato digitale, attribuendo semantica alla struttura (titolo, sottotitolo, autore, riferimento bibliografico, …), creando automaticamente metadati e permettendone la indicizzazione e la ricerca per contenuti. L’analisi automatica dei documenti rende possibile la creazione di bibliteche digitali anche di grandi dimensioni con solo una minima, o addirittura senza, supervisione manuale.

Scarica versione PDF
Laboratorio
Referenti
Rita Cucchiara
Costantino Grana
Area di specializzazione
Cultura e creatività
Digitale
Keyword
biblioteche digitali
analisi documentale automatica
segmentazione di immagini
semantica
Annotazione automatica di una scansione digitale
Descrizione prodotto

Il prodotto consiste in librerie software che implementano le funzionalità di analisi automatica dei documenti, e di una interfaccia multimediale corredata da strumenti grafici che permettano di interagire manualmente con i risultati ottenuti. Il sistema progettato di HCI ha lo scopo di correggere eventuali errori o aggiungere informazioni non ottenibili direttamente dall’analisi automatica, come riferimenti a contenuti esterni. I metadati ottenuti possono poi essere utilizzati per diverse presentazioni dei contenuti del documento, dalla visualizzazione in un sito web, alla fruizione interattiva in un museo.

Aspetti innovativi

Un nuovo metodo di analisi documentale automatica permette di estrarre le informazioni da documenti storici con un’accuratezza nettamente superiore rispetto a quanto attualmente disponibile sul mercato, soprattutto in termini di immagini, schemi e disegni. Inoltre, l’integrazione con uno strumento grafico permette di ottenere la stessa qualità di un operazione manuale, ma con una mole di lavoro estremamente inferiore.

Applicazioni

Le tecnologie proposte permetto la creazione di una libreria digitale a partire da scansioni digitali. In questo modo è possibile rendere efficienti l’archiviazione, la ricerca dei contenuti, che possono poi essere presentati nei modi più appropriati. Il progetto pone le basi per applicazioni per le industrie culturali e creative.

Strumento per interagire con i risultati dell'analisi automatica
Esempio di applicazione

Digitalizzazione dell’Enciclopedia Treccani

Descrizione applicazione e risultati

La digitalizzazione dell’Enciclopedia Treccani permette di integrare e migliorare la visualizzazione online dei contenuti. Il metodo di analisi automatica è stato adattato per riconoscere oltre a testo e immagini, anche tabelle, grafici, disegni fatti a mano e formule matematiche. Una approfondita analisi del testo permette di riconoscere i caratteri in diverse lingue e alfabeti. Le informazioni testuali sono organizzate secondo la tipica struttura in lemmi e diversi. Sviluppo di una libreria software per l’analisi automatica di documenti, e di uno strumento grafico per interagire con i risultati ottenuti.

Partner coinvolti

Treccani

Tempi di realizzazione
1 anno
Livello di maturità tecnologica
TRL 9 - sistema reale testato in ambiente operativo
Valorizzazione applicazione

Il metodo di analisi automatica è stato pubblicato su una rivista di rilievo internazionale. I risultati ottenuti permettono di migliorare la qualità e la quantità dei contenuti presentati sul sito web dell’azienda.

Nuovi paradigmi di esplorazione di documenti storici
Data pubblicazione