Il deep learning è un campo del machine learning (apprendimento automatico) già introdotto negli anni ‘90, la cui diffusione ha subito un forte incremento negli ultimi anni grazie alla creazione di schede grafiche sempre più performanti che hanno consentito una drastica riduzione dei tempi di processazione di immagini e altri tipi di segnali. Le reti neurali convoluzionali, parte fondamentale del paradigma del deep learning, sono composte da una serie di layer di processazione che, grazie a filtri convoluzionali, estraggono informazioni spaziali da elementi in input e, se propriamente addestrate restituiscono un responso coerente con il tipo di addestramento effettuato. Il deep learning è già utilizzato in diverse aree come la medicina, l’industria manifatturiera, la pubblicità e molti altri in cui sia necessaria un’analisi di segnali quali immagini, segnali audio, curve generiche e così via.
Il deep learning, come suggerito dal nome, utilizza reti neurali artificiali di tipo “deep”, ossia profondo, in contrapposizione alle reti neurali cosiddette “shallow”, le quali sono caratterizzate da un singolo layer intermedio (hidden layer). L’utilizzo di numerosi layer intermedi consente una migliore generalizzazione di funzioni e quindi migliori risultati in termini di inferenza. Grazie al recente utilizzo di schede video sempre più performanti per l’esecuzione di reti neurali, i tempi di processazione sono sempre più brevi, consentendo analisi in tempo reali di grandi flussi di dati. Inoltre, diversi produttori di schede video insieme a grandi aziende informatiche, come NVIDIA, Google e molti altri, stanno rendendo disponibili diversi strumenti per facilitare la creazione e l’utilizzo di reti neurali artificiali. Nell’ambito dell’analisi di immagini, ci sono numerose soluzioni in continuo miglioramento per la risoluzione di problemi caratteristici della visione artificiale, come rilevamento di oggetti, classificazione, ricostruzione bidimensionale e tridimensionale, segmentazione, e molti altri.
Il deep learning presenta 3 aspetti innovativi rispetto ai metodi standard: - non richiede il design o la definizione di features artificiali: diversamente dai comuni algoritmi di machine learning non è necessario definire a priori che tipo di features devono essere individuate dall’algoritmo per ottenere buoni risultati. La rete, in modo semiautonomo decide quali sono le features più importanti per un determinato scopo - con le opportune modifiche, è possibile utilizzare il deep learning per i più svariati campi di applicazione - ha performance elevate con una base hardware opportuna
Il deep learning può spaziare su una vasta lista di possibili applicazioni. Per esempio, viene utilizzato in ambito medico per la rilevazione di malattie e di tumori, in ambito grafico per la creazione di immagini ad alta risoluzione e per la colorizzazione automatica di immagini in scala di grigi, nei veicoli a guida autonoma per il rilevamento di pedoni, macchine e cartelli e per il calcolo della traiettoria, in aree pubbliche per l’analisi comportamentale o per il calcolo della traiettoria di pedoni, oltre che in ambiti quali finanza, industria manifatturiera, informatica, gaming, ecc.
Rilevamento di elementi salienti in uno scenario urbano
Sono state analizzate le reti neurali più utilizzate nel campo della pedestrian detection e sono stati valutati i risultati su scenari leggermente diversi rispetto al dataset di training. Il dataset di test, infatti, è composto da video registrati da posizioni fisse inquadrando aree altamente trafficate come strade, parcheggi e parchi. Dopo aver individuato la rete con le prestazioni migliori nella rilevazione di una determinata classe (macchine, pedoni, etc.), si è proceduto a modificare l’architettura della rete per renderla in grado di rilevare più classi. Infine si è ri-addestrata la rete partendo da un set di pesi già parzialmente ottimizzati. Le immagini di training sono state prese dal dataset VIRAT , contenente diversi video già annotati e ottimali per il caso urbano. I risultati ottenuti sono stati simili al caso iniziale, con qualche miglioramento in determinate condizioni, specialmente nel caso di video statici registrati da posizioni alte, ossia nello scenario tipico di videosorveglianza.
SPARK s.r.l.
T3LAB ricerca partner aziendali per applicazioni di Deep Learning, anche in ambito industriale, mettendo a disposizione: - conoscenza dei framework più diffusi (TensorFlow, Caffè, Theano ecc...) - elaborazione di immagini con le principali librerie di computer vision (OpenCV, Halcon ecc...) - familiarità con piattaforme hardware (NVIDIA) utili all'addestramento ed inferenza di reti neurali