DEEP LEARNING PERCEPIRE L’AMBIENTE PER RICONOSCERLO E CLASSIFICARLO

DEEP LEARNING PERCEPIRE L’AMBIENTE PER RICONOSCERLO E CLASSIFICARLO

Siamo stati in America via etere per ascoltare due ricercatori informatici italiani, Lorenzo Torresani e Loris Bazzani, dell’Università di Dartmouth, dipartimento di Computer Science Hanover, nella contea di Grafton, New Hampshire, Stati Uniti. Ci hanno condotto nel mondo del deep learning tra la storia e scenari pseudo fantastici in cui il computer riconosce i nostri pensieri e i nostri stati d’animo.

La nascita ufficiale dell’Intelligenza Artificiale viene fatta risalire dalla comunità scientifica ad un seminario del 1956 nel quale la disciplina viene fondata programmaticamente. Il seminario si tenne proprio presso il Dartmouth College: da allora ad oggi come si è evoluta la ricerca sull’IA?
Loris: «In realtà l’IA ha origini ancora più indietro, stiamo parlando di un campo multidisciplinare in cui intervengono la Le nostre reti neurali copiate da una macchina matematica, la statistica, l’informatica, le neuroscienze, che hanno avuto e hanno tuttora un ruolo fondamentale nel suo sviluppo. Un aspetto importante dell’IA, e di cui ci occupiamo, è la riproduzione da parte di una macchina della percezione dell’ambiente che ci circonda, in particolare l’associazione visiva di ciò che sta succedendo (computer vision), ovvero fare in modo che la macchina acquisisca le informazioni dell’ambiente, le elabori e che dia un significato semantico ai dati acquisiti».
Lorenzo: «Paradossalmente sono passati quasi 60 anni da quella conferenza ma gli obiettivi odierni non sono cambiati, ovvero, di riprodurre nelle macchine l’intelligenza umana. Quello che secondo me è cambiato è la consapevolezza di quanto sia difficile trasferire queste facoltà nella macchina. Nel documento della conferenza si legge che uno degli obiettivi era riuscire nel giro di due mesi a definire gli approcci per simulare le attività cerebrali umane nelle macchine. Oggi la tematica è ancora attuale con l’unica differenza che siamo maggiormente consapevoli di quanto sia difficile poterlo fare, e certo due mesi sono assolutamente insignificanti».

Perché si parla così tanto di deep learning?
Loris: «Deep learning è una termine recente ma le sue basi sono state introdotte almeno 30 anni fa sotto lo pseudonimo di reti neurali; già negli anni ‘80 sono state introdotte tecniche incoraggianti che però non hanno avuto un riscontro positivo per diversi fattori. Uno dei motivi principali è che è subentrata una tecnica più promettente – la support vector machine – che grazie alla sua efficienza ed efficacia ha rivoluzionato il modo di fare il riconoscimento di oggetti. Ciò non vuole dire che non si è più lavorato sui vecchi modelli di deep learning. Molti ricercatori come i professori G. Hinton, Y. Bengio, Y. LeCun e altri hanno continuato a lavorare sulle reti neurali e, a distanza di molti anni, hanno avuto ragione perché sono i modelli a cui si rifanno le moderne teorie di IA. Il successo delle tecniche di deep learning è dato da diversi fattori che non erano disponibili 30 anni fa: dallo sviluppo dell’hardware che ha permesso di computare molti dati al secondo, dalla disponibilità di dataset a larga scala (per esempio, ImageNet presenta un milione di immagini annotate), che possono essere usati per addestrare i modelli di deep learning, infine il terzo fattore di successo è che ci sono delle nuove tecniche di addestramento».
Lorenzo: «A mio parere il deep learning è attualmente molto di moda poiché negli ultimi 10 anni ha prodotto risultati straordinari, soprattutto nel campo della visione artificiale. In particolare, il risultato eclatante e storico è stato quello ottenuto dal professore Hinton dell’Università di Toronto, che nel 2012 ha scritto un articolo in cui presentava i risultati di un sistema di riconoscimento visivo basato sulla rete neurale in relazione al benchmark di quel settore, sia allora che oggi ritenuto molto difficile, ossia quello che prevede di distinguere 1000 categorie visive. Nel passato fino al 2012 i miglioramenti rilevati sul benchmark sono stati sempre nella misura di frazioni di qualche punto percentuale. Invece Hinton è riuscito ad ottenere un miglioramento del 10% in un solo colpo. Questa dimostrazione di successo ha aperto la strada all’ulteriore sviluppo di questa tecnologia».

Cosa s’intende per visione artificiale?
Lorenzo: «È un concetto molto ampio e si riferisce alla capacità di capire in modo automatico l’immagine e gli oggetti presenti nella stessa. Diciamo che è la capacità di riprodurre nella macchina quello che noi svolgiamo in modo naturale guardando quello che ci circonda».

Tra i colossi dell’informatica che utilizzano tecniche di deep learning, Microsoft sembra abbia fatto un bel passo avanti in questo ambito. Una ricerca pubblicata recentemente dalla sezione asiatica della casa di Windows (http://ow.ly/Nv5vT) dichiara che il loro sistema, applicato nel riconoscimento delle immagini, si è dimostrato capace di un’accuratezza superiore a quella degli esseri umani. L’intelligenza di una macchina supererà quella di un essere umano?
Loris: «Premettiamo che i successi non sono solo dovuti alla ricerca fatta da Microsoft; l’Università di Toronto, l’Università di New York, l’Università di Oxford, e aziende come Google, Facebook, Baidu hanno contribuito molto in questa direzione negli ultimi 5 anni. Il punto di svolta è stato nel 2012 con il raggiungimento di un margine di errore del 18% nel problema di riconoscimento visivo di 1000 oggetti, fino ad arrivare ad oggi con una percentuale irrisoria del 5%. Questo non significa che il computer è più intelligente dell’essere umano. È vero che la macchina riesce a fare calcoli complicati molto meglio dell’uomo, dall’altra parte, però, l’essere umano è in grado di prendere decisioni in un ambiente in continua evoluzione e in presenza di informazione parziale, cosa che un computer non riesce a gestire. Nel caso di problemi specifici come la classificazione di 1000 oggetti, o nel gioco degli scacchi, il deep learning funziona bene, se dobbiamo pensare all’intelligenza in senso più ampio la macchina risulta carente. Siamo ancora distanti da risultati significativi in questo senso».
Lorenzo: «Nel caso specifico dell’articolo citato nella domanda, il compito dato alla macchina è di distinguere 1000 categorie. Alcune di queste sono piuttosto rare, e poco note alla persona comune, come ad esempio particolari specie di uccelli. La macchina ha la capacità di memorizzare queste categorie, sebbene inusuali, dato un numero sufficiente di esempi delle stesse. Con questo voglio dire che le macchine oltre ad avere la capacità di calcolo, hanno la capacità di memorizzare una serie di dati superiore a quella dell’essere umano».

Quali sono i progetti a cui state lavorando e i campi di applicazione delle vostre ricerche? Ci sono limiti di applicazione?
Lorenzo: «Siamo interessati alla visione artificiale e a tecniche che richiedono poca supervisione. Mi spiego, in passato si sono sviluppate tecniche che avevano bisogno di molta supervisione da parte dell’uomo. Un esempio: se si vuole sviluppare un sistema che sia in grado di riconoscere pedoni nelle immagini, si devono fornire un sacco di esempi di foto contenenti pedoni. Inoltre in ciascuna di queste immagini si devonospecificare a mano le regioni della foto contenenti l’oggetto desiderato (in questo caso, pedone), affinché la macchina possa imparare a distinguerlo dallo sfondo e a riconoscerlo in modo automatico anche in nuove immagini. La necessità di acquisire manualmente tutti questi esempi per ciascun oggetto da riconoscere pone un grosso limite alla creazione di sistemi generali in grado di riconoscere un numero elevato di oggetti. Quello che facciamo qui è cercare di dipendere il meno possibile dall’uomo. Internet aiuta moltissimo, è una banca dati inesauribile. Sviluppiamo delle tecniche che sono in grado di apprendere da internet senza la necessità di supervisione da parte dell’uomo. L’applicazione naturale di tale tecnologia è la possibilità di etichettare o “tag’’ automaticamente i video e le foto con gli oggetti presenti in esse. Questo è importante a livello commerciale soprattutto per le aziende che lavorano con i motori di ricerca».

Quali sono i settori che più beneficerebbero dello sviluppo di queste ricerche? Si è distanti dall’utilizzo commerciale?
Lorenzo: «Un’altra direzione che si sta valutando è l’interazione tra l’uomo e la macchina. Attualmente, usiamo dei sistemi molto rudimentali, come la tastiera o il mouse, introdotti più di 40 anni fa. Ritengo che con le tecniche di deep learning nel giro di 5 anni l’interazione uomo–macchina subirà un notevole sviluppo, con sistemi in grado di interpretare accuratamente la gestualità ed il parlato. Siri è un primo esempio di tale tecnologia. Esistono anche dei prototipi che rilevano l’attività celebrale della persona, compreso il pensiero. Questi ultimi, però, avranno bisogno di più tempo, probabilmente 10/15 anni prima di poter raggiungere un buon livello di precisione. Questo tipo di prototipi troverebbe applicazione nel campo della medicina, con sistemi in grado di rilevare la depressione o lo stato d’animo del paziente. Sempre nel campo medico, si potrà avere uno sviluppo nella farmacologia, con sistemi che saranno in grado di predire le molecole più efficaci per la cura di una malattia, data la descrizione della struttura chimica della stessa molecola».

In Italia esistono degli studi o dei progetti in questo senso? A che punto siamo secondo voi?
Loris: «Ci sono diverse ricerche in Italia ma si va molto a rilento, qui in America da quando si pensa l’idea a quando si realizza il prototipo passa davvero poco tempo. Questo è principalmente dovuto alla disponibilità di risorse e fondi per la ricerca e la collaborazione con grandi aziende».
Lorenzo: «Ho lasciato l’Italia quasi 20 anni fa. Quindi non conosco bene la realtà italiana attuale. Da esterno posso dire che a livello teorico ci sono dei progetti molto interessanti, ma secondo me manca un rapporto proficuo tra l’industria e l’università. In America l’azienda riconosce il grosso beneficio che può trarre instaurando collaborazioni con le Università».

Come cambierà il mondo del software con la diffusione degli algoritmi intelligenti? Come saranno le applicazioni del prossimo futuro?
Loris: «Con la crescita esponenziale di informazioni a cui è esposta una persona (per esempio nel WEB) risulta essenziale avere algoritmi intelligenti per dare un ordine e quindi un’organizzazione dei dati. Uno degli scopi ultimi sarà quello di creare una sorta di agente intelligente che potrà essere un robot o un software con cui noi interagiremo in modo naturale, senza mouse e tastiera, che organizzerà le informazioni per noi e ci aiuterà nella vita quotidiana, migliorando la nostra qualità di vita».