COMPUTER VISION E IMAGING COME "VISIONICA". VERSO LA VISUAL INTELLIGENCE

Giovanni Zoda

Pluralità, cm 40x34x10, resina e olio su tavola, 2016

Niente è natura, tutto artificio

Lucrezio

Visivo digitale

Premessa: i video

Ogni report e indicatore attesta che oggi, nel mondo dei dispostivi di comunicazione la testualità più prodotta, fruita e condivisa è quella visiva, e nello specifico l’audiovisivo. Quel mondo, cioè, di video di diversa natura, produzione, genere, estetica e finalità che circolano in rete sui diversi device in varie piattaforme e siti (per una mappatura di questo universo di forme, modi, pratiche e tecnologie rimando al mio Visioni digitali. Web, video e nuove tecnologie) e che definisce un visivo in continua espansione, anzi, per essere ancora più specifici, in una espansione “esponenziale” (il rimando è alla natura “esponenziale” delle nuove tecnologie. In questa direzione si muovono, in particolare, gli studi della Singularity University sulla base della legge di Moore sugli sviluppi esponenziali delle tecnologie digitali. Si veda la voce Treccani a proposito della legge di Moore, e il volume del fondatore della Singularity University, Ray Kurzweil, La Singolarità è vicina).

Hyper-visual

Nell’ultimo dei report annuali che rilascia IBM a proposito degli sviluppi tecnologici più interessanti e con maggiore capacità di impatto nella nostra società chiamato 5 in 5, la componente visiva rappresenta lo snodo fondamentale, tanto che il titolo del documento è The Invisible Made Visible. Si parla di sistemi di Imaging (MRI e EEG – MRI sta per Magnetic Resonance Imaging; si tratta di una tecnica di generazione di immagini usata in medicina a fini diagnostici e basata sul principio fisico della risonanza magnetica nucleare. L’EEG è invece l’elettroencelografia che, tramite elettrodi, registra l’attività elettrica dell’encefalo), sistemi in grado di supportare la misurazioni di varianti nel linguaggio e nella scrittura dei pazienti (per esempio di Parkinson o Alzheimer) e capaci di creare complessi sistemi visivi a supporto di medici e pazienti. Viene citato l’Hyperimaging, quel ramo degli studi della Computer Vision che permette alla macchina di vedere e predire il visibile oltre lo spettro della luce combinando dispositivi di analisi di immagini a onde millimetriche, videocamere a varia visibilità e sensori. Mentre il cosiddetto Macroscopio è l’utilizzo di algoritmi e software di Machine Learning per analizzare, catalogare e combinare un vasto numero di informazioni riguardanti il mondo fisico e renderle alla portata della nostra vista e della nostra comprensione.

Ma basti pensare a quanto si appresta a realizzare Facebook nel 2018 creando, da una parte, una piattaforma mainstream per la Realtà Aumentata e costruendo, quindi, il mondo Facebook intorno alle immagini e ai video e formalizzando il rapporto tra uomo e ambiente e informazioni sulla base delle camere. Fatto che implica uno spostamento fondamentale dalla tastiera alla camera e che sta già avendo ripercussioni a livello sociale, culturale e cognitivo. E sempre Facebook ha appena lanciato – in fase Beta – Spaces, una “zona” di Facebook in cui le interazioni avvengono nei mondi della Realtà Virtuale accessibili agli avatar degli utenti registrati. Un universo di scambi tridimensionale, a 360° e immersivo.

Ma l’elenco degli investimenti in ricerca sui dispositivi visivi digitali e le loro applicazioni potrebbe essere lunga, basti accennare agli algoritmi che regolano le auto a guida senza conducente, ai famosi algoritmi di ricerca di Netflix, allo slancio della robotica di nuova generazione e all’impatto rivoluzionario che le tecniche di Medical Imaging stanno apportando in ambito medico, chirurgico e farmaceutico.

La questione dispositivo

Una questione di contesto

«Il dispositivo è ciò che regola il rapporto tra lo spettatore e le sue immagini in un determinato contesto simbolico» (Aumont, 2007: 199)

Questo il pensiero di Jacques Aumont, e nel nostro caso specifico il determinato contesto simbolico è il contesto culturale, sociale ed economico determinato dalle nuove tecnologie informatiche. Il dispositivo visivo di oggi nasce a stretto contatto, non tanto delle tecnologie digitali, quanto della logica culturale che le tecnologie digitali hanno e stanno determinando in una infinita negoziazione all’interno della società. Una logica culturale talmente nuova da poter essere definita “rivoluzionaria” (cfr. Floridi, 2014), in quanto in grado di modificare i paradigmi e di sovvertire modelli consolidati nel tempo. E, infatti, Aumont continua: «Inoltre, lo studio del dispositivo è esso stesso necessariamente uno studio storico: non esiste dispositivo al di fuori della storia» (Aumont, 2007: 199).

“Visionica”

Ciò implica che lo studio dell’immagine e del visivo contemporaneo non può prescindere dallo studio dello specifico dispositivo visivo digitale. Se ne era già accorto Paul Virilio che dopo aver studiato la “logistica della percezione” nel suo volume Guerra e cinema, aveva dato seguito alle sue riflessioni sulla logica dei dispositivi visivi nel volume La macchina che vede. Siamo agli inizi degli anni Ottanta e Virilio prevede una sorta di materia di studi futuristica o futuribile:

«Non si parla forse della prossima produzione di una ‘macchina che vede’ capace non solo di riconoscere i contorni delle forme, ma anche di interpretare completamente il campo visivo, la messinscena, vicina o lontana, di un ambiente circostante complesso? Non si parla forse anche di una nuova disciplina tecnica, la “visionica”, ossia la possibilità di ottenere una visione senza sguardo in cui la videocamera dipenderebbe da un computer ed eserciterebbe per la macchina, invece che per un qualsiasi telespettatore, la capacità d’analisi dell’ambiente circostante, l’interpretazione automatica del senso degli avvenimenti, e ciò nel campo della produzione industriale, della gestione di stock, o anche in quello della robotica militare?» (Virilio, 1989: 123)

La “visionica” non esiste, ma esiste una disciplina, tutta interna al mondo dell’informatica e della cibernetica, che in qualche modo si è assunta proprio questa finalità. Si tratta della Computer Vision (CV da ora in avanti). E prima di affrontare lo specifico di questa disciplina vorrei concentrare l’attenzione sul fatto che è lo studio della CV a permetterci di capire il dispositivo digitale che definisce il visivo contemporaneo. La CV è il luogo dove, non solo vengono realizzati algoritmi, software, hardware e dispostivi visivi, ma anche – e soprattutto – il luogo in cui viene definito il campo del visivo, della visività, esplorando potenzialità e orizzonti. Non è il luogo dell’immagine, ma il luogo in cui si crea ciò che produce l’immagine e ciò che permette all’immagine di prendere e assumere forme diverse per scopi e finalità differenti. Risulta quindi fondamentale lo studio della CV per poter definire, nello specifico, l’oggetto “immagine contemporanea”, fornendo così agli studi sul visivo un oggetto concreto, sia nelle sue componenti tecnologiche che, soprattutto, nelle sue potenzialità visive, nella sua natura visiva, in una parola nella sua logica culturale.

Tra mappe e filosofia

Per Eric Rodenbeck:

«La visualizzazione delle informazioni sta diventando qualcosa di più che un insieme di strumenti, tecnologie e tecniche per comprendere il significato di insiemi enormi di dati. Sta emergendo come un medium a sé stante» (Persico, 2016: 99).

Io non penso si possa parlare di medium, quanto di un processo visivo con una logica e una natura tecnologica specifica che deve essere sondata. E questa operazione deve essere fatta secondo una prassi ben delineata, per esempio, da Marshall McLuhan in una nota intervista realizzata da “Playboy”:

«A volte me lo chiedo. Sto esplorando. Non so dove ciò mi porterà. Il mio lavoro è rivolto allo scopo pratico di cercare di comprendere il nostro ambiente tecnologico e le sue conseguenze psichiche e sociali. Ma i miei libri fanno parte del processo, piuttosto che essere il prodotto finale della scoperta; il mio scopo è quello di utilizzare i fatti come strumenti d’indagine, come mezzi di comprensione e di ricerca di modelli, invece che di impiegarli nel senso sterile e tradizionale di classificazione di dati, di categorie e contenitori. Voglio creare mappe per nuovi territori, piuttosto che segnalare dove si trovano le vecchie postazioni».

Oppure declinando l’affermazione di Deleuze e Guattari:

«La scienza non ha nessun bisogno della filosofia per i suoi compiti. In compenso, quando un oggetto è scientificamente costruito con funzioni, per esempio uno spazio geometrico, resta da cercarne il concetto filosofico che non è assolutamente dato nella funzione»(Deleuze, Guattari, 1996: 111).

Potremmo così dire che il concetto filosofico della CV è quello che abbiamo definito come la sua logica culturale.

I “nuovi territori” della CV

La macchina che vede

«Computer Vision is the science and technology of making machine that see» (Cipolla, Battiato, Farinella, 2010: VII).

Ecco allora che ci imbattiamo ne “la macchina che vede” citata da Virilio, proprio negli studi di CV. Ma andiamo con ordine e proviamo a tracciare innanzitutto una sintetica storia di questo campo di ricerca. Il primo personaggio chiave della CV è il famoso scienziato Marvin Minsky che fonda negli anni Sessanta il Laboratorio di Intelligenza Artificiale al MIT di Boston. Nel 1966 propone al suo studente Gerald Jay Sussman di passare l’estate provando a connettere una camera a un computer e chiedere alla macchina di descrivere ciò che “vede”. Minsky sa che il processo di apprendimento che prefigura la costruzione di una qualche forma di intelligenza, a partire dall’immagazzinamento di dati e informazioni, fino alla loro trasformazione e elaborazione, avviene nell’uomo fondamentalmente attraverso la vista. L’intuizione è quella di dotare il computer di questa facoltà. Ma il compito si prefigura come piuttosto complesso e per affrontarlo invita al suo laboratorio lo studioso David Marr, scienziato con alle spalle studi in matematica, psicologia e neuroscienze. Definito il fondatore della neuroscienza computazionale, studia la visione come un processo in grado di definire un’immagine tridimensionale a partire da una bidimensionale. La rappresentazione tridimensionale diviene quindi la base da cui una macchina può apprendere, e quindi provare a prendere decisioni e realizzare azioni autonome.

La CV può così essere definita il campo di ricerca che studia come abilitare i computer alla comprensione e alla interpretazione delle informazioni visuali presenti in immagini o video.

Nel 1982 (quindi quasi in contemporanea con la “visionica” di Virilio) esce, postumo, Vision di David Marr che definisce i caratteri della CV. Con il volume di Marr, non solo nasce la disciplina “Computer Vision”, ma se ne delinea il tratto essenziale: costruire dispostivi computazionali in grado di vedere ma anche, a partire da questo senso acquisito, di comprendere e ragionare.

[Estratto del saggio: S. Arcagni, “Computer Vision e Imaging come ‘visionica’. Verso la Visual Intelligence”, in A. Rabbito (a cura di), La cultura visuale del XXI secolo. Cinema, teatro e new media, Meltemi, Milano 2018]

Bibliografia:

Arcagni S., Visioni digitali. Web, video e nuove tecnologie, Einaudi, Torino 2016.

Aumont J., L’immagine, Lindau, Torino 2007.

Cipolla R., Battiato S., Farinella G. M. (a cura di), Computer Vision. Detection, Recognition and Reconstruction, Springer, Berlin Heidelberg 2010.

Deleuze G., Guattari F., Che cos’è la filosofia?, Einaudi, Torino 1996.

Floridi L., The Fourth Revolution. How the Infosphere is Reshaping Human Reality, Oxford University Press, Oxford 2014.

Iaconesi S., Oriana Persico, La cura, Codice, Torino 2016.

Kurzweil R., La Singolarità è vicina, Apogeo, Milano 2008.

Marr D., Vision. A Computational Investigation into the Human Representation and Processing of Visual Information, The MIT Press, Cambridge (Mass.) 2010.

Virilio P., Guerra e cinema. Logistica della percezione, Lindau, Torino 2002.

Virilio P., La macchina che vede. L’automazione della percezione, Sugarco, Milano 1989.

Sitografia:

http://www.treccani.it/enciclopedia/legge-di-moore_

http://research.ibm.com/5-in-5/

https://sites.google.com/site/uominieculture/people/marshall-mcluhan/intervista-mcluhan-1969