Il recente annuncio da parte di Sony del primo televisore al mondo dotato di intelligenza cognitiva, pone degli interrogativi sul termine “intelligenza” applicato all’informatica e sul significato che ha per noi esseri umani
La parola “cognizione” è definita come un’azione mentale o processo di acquisizione della conoscenza e comprensione attraverso il pensiero, l’esperienza e i sensi, ne consegue che l’intelligenza cognitiva si basa proprio sull’analizzare più elementi in contemporanea per elaborarli in base ai nostri scopi.
Come recita la campagna informativa di Sony, “il modo in cui percepiamo il mondo è basato sulle informazioni che partono dai nostri occhi e dalle nostre orecchie per arrivare al cervello contemporaneamente. Allo stesso modo, Il processore cognitivo XR è capace di analizzare le interazioni e le relazioni di ogni elemento tutte in una volta, proprio come fa il nostro cervello”.
Poiché il concetto di pensiero cognitivo presuppone di utilizzare una conoscenza esistente per generare una nuova conoscenza, come si può coniugare questo concetto ad un televisore e, più in generale, al trattamento delle immagini?
Pensiamo alla guida autonoma delle autovetture. Ne sentiamo parlare parlare insieme ai sistemi di videosorveglianza del traffico, al riconoscimento dei diversi modelli comportamentali del guidatore, alla realtà virtuale, tutti accomunati da un processo di elaborazione delle immagini unito al riconoscimento di oggetti, indispensabile per instaurare quel processo decisionale tanto importante per la sicurezza. Un’automobile a guida autonoma deve sapere riconoscere un pedone anche al buio e decidere se frenare piuttosto che deviare la traiettoria (se questo non porta ad un impatto con altri oggetti ai bordi della strada). Come essere umano, tutto sembra semplice poiché sono gesti che compiamo quasi senza pensarci, ma da punto di visto informatico, questi processi decisionali vengono demandati a sistemi di intelligenza artificiale, deep learning e intelligenza cognitiva. Analizziamo le differenze.
Artificial Intelligence (AI)
Sia l’AI che il l’intelligenza cognitiva partono da un processo di deep learning, cioè di apprendimento basato sull’” osservazione” di migliaia di casi simili analizzati. L’anno scorso tutti abbiamo giocato immaginandoci più giovani o anziani con faceApp, mentre il trend di adesso è quello di Reface, un software che sovrappone il nostro volto ad altri video preesistenti (scene di film o videoclip famosi). Un altro esempio lo si può trovare sul profilo instagram di myheritage, dove si possono vedere vecchie foto prendere vita.
Le vecchie foto adesso si muovono
Le app sui nostri telefoni sono solo il pannello di controllo attraverso il quale si possono inserire i dati nel “cervellone centrale”, sede della vera AI, che elabora i dati per restituire dei risultati davvero sorprendenti da poter condividere con gli amici.
La parola Intelligence, però, può trarre in inganno poiché, per essere tale, un’intelligenza dovrebbe essere dotata anche di un pensiero cognitivo, cioè quello che le permetta di compiere il passo successivo ed imparare da sola, studiando i modelli precedenti, per potere operare su diversi fronti, e non solo per un compito specifico.
Intelligenza cognitiva
Gli assistenti virtuali come Siri e Alexa rappresentano uno stato embrionale, avvicinandosi alla lontana, al cognitive computing perché rispondono a diverse richieste, ma sempre limitate ad un numero prestabilito mentre le vere applicazioni cognitive riescono a dare una risposta ponderata senza essere vincolate da un insieme di risposte preprogrammato. Se avete mai visto qualche film di fantascienza, spesso si vede il protagonista parlare con degli assistenti virtuali senza vincoli di alcun tipo, riuscendo ad ottenere risposte sensate, dettate da un senso logico, tipico dell’intelligenza cognitiva.
Immagini e percezioni 3D
Già nel 1935 vennero fatti degli esperimenti chiedendo a delle persone di indicare la posizione di un bersaglio su uno schermo sebbene questi fosse sfalsato da una grande cornice a sinistra o a destra rispetto allo sguardo dell’osservatore. Le risposte, tuttavia, sembravano immuni a questa illusione indotta, con osservatori in grado di indicare con precisione la posizione del bersaglio.
L’Illusione di Roelofs
In studi successivi sono stati riconosciuti due diversi tipi di movimenti negli occhi di un soggetto che osserva un’immagine, quelli volontari corrispondenti al sistema di messa a fuoco, e quelli riflessivi, basati sulla visione ambientale.
Per semplificare, se vedessimo un albero da un finestrino di un treno in corsa, i nostri occhi continuerebbero a metterlo a fuoco (movimento volontario) sebbene l’ambiente circostante si muova velocemente (visione ambientale). Questa distinzione è operata dal nostro cervello che divide l’immagine in molte aree, individuando quelle di maggiore interesse (l’albero), tralasciando i movimenti delle zone circostanti.
L’intelligenza cognitiva permette di scartare le informazioni non necessarie
Il prato in primo piano scorre velocemente pertanto risulta poco importante, ma ne noteremo il colore verde predominante. La staccionata, poco distinguibile perché scorre veloce, assumerà invece un’importanza maggiore dei singoli fili d’erba. L’albero sullo sfondo avrà la massima attenzione e definizione che, invece, si affievoliranno nuovamente per quanto riguarda le nuvole e il cielo sullo sfondo. Risulta evidente la suddivisione, da parte del nostro cervello, di ogni singolo fotogramma in diverse aree assegnando loro più o meno importanza a seconda di quanto siano “giudicate” di primario interesse. Questo processo, ripetuto istante per istante, elabora gli stimoli visivi, il suono e tutti le altre informazioni provenienti dai nostri sensi per restituirci una visione completa della scena.
Trasportando questo modello al mondo informatico e, quindi, al cognitive computing, si ottiene quello che Sony chiama XR (ma scommetto che, a breve, altri produttori si muoveranno in tal senso), cioè un processore cognitivo che utilizza l’AI per ottimizzare gli elementi individuali dell’immagine come luminanza, crominanza, contrasto e colore e che faccia un passo avanti, rilevando l’intero frame in tempo reale suddividendolo in zone specifiche sulle quali concentrarsi. Incrociando questi dati con la percezione del suono, l’intelligenza cognitiva può coordinare le immagini sullo schermo, focalizzandosi maggiormente sulle aree di maggiore importanza alla stregua del nostro cervello.
Il rilevamento di oggetti, l’estrapolazione di alcune caratteristiche visive e, soprattutto, la loro successiva associazione uniti a tecniche di apprendimento automatico rendono possibile il processo decisionale, che è esattamente il compito che si prefigge l’informatica cognitiva.
Work in progress
L’informatica cognitiva è già una realtà. Già nel febbraio del 2011, il computer cognitivo di Ibm, chiamato Watson, riusciva a comprendere ed elaborare risposte sensate rispondendo in modo del tutto naturae alle domande di un quiz televisivo. Ovviamente, lo scopo non era di vincere bensì quello di costruire un computer che possa essere più efficace nella comprensione e nell’interazione nel linguaggio naturale. Pensare che, per ottenere quello che normalmente facciamo in un secondo, già 10 anni fa erano necessari un insieme di dieci rack contenenti 90 server per un totale di 2880 core, fa rilettere sulle potenzialità del nostro cervello.
I processori cognitivi rappresentano un possibile metodo per risolvere le sfide della prossima generazione, dal mondo degli affari alla medicina e al mondo naturale che ci circonda, rendendo possibile una collaborazione fra uomo e macchina.
Inserire tutto questo su un singolo chip dentro un televisore credo sia effettivamente troppo, ma lascia intravedere la direzione verso la quale si muoveranno le future innovazioni nel campo dell’intrattenimento audio/video. E noi saremo qui per raccontarvele.
Stay tuned!
© 2021, MBEditore – TPFF srl. Riproduzione riservata.