Quando si parla di Intelligenza Artificiale, il dibattito tende a scaldarsi molto in fretta, di solito tra una fazione asserragliata su un credo che prevede che le capacità umana non potranno essere eguagliate dalle macchine (quantomeno non in tempi brevi), e una fazione più propensa ad annunciare l’avvento prossimo, o addirittura già avvenuto, della nuova era dell’Intelligenza Artificiale.
Questo post non ha lo scopo di fornire un’introduzione teorica alle tematiche in questione, ma di esporre qualche considerazione su quanto fuorviante può essere una comparazione superficiale tra i risultati di riconoscimento umano e artificiale, se non viene tenuto in considerazione il contesto.
Le reti neurali “profonde” (Deep Neural Networks), sono oggi considerate lo stato dell’arte in molte aree dell’Intelligenza Artificiale, specialmente per la Computer Vision, quindi potremmo utilizzarle come banco di prova per questo genere di dibattito. Come possono essere comparate con la visione umana? Riescono ad eguagliare le nostre capacità? La risposta non è propriamente scontata.
Nel 2014, il team di Christian Szegedy pubblicò un interessante articolo[1]in cui mostravano che le DNNs hanno proprietà talvolta controintuitive, ovvero sembrano avere ottimi risultati nella generalizzazione, spesso anche migliore di quelli umani, tuttavia possono venire ingannate facilmente tramite Esempi Antagonisti Negativi (Adversarial Negative Examples). Gli autori ipotizzarono che una possibile spiegazione poteva essere la probabilità estremamente bassa di queste immagini antagoniste di essere presenti nei set di test, probabilità tuttavia sufficientemente densa da farli trovare praticamente in tutti i casi di test (gli autori li paragonano ai numeri razionali).


Sono oramai passati molti anni dai primi lavori pionieristici sulla classificazione antagonista[2,3], e oggigiorno molte immagini antagoniste vengono generate tramite Algoritmi Genetici (EA), che vengono fatti evolvere come una popolazione di immagini. Con questo genere di algoritmi, è interessante notare che è possibile ingannare reti neurali anche molto sofisticate a “riconoscere” con una sicurezza di quasi il 100% immagini che sono state “evolute” al punto da non avere più nulla degli oggetti naturali originali.[4].

L’utilizzo di algoritmi genetici per produrre immagini che vengano riconosciute dalle DNNs può produrre una varietà enorme di immagini differenti, e osservandole gli autori di questa ricerca notarono che
“Per molte delle immagini prodotte, possiamo capire perché la rete neurale creda che l’immagine sia di una data classe una volta etichettata. Questo è perché il processo evolutivo ha bisogno solo di produrre features che sono uniche, o discriminative per una data classe, piuttosto che produrre un’immagine che contenga tutte le caratteristiche tipiche di una classe”
These examples demonstrate how AI recognition can be intentionally fooled, making it fail to recognize some images which are obvious to us (false negatives), and also making it recognize with strong confidence, something that to us is obviously not there. There is plenty of literature on this topic[5–7], which can be pretty important also from a cybersecurity perspective[8].
In ogni caso, andrebbe sottolineato che il riconoscimento umano ha i propri difetti anche: ci sono tantissime illusioni ottiche a dimostrarlo, non ultima quella del famoso vestito bianco-oro / nero-blu, che a suo tempo accese forti dibattiti.

Il famoso abito nero e blu: qualcuno lo vede nero e blu, mentre altri bianco e oro. La mancanza di contesto insieme alla bassa qualità della foto ci obbliga a “indovinare”, e quello che “vediamo” dipende da come abbiamo interpretato la luminosità ambientale della scena.

Ci sono casi dove la visione artificiale supera consistentemente quella umana[9,10], come nel caso del riconoscimento fine “intra-classe”, come le razze dei cani, serpenti, etc. Sappiamo che le reti neurali vengono addestrate tramite opportuni set di dati di training, ma sembra che gli umani siano persino più sensibili delle macchine alle situazioni dove non hanno avuto un’esposizione sufficiente a quel tipo di immagini, ovvero quando non vi sono sufficienti dati di training.
La percezione umana è una bestia infida. A noi sembra eccezionale, perché può rivelarsi molto robusta e adattiva, ma come abbiamo visto dipende molto da conoscenze pregresse, visto che anche noi necessitiamo di training (anche a vita) per poterla esercitare con qualche successo. Certo, abbiamo anche categorie innate dove siamo molto bravi nel riconoscimento sin dalla nascita (es. visi umani della medesima razza), ma sapete una cosa? Possiamo essere fregati anche lì, con un semplice cambio di illuminazione[11,12].

Inoltre, noi facciamo molto affidamento su aspetti della “realtà” che non sono assolutamente oggettivi, come i colori. Tutti sanno che i colori dipendono dalla lunghezza d’onda della luce riflessa dagli oggetti, ma spesso dimentichiamo che quello che rende i colori quello che rappresentano per noi è l’interpretazione del nostro cervello. In breve, i colori non esistono in natura, sono solo una piccola porzione della luce che ci circonda, che il nostro cervello codifica in sensazioni specifiche. Noi non vediamo infrarosso, ultravioletto o raggi gamma come colori, anche se sono decisamente lì, e vediamo anche colori che non “esistono” realmente nello spettro, come il marrone.
La nostra percezione è fortemente legata non solo alla nostra neurofisiologia, ma anche al contesto culturale. C’è il caso degli Himba, una (oramai) famosa tribù della Namibia, che hanno dozzine di termini per definire il colore verde, ma che non hanno parole per il blu. Gli Himba apparentemente non sono in grado di distinguere il blu dal verde, cosa per noi semplice, mentre sono molto meglio di noi nell’individuare anche sottolissime differenze nelle sfumature di verde, per noi quasi impossibili da distinguere[13]. Questo ha portato diversi studiosi a ipotizzare che il blu sia “divenuto” per noi riconoscibile solo in tempi relativamente recenti, quando nelle varie culture hanno iniziato a fare la propria apparizione termini specifici per questo colore[14].
Le differenze tra i difetti di rionoscimento umani e delle macchine suggeriscono che i due processi siano poco assimilabili. Il riconoscimento umano non è probabilmente meglio o peggio di quello artificiale, o quantomeno si tratta di un problema mal posto, visto che continuiamo a evitare di tenere in conto la conoscenza e il training che è necessario agli umani per esercitare qualsiasi genere di riconoscimento.
References
- [1]C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. J. Goodfellow, R. Fergus, Intriguing properties of neural networks, in: 2nd International Conference on Learning Representations, ICLR 2014, Banff, AB, Canada, April 14-16, 2014, Conference Track Proceedings, 2014.
- [2]N. Dalvi, P. Domingos, Mausam, S. Sanghai, D. Verma, Adversarial classification, in: Proceedings of the 2004 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining – KDD ’04, ACM Press, 2004. doi:10.1145/1014052.1014066.
- [3]D. Lowd, C. Meek, Adversarial learning, in: Proceeding of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining – KDD ’05, ACM Press, 2005. doi:10.1145/1081870.1081950.
- [4]A. Nguyen, J. Yosinski, J. Clune, Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, ArXiv E-Prints. (2014) arXiv:1412.1897.
- [5]B. Biggio, F. Roli, Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning, (2017).
- [6]A. Krizhevsky, I. Sutskever, G.E. Hinton, ImageNet classification with deep convolutional neural networks, Commun. ACM. (2017) 84–90. doi:10.1145/3065386.
- [7]When DNNs go wrong – adversarial examples and what we can learn from them, The Morning Paper. (2017). https://blog.acolyer.org/2017/02/28/when-dnns-go-wrong-adversarial-examples-and-what-we-can-learn-from-them/ (accessed April 22, 2019).
- [8]I. Goodfellow, N. Papernot, S. Huang, R. Duan, P. Abeel, J. Clark, Attacking Machine Learning with Adversarial Examples, OpenAI. (2017). https://openai.com/blog/adversarial-example-research/ (accessed April 22, 2019).
- [9]6 areas where artificial neural networks outperform humans, VentureBeat. (2017). https://venturebeat.com/2017/12/08/6-areas-where-artificial-neural-networks-outperform-humans/.
- [10]What I learned from competing against a ConvNet on ImageNet, Andrej Karpathy Blog. (2014). https://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/ (accessed April 27, 2019).
- [11]C. Hong Liu, C.A. Collin, A.M. Burton, A. Chaudhuri, Lighting direction affects recognition of untextured faces in photographic positive and negative, Vision Research. (1999) 4003–4009. doi:10.1016/s0042-6989(99)00109-1.
- [12]A. Missinato, Face Recognition With Photographic Negatives: Role of Spatial Frequencies and Face Specificity, University of Aberdeen, 1999.
- [13]How do Namibian Himbas see colour?, Gondwana Collection Blog. (2016). https://www.gondwana-collection.com/blog/how-do-namibian-himbas-see-colour/.
- [14]K. Loria, No one could see the colour blue until modern times, Business Insider Australia. (2015). https://www.businessinsider.com.au/what-is-blue-and-how-do-we-see-color-2015-2.
Andrea lavora nel campo dell’IT da quasi 20 anni coprendo un po’ tutto, da sviluppo a business analysis, alla gestione di progetti.
Oggi possiamo dire che è uno gnomo spensierato, appassionato di Neuroscienze, Intelligenza Artificiale e fotografia.