Deep fakes: la nuova frontiera delle fake news

Grazie alle reti neurali, la tecnologia dei deep fakes ha raggiunto livelli di realismo che portano a domandarci a che cosa possiamo credere.

“the camera cannot lie, Joseph”. Robert Louis Stevenson (In the South Seas, 1896).

L’adagio “la macchina fotografica non mente” risale alle origini della fotografia, ma già negli anni ’80, prima di Photoshop, i laboratori di Polaroid erano in grado di effettuare editing sorprendenti per il periodo.

Come si evince dal video qui sopra, il fotoritocco (non stiamo parlando di fotomontaggio attenzione) produceva già risultati credibili 35 anni fa, anche se il processo era facilmente identificabile ad esami approfonditi. Tuttavia oggi siamo già abituati a vedere elaborazioni in grado di trasformare un’immagine totalmente, o addirittura di crearne di ex-novo, senza che il processo sia in alcun modo distinguibile da immagini “reali”.

Beauty Is Only Pixel Deep
Parodia di Photoshop

Fake faces

Nei laboratori di Nvidia, il team di Tero Karras ha messo a punto un metodo per addestrare a questo scopo due reti antagoniste (ne avevamo parlato qui). La loro idea è di far “crescere” sia generatore che discriminatore in maniera progressiva, partendo da immagini a bassa risoluzione, aggiungendo via via nuovi layer che modellano dettagli via via più fini man mano che l’addestramento progredisce.

Il training inizia con sia generatore (G) che discriminatore (D) avendo immagini low-res 4×4. I layer vengono incrementati durante il training su entrambe le reti, incrementando la risoluzione delle immagini generate.

I risultati sono stupefacenti (video sotto): risulta quasi impossibile anche per un umano distinguere facce o scene reali da quelle completamente generati.

Interessante è anche la tecnica del gruppo di Yao Feng, dell’università Jiao Tong di Shanghai, per ricostruire la struttura 3D di un viso a partire da una sua immagine 2D. Questo algoritmo, da loro battezzato Position map Regression Network (PRN), innanzitutto estrae dei contorni che rappresentano le features principali, ovvero occhi, bocca, e profilo della mandibola. Questi contorni rappresentano il risultato dell’allineamento, e servono a ricostruire la struttura 3D del viso.

Esempi dei risultati del PRN

Le coordinate dei punti del viso vengono immagazzinato nello spazio UV (abitualmente utilizzato per le coordinate delle texture). Questo approccio permette di inferire in modo molto rapido (si parla di pochi millisecondi) anche le parti nascoste del viso, e generare così delle invarianti anche in seguito a rotazioni o cambiamenti di postura molto accentuati.

Mappa di posizionamento UV. A sinistra la rappresentazione 3D della nuvola di punti del viso. A destra nella prima riga l’immagine 2D in input, la texture map estratta e la mappa UV corrispondente. Nella seconda riga i canali x, y e z della mappa di posizione.

Video audio-generato?

I video no, editare immagini statiche è un conto, i video un altro. Dei video ci si può fidare, sono attendibili… o no?

Beh, diciamo che a tendere potrebbe diventare un problema utilizzarli come prove in un tribunale.

Al SIGGRAPH 2017, diversi gruppi di ricerca hanno presentato il loro modello di sintesi facciale basata su audio, o addirittura su testo. In poche parole l’algoritmo impara le pose di un viso a partire da pochi minuti di girato originale (un precursore è stato Alternative Face, già precedentemente citato), e una volta imparato è in grado di ricostruire la mimica facciale in modo da sincronizzarla perfettamente (movimenti di accompagnamento inclusi) con l’audio, o da fargli pronunciare un discorso a partire da un testo.

Considerazioni finali

La sintesi di immagini e video sta raggiungendo un livello di realismo mai visto, al punto che in certi casi il prodotto sembra addirittura più realistico dell’originale. Con queste premesse è chiaro che c’è un buco legislativo a riguardo da colmare rapidamente, altrimenti in poco tempo diventerà praticamente impossibile capire a cosa credere o meno.

I video potrebbero diventare irrilevanti ai fini processuali, in quanto inconclusivi, oppure nel peggiore dei casi potrebbero essere utilizzati in maniera distorta e creare problemi che al momento è difficile stimare.

In linea di massima dovrebbe essere possibile riconoscere un video o un’immagine originale per tale, se è disponibile il RAW, visto che in un certo senso incorpora nel file la “firma” del dispositivo. Tuttavia non tutti i dispositivi sono in grado di salvare in questo formato, e comunque non tutti scelgono di farlo, principalmente per motivi di spazio. Ne consegue che il RAW non è scontato che sia disponibile, e qualsiasi altro formato implica manipolazione a prescindere.

Forse una possibilità sarebbe quella di utilizzare un’apposita blockchain per i video, che consenta di garantire che il file prodotto non sia stato manomesso in alcun modo, ma non è comunque un discorso semplice, visto che rimarrebbe comunque il problema di garantire la genuinità del video a monte.

LINKS

T. Karras, T. Aila, S. Laine. J. Lehtinen – Progressive Growing of GANs for Improved Quality, Stability, and Variation.  arXiv:1710.10196v3.

T. Karras, T. Aila, S. Laine. J. Lehtinen – Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion. ACM Transactions on Graphics (TOG), doi:0.1145/3072959.3073658

Y. Feng, F. Wu, X. Shao, Y. Wang, X. Zhou –  Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression NetworkarXiv:1803.07835v1

 

Rispondi

This site uses Akismet to reduce spam. Learn how your comment data is processed.