Arriva Google Duplex. Un grande passo per l’AI o un altro passo verso il deep fake definitivo?
Agli inizi di maggio, nel Google I/O 2018 Keynotes Sundai Pichard ha presentato Google Duplex.
That’s one small step for a man, one giant leap for mankind. Neil Amrstrong, 20/7/1969
Come si può capire dall’esempio del video, Duplex non solo è in grado di imitare (quasi) perfettamente un parlato naturale, ma è anche in grado di capire il contesto del discorso, e adattarsi all’interlocutore.
In precedenza, parlando di GAN e Deep fakes, avevo illustrato la capacità dei sistemi attuali di AI di ricostruire visi con tanto di mimiche facciali e lip-sync, imparando da footage della persona in questione, facendo pronunciare a tali sistemi praticamente qualsiasi discorso grazie al text-to-speech di Wavenet.
Ma generare audio a partire da testi preconfezionati, a quanto pare, è già storia: ora a Wavenet sono state aggiunte voci umane, come quella di John Legend (sotto), in modo da risultare ancora più naturale.

Negli esempi riportati da Pichard al convegno, Duplex si è mostrato in grado di effettuare prenotazioni di vario genere e di interagire in modo appropriato. Il risultato, almeno in questi contesti, è indistinguibile da una voce umana. Certo, in questo momento la chiave è stata proprio quella di limitare il campo a un dominio specifico come le prenotazioni. Per ora siamo lontani da un sistema in grado di iniziare e sostenere conversazioni di carattere generale, anche perché la conversazione umana prevede un certo livello di condivisione di concetti fra gli interlocutori, in modo da poter anticipare la direzione di un certo dialogo.
In fin dei conti anche gli umani hanno grosse difficoltà a sostenere conversazioni in ambiti totalmente ignoti. Certo, i più spigliati possono improvvisare certo. Ma l’improvvisazione altro non è un tentativo più o meno riuscito di ricondurre il dialogo stesso su un binario più “confortevole”.
Come funziona
Architettura
Il cuore di Duplex è una Rete Neurale Ricorrente (RNN), costruita utilizzando TensorFlow Extended (TFX), una piattaforma di Machine Learning “general purpose” (definizione di Google). Questa RNN è stata addestrata su un insieme di conversazioni telefoniche opportunamente anonimizzate.
La conversazione viene trasformata preventivamente da da ASR (Automatic Speech Recognition) in testo. Questo testo viene poi fornito in ingresso alla RNN di Duplex, insieme alla struttura audio, e ai parametri contestuali della conversazione. Per esempio il tipo di appuntamento desiderato, l’ora voluta ecc. Il risultato sarà il testo delle frasi da pronunciare, che poi verranno opportunamente “lette ad alta voce” via TTS (Text-To-Speech).
Google Duplex funziona utilizzando una combinazione di Wavenet per la parte ASR (Automatic Speech Recognition), e Tacotron per il TTS.

Naturalezza
Per sembrare più naturale, Duplex inserisce pause ad hoc, come “mmh”, “ah”, “oh!”, che riproducono le stesse “disfluenze” umane, suonando più familiari alle persone.
Inoltre Google ha lavorato anche sulla latenza delle risposte, che deve allinearsi alle aspettative dell’interlocutore. Per esempio gli umani tendono ad aspettarsi basse latenze in risposta a stimoli semplici, come i saluti, o a frasi come “non ho capito”. In alcuni casi Duplex addirittura non aspetta nemmeno il risultato di RNN, ma utilizza approssimazioni più veloci, magari combinate con risposte più esitanti, per simulare una difficoltà di comprensione1 .
Questioni etiche e morali
Mentre indubbiamente questo sistema ha suscitato stupore dal punto di vista dei risultati e della tecnologia, è altrettanto vero che proprio la virtuale indistinguibilità dalla voce umana solleva più di una perplessità.
Da una parte, è indubbio il potenziale di utilità di questo sistema, come la possibilità di fare prenotazioni in automatico quando si è impossibilitati (es: quando si è al lavoro), o come aiuto a persone con deficit come sordità o disfasia. D’altra parte, specie considerando il progresso fatto da tecnologie complementari come quello della sintesi video (ne ho parlato qui), rende evidente che il rischio di arrivare a deep fakes così realistici da essere totalmente indistinguibili, sta diventando più che altro una certezza.
In molti sostengono che sarebbe necessario avvertire l’interlocutore che sta dialogando con un’intelligenza artificiale. Tuttavia, un approccio del genere sembra poco realistico. Dovremmo renderlo obbligo di legge? Di quale legge? Con quale giurisdizione? E come attuarlo in ogni caso? Ma la cosa potrebbe anche inficiare l’efficacia del sistema, in quanto le persone tenderebbero a comportarsi in modo differente, una volta che sanno di dialogare con una macchina, non importa quanto realistica.
Note
1. Stando a Google, questo consente di avere meno di 100 ms di latenza di risposta in questi casi. Paradossalmente, in altri casi, è stato scoperto che introdurre più latenza (es. nel caso di risposte a domande particolarmente complesse) aiutava a far apparire la conversazione più naturale.
LINK
Google Duplex: An AI system to achieve real-world tasks over the phone
Comment: Google Duplex isn’t the only thing announced at I/O that has societal implications
Google Assistant Routines begin initial rollout, replaces ‘My Day’
The future of the Google Assistant: Helping you get things done to give you time back
Is Google Duplex ethical and moral?
Deciding Whether To Fear or Celebrate Google’s Mind-Blowing AI Demo
Google Duplex beat the Turing test: Are we doomed?
Andrea lavora nel campo dell’IT da quasi 20 anni coprendo un po’ tutto, da sviluppo a business analysis, alla gestione di progetti.
Oggi possiamo dire che è uno gnomo spensierato, appassionato di Neuroscienze, Intelligenza Artificiale e fotografia.