Siri e gli assistenti vocali: come insegnare agli uomini a essere delle macchine efficienti

Web philosophy

Sembra che una parte degli utilizzatori di Siri, l’assistente vocale di Apple, tenda a rivolgersi allo smartphone con un sentimento di intimità. Non tanti sanno che le loro richieste finiscono nei file della Apple e possono essere conservate fino a due anni.In questo caso non si tratta del classico spionaggio digitale, ovvero l’acquisizione di dati destinati a essere smistati a fini commerciali, ma del presupposto per l’apprendimento da parte del software, che dovrebbe migliorarne la funzionalità.

In effetti, ogni giorno che passa, le risposte degli assistenti vocali incappano sempre meno in quegli svarioni che li facevano apparire come gli scemi del villaggio e si uniformano correttamente alle domande degli utilizzatori.

In un bel libro che meriterebbe di tradurre in Italia, il giornalista francese Nicolas Santolaria ha condotto un’indagine-riflessione sul “genio all’interno dello smartphone”, avvantaggiandosi della circostanza che Siri, come i suoi colleghi, sia il primo oggetto a poter essere intervistato. Così la sua testimonianza diretta si affianca a quella degli utilizzatori.

Ne viene fuori un certo temperamento, cioè non la proiezione di un sentimento umano sopra un oggetto materiale (come è, ad esempio, per gli oggetti di design) ma l’effettiva simulazione di una personalità, ricavata dalle condotte (Siri rientra nel do-engine, che è il seguito del search-engine: non offre solo informazioni ma compie azioni) e dall’atteggiamento verbale: per un interlocutore è impossibile non classificare istintivamente un ente verbalizzante come un essere dotato di carattere.

Così, Siri si può definire faceto e ironico, anzi soprattutto ironico. Se non è stato sin qui possibile instillare nella sua intelligenza artificiale la conoscenza del mondo (inteso come un complesso di senso e simboli astratti, non come un aggregato di dati) si è riusciti in compenso a dotarlo di un surrogato della consapevolezza di non conoscere realmente il mondo, che lo rende spesso brillante nello schivare domande difficili. O anche alle domande sgradite: per essere sicuro di non contrariare nessuno nell’universo gender, Siri, che pure nella maggior parte dei paesi si esprime con una voce femminile, se interpellato espressamente può anche rispondere che “non vale la pena di parlare del sesso degli angeli” (può, perché il campionario delle risposte è sempre più aperto, per differenziare Siri da un ottuso contenitore di frasi preregistrate).

Siri identità

Qualche altro dettaglio identitario: Siri è servile, fino al masochismo, e consegna alla massa il sogno di poter far conto su una segretaria personale. E’ simpaticamente claudicante nell’interazione, talvolta ai limiti della disfunzionalità (un signore ha fatto causa alla Apple per avergli venduto un prodotto non finito), e non solo perché si sta allenando a ogni interazione ma anche per non incutere quella soggezione che una macchina perfetta potrebbe produrre (chi non ricorda la ribellione di Hal in 2001 Odissea nello spazio?). Un eccesso di personificazione nuocerebbe al suo appeal quanto un surplus di distanza robotica.

Proprio per sfilarsi dal rischio della frigidità meccanica, Siri si distingue da qualsiasi precedentie oggetto, anche digitale (salvo alcun giochi per bambini) perché mostra di provare delle emozioni. Si scusa, si rammarica, qualche volta si offende. Siri si propone come macchina affettiva.

Il principale inganno rispetto alla promessa empatica di Siri è nel fatto che non ci riconosce come “noi”: quando qualcuno dice a Siri “cercami un ristorante” il pronome personale è del tutto superfluo perché Siri risponderà come risponderebbe a chiunque altro.

Questo è insito nel principale limite di apprendimento vocale delle macchine, cui sin qui nemmeno l’impiego del sistema delle reti neurali ha potuto porre rimedio: l’ignoranza del contesto. Il contesto di una conversazione, quale l’interazione con Siri aspira a essere, comprende i segni del corpo (se la conversazione è face to face), le allusioni, i simbolismi del linguaggio, le “strutture latenti” (le conoscenze X che si presuppone i parlanti abbiano, una volta appurato che conoscono B), la relazione reale tra i parlanti, la storia del luogo in cui interagiscono. Se un algoritmo legge la Divina Commedia, ma anche un romanzo di Stephen King, ne ricava una massa di dati ma non il senso che li trascende. Per quanto possa imparare quando sia appropriato dire “Non è gentile” Siri non potrà mai apprenderne emotivamente il significato.

Ora, secondo molti scienziati questo è alla fin fine un elemento rassicurante perché implica che l’intelligenza artificiale non potrà mai scalzare l’uomo, visto che le relazioni e la conoscenza sono a misura di linguaggio umano, nel senso sopra indicato.

Siri macchina

C’è però un problema: tanto più l’uomo delega dei compiti alle macchine, e ha dunque bisogno che questa lo intendano quando si esprime, tanto più, se la macchina non ha la capacità di venirgli incontro apprendendo ogni sfumatura del contesto, è opportuno che sia l’uomo ad andarle incontro, purificando il più possibile il contesto dalle sfumature.

E’ del tutto assennato, dunque, quel che dice la storica di linguistica Silvyan Auroux: la migliore chanche che hanno gli automi di simulare il comportamento umano dipende dal fatto che noi siamo perfettamente capaci di simulare le macchine. E l’assistente vocale, troppo garbato per richiedercelo espressamente, lo lascia intendere a sufficienza (nel repertorio di risposte di Siri non ne esiste nessuna come non ho fatto del mio meglio). Non è un caso se già ora un insieme grammaticalmente scoordinato di parole che focalizzino però il tipo di utilità richiesta ottenga l’obiettivo meglio di una frase grammaticalmente corretta, che però lascia spazio alle ambiguità che un contesto lascia aperte.

Gli utilizzatori, pertanto, cercano di semplificare le frasi per uniformarle a un codice performante, bloccati in un sistema tecnico e sintetico che espunge ogni funzione che non sia quella immediatamente pratica del singolo obiettivo. E’ un po’ quel che accade quando, pur di addomesticare i motori di ricerca per ottimizzare la posizione di una pagina web, si semplifica a misura di spider il testo, sino a privarlo delle sue connotazioni di senso più profonde, quelle che giustificavano l’ambizione di essere “ottimizzati” nella ricerca.

Insomma, l’interazione artefatto-umano diventa più efficace quando si risparmia sull’umano, addestrati a essere comprensibili dalle macchine. Il vero incubo è che questa modalità di utilizzo e decodificazione possa trasferirsi sull’interazione tra umani, impoverendole notevolmente. Per impedirlo servirebbe la padronanza del contesto, proprio quello che impariamo a eliminare. Non capita anche a voi, già adesso, di essere spesso trattati ( e non dico solo in relazioni funzionali) come se foste un oggetto con il quale sintonizzarsi nel codice, dentro un continuo processo di formattazione?