Il software (di base e applicativo) | Appunti di Fondamenti di informatica

LEZ ION E 7 – VOICE USER INTER FACE

VO IC E US ER INTERFAC E - IN TE RF AC CE V OC AL I

Esempi: Siri, Google Assistant, Cortana, Alexa

Per 2 milioni di anni → Uomo produceva solo suoni che venivano utilizzati per tre aspetti: Mangiare

– Accoppiarsi – Segnalare un pericolo

3000 mila anni fa → nasce la scrittura

500/600 anni fa → nasce la stampa

100/150 anni fa → nascono le prime tecnologie

50/55 anni fa → nasce Internet

LA PAROLA DIVINA

«Alle origini dell'universo, la parola divina ebbe un potere creativo, ed agi su dei, uomini e cose, in un

modo che ricorda il libro della Genesi e il Vangelo di San Giovanni”

Gesù, il Verbo di Dio, non lasciò niente di scritto, pur sapendo leggere e scrivere (Luca 4:16). Nella

Bibbia leggiamo frasi come «La fede viene dall'udito» (Lettera ai Romani, 10:17) o «La lettera uccide,

mentre lo spirito (cioè il respiro) dà la vita» (II Lettera ai Corinti, 3:6)

Il potere della parola umana rappresenta una via di contatto con la parola di Dio, che nella Bibbia, sia

nella versione ebraica che in quella cristiana, è presentata come dotata di un potere illimitato. Ma la

Bibbia afferma anche che la parola di Dio resta per sempre, e questo è proprio ciò che non accade con

la parola umana; quest’ultima non resta, ma svanisce.

AN IMA E VOCE

In Omero il termine usato per rappresentare la percezione personale è aio, che significa letteralmente

"respiro all'interno". Solo con Platone, infatti, si avrà il passaggio della percezione nel cervello, mentre

prima era immaginata a livello delle viscere e dei polmoni, con le funzioni del corpo tutte autonome e

indipendenti.

Anche la psiche - dal verbo psyco: soffiare - non poteva non suonare a un orecchio greco come un

fenomeno collegato all'emissione di aria. Lo stesso si può dire del termine latino che le corrisponde:

anima, dal greco anemos, vento, soffio.

La voce è suono, non parola. Ma la parola costituisce la sua destinazione essenziale. [...] L'ambito della

voce è costitutivamente più ampio di quello della parola: lo eccede. Ridurre questa eccedenza

all'insensato - ossia a ciò che resta quando la voce non sia intenzionata a un senso che si suppone

come dominio esclusivo della parola - è uno dei vizi capitali del logocentrismo.

LA SCRITTURA

Theuth, dio egizio della scrittura e della sapienza, ma anche della matematica e della misura del

tempo, dona al re Thamus l'arte di scrivere, promettendogli che «renderà gli Egizi più sapienti e più

capaci di ricordare».

Il re però diffida da questa nuova tecnologia in quanto crede che «la scoperta della scrittura avrà per

effetto di produrre la dimenticanza nelle anime di coloro che la impareranno, perché fidandosi della

scrittura si abitueranno a ricordare dal di fuori mediante segni estranei».

Questo succede perché, prima della scrittura, la forma comunicativa era l’ORALITA’ con una serie di

strategie (ripetizioni, formule melodiche, ecc.) che servivano a ricordare e che, con la scrittura, si

perdono. Questo perché, quando scriviamo, diamo per scontato che il supporto fisico non faccia

perdere le cose, per cui non sentiamo il bisogno di ripeterle.

ANEDDOTO → I discepoli in questo modo «crederanno di essere conoscitori di molte cose, mentre

come accade per lo più, in realtà, non le sapranno; e sarà ben difficile discorrere con essi, perché sono

diventati portatori di opinioni invece che sapienti».

Quante persone (in percentuale) hanno internet nel mondo? Il 60%, anche se di base percepiamo che la

maggior parte lo abbia e sia conoscitore del mondo (come credevano i discepoli).

LE DUE ORALITÀ

Anteprima parziale del testo

Scarica Il software (di base e applicativo) e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

LEZIONE 7 – VOICE USER INTERFACE

VOICE USER INTERFACE - INTERFACCE VOCALI

Esempi: Siri, Google Assistant, Cortana, Alexa  Per 2 milioni di anni → Uomo produceva solo suoni che venivano utilizzati per tre aspetti: Mangiare

Accoppiarsi – Segnalare un pericolo  3000 mila anni fa → nasce la scrittura  500/600 anni fa → nasce la stampa  100/150 anni fa → nascono le prime tecnologie  50/55 anni fa → nasce Internet LA PAROLA DIVINA « Alle origini dell'universo, la parola divina ebbe un potere creativo, ed agi su dei, uomini e cose, in un modo che ricorda il libro della Genesi e il Vangelo di San Giovanni ” Gesù, il Verbo di Dio, non lasciò niente di scritto, pur sapendo leggere e scrivere (Luca 4:16). Nella Bibbia leggiamo frasi come « La fede viene dall'udito » (Lettera ai Romani, 10:17) o « La lettera uccide, mentre lo spirito (cioè il respiro) dà la vita » (II Lettera ai Corinti, 3:6) Il potere della parola umana rappresenta una via di contatto con la parola di Dio, che nella Bibbia, sia nella versione ebraica che in quella cristiana, è presentata come dotata di un potere illimitato. Ma la Bibbia afferma anche che la parola di Dio resta per sempre, e questo è proprio ciò che non accade con la parola umana; quest’ultima non resta, ma svanisce. ANIMA E VOCE In Omero il termine usato per rappresentare la percezione personale è aio , che significa letteralmente "respiro all'interno". Solo con Platone, infatti, si avrà il passaggio della percezione nel cervello, mentre prima era immaginata a livello delle viscere e dei polmoni, con le funzioni del corpo tutte autonome e indipendenti. Anche la psiche - dal verbo psyco : soffiare - non poteva non suonare a un orecchio greco come un fenomeno collegato all'emissione di aria. Lo stesso si può dire del termine latino che le corrisponde: anima , dal greco anemos , vento, soffio. La voce è suono, non parola. Ma la parola costituisce la sua destinazione essenziale. [...] L'ambito della voce è costitutivamente più ampio di quello della parola: lo eccede. Ridurre questa eccedenza all'insensato - ossia a ciò che resta quando la voce non sia intenzionata a un senso che si suppone come dominio esclusivo della parola - è uno dei vizi capitali del logocentrismo. LA SCRITTURA Theuth, dio egizio della scrittura e della sapienza, ma anche della matematica e della misura del tempo, dona al re Thamus l'arte di scrivere, promettendogli che « renderà gli Egizi più sapienti e più capaci di ricordare ». Il re però diffida da questa nuova tecnologia in quanto crede che « la scoperta della scrittura avrà per effetto di produrre la dimenticanza nelle anime di coloro che la impareranno, perché fidandosi della scrittura si abitueranno a ricordare dal di fuori mediante segni estranei ». Questo succede perché, prima della scrittura, la forma comunicativa era l’ORALITA’ con una serie di strategie (ripetizioni, formule melodiche, ecc.) che servivano a ricordare e che, con la scrittura, si perdono. Questo perché, quando scriviamo, diamo per scontato che il supporto fisico non faccia perdere le cose, per cui non sentiamo il bisogno di ripeterle. ANEDDOTO → I discepoli in questo modo « crederanno di essere conoscitori di molte cose, mentre come accade per lo più, in realtà, non le sapranno; e sarà ben difficile discorrere con essi, perché sono diventati portatori di opinioni invece che sapienti ». Quante persone (in percentuale) hanno internet nel mondo? Il 60%, anche se di base percepiamo che la maggior parte lo abbia e sia conoscitore del mondo (come credevano i discepoli). LE DUE ORALITÀ

L' oralità primaria , che sottende ad una mentalità omerica, appartiene ad una cultura che non conosce scrittura (periodo pre-scrittura). Il linguaggio ha un carattere così profondamente orale che di migliaia di lingue esistite, solo 106 sono state affidate alla scrittura in modo da produrre letteratura. In ebraico dabar significa sia parola che evento. Esempio: in Cina, la maggior parte della popolazione non sa leggere e scrivere, per cui comunica esclusivamente con il parlato. L' oralità secondaria , che sottende ad una mentalità platonica, nasce insieme alla scrittura intorno al 3000 a.C. Mettere per iscritto significa dare corpo alle parole, renderle oggetti. Il pensiero analitico, oggettivo, astratto e lineare è figlio di questa cultura. ORALITÀ TERZIARIA L' oralità terziaria è basata sulla simulazione della sensorialità, e non trasmissione della sensorialità. È interessante ripercorrere la "storia dei sensi": all'inizio l'alfabeto ha frammentato completamente il logos, la parola del dio, la parola creativa, la parola magica. Conseguentemente, l'alfabeto ha desensorializzato la comunicazione umana, fondando sé stesso sull' astrazione. [...] Il logos elettronico dell'oralità terziaria, invece, prevede la ricostruzione sensoriale fuori della propria testa, ad esempio su uno schermo, oppure attraverso i guanti della Realtà Virtuale o altre estensioni tecniche elettroniche». La sua immersività permette di coinvolgere tutti i sensi e restituire un'esperienza che non solo è reale, ma va oltre il reale; inoltre va oltre la voce, in direzione di una completa integrazione, quasi biologica, della tecnologia con la mente; infine, l'oralità terziaria coltiva un rapporto privilegiato con il corpo e diventa finalmente una struttura plastica, in quanto apprende dall'ambiente e risponde ad esso con comportamenti intelligenti. Perché esiste il x2? E perché quando scrivo un messaggio scelgo 3 parole, mentre l’audio dura 2 min? Perché scrivere comporta un maggiore sforzo cognitivo (spreco più zuccheri nel cervello). Grazie all’oralità terziaria, ormai anche l’oralità (es. messaggi vocali) diventa qualcosa di permanente, poiché registrata. Oggi riusciamo a concepire concetti astratti non più temporanei, a differenza dell’IO, QUI, ORA diffusa tra i nostri nonni (che non parlano di altro se non cose relative al presente o qualcosa ad esso collegato). Inoltre, l’oralità terziaria è anche relativa al corpo, nel senso che all’epoca c’era l’idea che solo il messaggio scritto potesse spostarsi nel mondo, mentre con l’oralità terziaria non pensiamo più che il messaggio sia legato ad un luogo o a un momento determinato. Basti pensare alla prossemica (come mi vesto, come mi muovo, ecc.) che non è superata dall’oralità terziaria nella quale non importa se sto facendo la doccia o sono seduta, perché il messaggio sarà lo stesso e non verrà inserito in un contesto. LE TRE ERE DELLA VOCE Trevor Cox , nel suo “ Now you are talking ” (2018), distingue:  Nella prima era , l'uomo vocalizzava suoni come fanno gli altri animali, per influenzare gli altri lanciando segnali d'allarme, di sfida o di corteggiamento.  La seconda inizia con l'emergere del linguaggio umano, che ci abilita al pensiero complesso, in particolare alla proiezione nel passato e nel futuro, e ci apre alla possibilità di sfidare e dominare il mondo.  Infine con l'avvento del fonografo e delle tecnologie della voce, chiunque può raggiungere grandi gruppi di persone attraverso lo spazio e il tempo. Le dittature del secolo scorso usarono la radio per privare i popoli di un pensiero indipendente. Immaginiamo una telefonata ad una persona anziana che non è abituata ad astrarre e a pensare che la voce trasmetta non è davvero nella sua casa. O ancora immaginiamo le prime televisioni: la gente non riusciva a concepire che le persone in tv non fossero rinchiuse in una scatola e per questo, magari, si vestivano bene pensando di essere visti o salutavano i conduttori dei programmi televisivi, ecc. Addirittura, secondo quanto afferma un professore ( Barrelli ), si pensava che attraverso il telefono si potessero trasmettere delle malattie, perché non si riusciva ad accettare che questi concetti potessero essere astratti. EVOLUZIONE È molto difficile ricostruire come si sia sviluppato l'apparato fonetico e uditivo (e quindi il linguaggio) degli esseri viventi, poiché né il cervello, né le parti della laringe si conservano nei fossili.

 * NLP → (letteralmente, “processamento del messaggio”) si intendono algoritmi di intelligenza artificiale in grado di analizzare, rappresentare e quindi comprendere il linguaggio naturale. Es. Speech Text = dettare il messaggio di testo;  * Machine Learning → algoritmi che posso creare per allenare una macchina. Es. faccio vedere 100 foto di gatti al dispositivo, poi faccio vedere una foto con baffi e coda e la macchina riconosce lo stesso che è un gatto.  * Cloud Service → memoria fisica (per noi limitata) utilizzata tramite internet; La VUI rende possibile l'interazione umana con i computer attraverso una piattaforma vocale per avviare un servizio o un processo automatizzato. Per produrre il miglior risultato in termini di efficienza e di User eXperience, la VUI ha bisogno di un grande training o, ancora meglio, deve avvicinarsi il più possibile al modello mentale dell'utente. DESIGN Una delle sfide principali nella progettazione di VUI è quella di educare gli utenti a comprenderne le possibilità. Nelle applicazioni grafiche, tutto è proprio lì sullo schermo (ogni icona corrisponde ad un’app, ogni simbolo corrisponde ad un’azione, ecc.). Il design della VUI dovrebbe informare l'utente su come possono rispondere o quali azioni possono intraprendere. Mentre invece, la difficoltà dell’interfaccia vocale sta nel non avere uno schermo, quindi un utente dovrebbe essere in grado di chiedere aiuto in qualsiasi momento, e il messaggio di aiuto dovrebbe orientarli al loro contesto attuale all'interno dell'applicazione. DESIGNER I VUI designers pensano all'intera conversazione, dall'inizio alla fine, tra il sistema e gli utenti finali. Pensano al problema che deve essere risolto e ai bisogni che gli utenti hanno per raggiungere i loro obiettivi. Essendo dei linguisti ed umanisti, i designer fanno ricerche sugli utenti nel tentativo di capire chi sia l'utente. Creano progetti, prototipi e descrizioni dei prodotti. Scrivono le descrizioni delle interazioni che si svolgeranno tra il sistema e l'utente. Hanno una comprensione della tecnologia di base e dei suoi punti di forza e di debolezza. Si interfacciano con gli sviluppatori e analizzano i dati per migliorare prestazioni e user experience. In più, pensano a come dovrebbero essere allenate le interfacce, conoscendo i bisogni emotivi, psicologici e linguistici degli utenti. COMPRENSIONE Quali devono essere le massime dell’interfaccia? Per avere una comunicazione efficace, Paul Grice definisce alcuni principi cooperativi:

Qualità (dire il vero)
Quantità (dire il numero corretto di informazioni, non di più né di meno)
Rilevanza (dire cose utili)
Maniera (essere chiari e sensati) Esempio: Se dicessi a Siri: “Ciao Siri, oggi voglio fare una passeggiata con il mio ragazzo. Mi puoi dire se piove?”, sto dando troppe informazioni, tra cui molte irrilevanti. VANTAGGI Le VUI non sempre sono la migliore soluzione di interaction design, ma di certo presentano alcuni vantaggi:
Velocità → Es. voce 3x digitazione
Hands/Eyes free → Es. quando sto facendo una ricetta e non voglio toccare con le mani sporche il dispositivo; o quando sto guidando e devo chiamare o inviare un messaggio;
Intuitività → per i milioni di persone analfabete o sordomute;
Empatia (warnings: Uncanny Valley*) → la voce abilita l’emozione (oltre al fatto che un testo scritto può scaturire molti più fraintendimenti di un testo orale);

Uncanny Valley → l’effetto di disagio nell’uomo generato dalla visione di un robot creato per assomigliare all’essere umano nella fisionomia e nella voce. SVANTAGGI La domanda principale è: il tuo utente trarrà vantaggio da una VUI invece che da una GUI? Bisogna tenere conto di:

Spazi pubblici → Es. nei mezzi di trasporto o durante una lezione si preferisce non usare l’interfaccia vocale;
Disagio nel parlare con un computer → Es. persone (spesso più grandi d’età) a cui dà fastidio stare troppo al telefono o si sentono ridicoli a chiamare Alexa o Siri; - Utenti che preferiscono il testo
Privacy → tenendo conto che Siri, dai rumori che ci circondano, potrebbe capire benissimo se ci troviamo in un luogo chiuso o aperto. Uno scenario futuristico è quello riprodotto nel video “New Google Assistant Can Call Your Parents”, cioè un’interfaccia vocale che dice essa stessa di non esistere veramente, ma di riportare semplicemente un messaggio del figlio/a che, ogni giorno alla stessa ora, decide di aggiornare i suoi genitori circa la giornata trascorsa. Potremmo dire, a questo punto, che si tratti di un vero e proprio assistente (forse il moderno “Grillo parlante”) che ci aiuta, ci consiglia cos’è meglio fare, ci ricorda degli impegni, ecc. WEARABLE La VUI è particolarmente utile in quei dispositivi con uno schermo piccolo (watches) o senza schermo (IoT). I dispositivi indossabili possono essere utilizzati per le notifiche urgenti e le interazioni veloci, e indubbiamente non sono ottimizzati per l’interfaccia grafica. Probabilmente non è molto confortevole parlare con il proprio braccio ma con le cuffie bluetooth sempre più invisibili non sarà nemmeno necessario muovere un dito per interagire con i propri dispositivi. L’altra caratteristica che trasformerà il nostro rapporto con le tecnologie è il fatto che essi siano portatori di sensori che monitorano i parametri biometrici di chi li indossa, e perché no, un giorno anche quelli atmosferici. Che cos’è l’Internet of Things? Con Internet of Things (IoT) ci si riferisce al processo di connessione a Internet di oggetti fisici di utilizzo quotidiano, dagli oggetti più familiari usati in casa, come le lampadine, alle risorse in ambito sanitario, come i dispositivi medici, ai dispositivi indossabili, a quelli smart e, per finire, alle smart city. I dispositivi IoT inseriti in questi oggetti fisici rientrano principalmente in una di queste due categorie: switch (che inviano un comando a un oggetto) o sensori (che acquisiscono dati e li inviano altrove). Il grafico ha in ascissa la somiglianza crescente con l'aspetto del corpo umano di vari oggetti o situazioni messe al cospetto del campione di individui analizzato da Masahiro e in ordinata la sensazione piacevole di familiarità (empatia) provata dal campione stesso. La linea tratteggiata, nella sua prima parte in ascesa, mostra la risposta emotiva inizialmente positiva nel caso di automi antropomorfi semoventi che aumenta consensualmente alla crescente conformità degli automi alle fattezze umane fino ad un punto in cui l'eccessiva somiglianza produce una brusca flessione ("zona perturbante") del gradimento sino ad assumere valori negativi che corrispondono alle sensazioni negative (repulsione, turbamento) provate dal campione; la reazione di avversione maggiore si ha nei

Il software (di base e applicativo), Appunti di Fondamenti di informatica

Documenti correlati

Anteprima parziale del testo

Scarica Il software (di base e applicativo) e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

LEZIONE 7 – VOICE USER INTERFACE

VOICE USER INTERFACE - INTERFACCE VOCALI