l'utilizzo intelligenza artificiale | Tesi di laurea di Diritto processuale costituzionale

CAPITOLO 1

La Voce Umana come Fondamento per l’Intelligenza Artificiale:

Aspetti Tecnici e Giuridici

Introduzione generale

La voce umana costituisce una delle manifestazioni più complesse

dell’identità individuale, collocandosi al crocevia tra corporeità,

comunicazione e dimensione sociale. Essa non rappresenta un mero veicolo

di contenuti linguistici, ma incorpora una pluralità di informazioni che

attengono alla sfera personale del soggetto, riflettendo caratteristiche

fisiologiche, psicologiche e culturali. Nel contesto contemporaneo, segnato

dalla rapida diffusione di sistemi di intelligenza artificiale basati

sull’elaborazione del linguaggio naturale, la voce assume un ruolo centrale

quale interfaccia privilegiata tra l’essere umano e la macchina.

L’evoluzione delle tecnologie di elaborazione vocale ha trasformato la

voce in un oggetto di analisi, modellazione e riproduzione algoritmica,

rendendola una risorsa strategica per numerosi settori applicativi, tra cui

l’assistenza virtuale, la sicurezza, la sanità e l’intrattenimento. Tale

trasformazione, tuttavia, non è priva di conseguenze sul piano giuridico,

poiché incide direttamente su diritti fondamentali quali la protezione dei dati

personali, la tutela dell’identità e la dignità della persona. La possibilità di

raccogliere, conservare e manipolare dati vocali su larga scala solleva

interrogativi profondi circa i limiti dell’innovazione tecnologica e il ruolo del

diritto nel governare tali processi.

Sotto il profilo normativo, la sfida principale risiede nella corretta sussunzione

della voce all’interno delle categorie esistenti o nella creazione di nuovi

paradigmi di tutela. Nel panorama europeo, il Regolamento Generale sulla

Protezione dei Dati ha già mosso i primi passi qualificando l’impronta vocale

come dato biometrico sensibile quando utilizzata per l'identificazione, ma tale

protezione appare spesso insufficiente di fronte alle logiche della proprietà

intellettuale e dello sfruttamento commerciale. Il conflitto tra il diritto

all’immagine vocale e le esigenze dell’industria tecnologica richiede un

bilanciamento delicato, specialmente in un momento storico in cui l'AI Act

cerca di imporre standard di trasparenza e sicurezza per prevenire l'inganno

sociale e il danno identitario. La presente trattazione si propone dunque di

indagare questo doppio binario, analizzando come la decostruzione tecnica

Anteprima parziale del testo

Scarica l'utilizzo intelligenza artificiale e più Tesi di laurea in PDF di Diritto processuale costituzionale solo su Docsity!

CAPITOLO 1

La Voce Umana come Fondamento per l’Intelligenza Artificiale: Aspetti Tecnici e Giuridici

Introduzione generale

La voce umana costituisce una delle manifestazioni più complesse dell’identità individuale, collocandosi al crocevia tra corporeità, comunicazione e dimensione sociale. Essa non rappresenta un mero veicolo di contenuti linguistici, ma incorpora una pluralità di informazioni che attengono alla sfera personale del soggetto, riflettendo caratteristiche fisiologiche, psicologiche e culturali. Nel contesto contemporaneo, segnato dalla rapida diffusione di sistemi di intelligenza artificiale basati sull’elaborazione del linguaggio naturale, la voce assume un ruolo centrale quale interfaccia privilegiata tra l’essere umano e la macchina. L’evoluzione delle tecnologie di elaborazione vocale ha trasformato la voce in un oggetto di analisi, modellazione e riproduzione algoritmica, rendendola una risorsa strategica per numerosi settori applicativi, tra cui l’assistenza virtuale, la sicurezza, la sanità e l’intrattenimento. Tale trasformazione, tuttavia, non è priva di conseguenze sul piano giuridico, poiché incide direttamente su diritti fondamentali quali la protezione dei dati personali, la tutela dell’identità e la dignità della persona. La possibilità di raccogliere, conservare e manipolare dati vocali su larga scala solleva interrogativi profondi circa i limiti dell’innovazione tecnologica e il ruolo del diritto nel governare tali processi. Sotto il profilo normativo, la sfida principale risiede nella corretta sussunzione della voce all’interno delle categorie esistenti o nella creazione di nuovi paradigmi di tutela. Nel panorama europeo, il Regolamento Generale sulla Protezione dei Dati ha già mosso i primi passi qualificando l’impronta vocale come dato biometrico sensibile quando utilizzata per l'identificazione, ma tale protezione appare spesso insufficiente di fronte alle logiche della proprietà intellettuale e dello sfruttamento commerciale. Il conflitto tra il diritto all’immagine vocale e le esigenze dell’industria tecnologica richiede un bilanciamento delicato, specialmente in un momento storico in cui l'AI Act cerca di imporre standard di trasparenza e sicurezza per prevenire l'inganno sociale e il danno identitario. La presente trattazione si propone dunque di indagare questo doppio binario, analizzando come la decostruzione tecnica

della voce influenzi la sua qualificazione giuridica e come gli ordinamenti possano evolvere per proteggere l'unicità dell'individuo nell'era della riproducibilità algoritmica. Il presente capitolo si propone di analizzare la voce umana come fondamento dell’intelligenza artificiale, adottando una prospettiva integrata che coniuga aspetti tecnici e giuridici. Dopo aver esaminato le caratteristiche biometriche della voce, verranno approfondite le principali tecnologie di elaborazione vocale, il processo di training dei modelli di intelligenza artificiale e, infine, la qualificazione giuridica della voce come dato personale e bene della personalità.

1.1 Caratteristiche biometriche della voce: profilo tecnico-

giuridico

Dal punto di vista scientifico, la voce è il risultato di un complesso processo fisiologico che coinvolge l’apparato respiratorio, le corde vocali e le cavità di risonanza del tratto vocale. La produzione del suono vocale dipende dalla vibrazione delle corde vocali, modulata dalla conformazione anatomica dell’individuo e dalle modalità di articolazione del parlato. Tali elementi conferiscono alla voce caratteristiche uniche, che possono essere analizzate e misurate attraverso parametri acustici specifici, quali la frequenza fondamentale, il timbro, l’intensità e la prosodia¹. Queste caratteristiche rendono la voce un potenziale identificatore biometrico, ossia un tratto fisiologico o comportamentale idoneo a distinguere un individuo dagli altri. A differenza di altri dati biometrici, come le impronte digitali o il riconoscimento facciale, la voce presenta una natura dinamica e variabile, influenzata da fattori temporanei quali lo stato emotivo, le condizioni di salute e il contesto ambientale. Ciò nonostante, l’evoluzione delle tecniche di elaborazione del segnale ha reso possibile l’estrazione di pattern stabili e riconoscibili, sufficienti a consentire l’identificazione del parlante con un elevato grado di affidabilità². Dal punto di vista giuridico, la qualificazione della voce come dato biometrico comporta l’applicazione di un regime di tutela rafforzato. Il Regolamento (UE) 2016/679 include tra i dati biometrici quelli ottenuti mediante un trattamento tecnico specifico relativi alle caratteristiche fisiche o

accuratezza del dato e di prevedere adeguati meccanismi di verifica e contestazione, in linea con le garanzie previste dalla normativa sulla protezione dei dati personali⁶. Un ulteriore profilo critico riguarda la possibilità di utilizzi secondari dei dati vocali originariamente raccolti per finalità diverse dall’identificazione. La riutilizzabilità dei dati vocali, tipica delle architetture digitali, rischia di determinare una progressiva estensione delle finalità di trattamento, in contrasto con il principio di limitazione della finalità. In tale prospettiva, la voce si configura come un dato particolarmente esposto a fenomeni di function creep, ossia di slittamento funzionale verso usi non previsti né prevedibili al momento della raccolta⁷. 1.2 Tecnologie di elaborazione vocale: ASR, TTS e Voice Cloning Le tecnologie di elaborazione vocale costituiscono il nucleo operativo dell’interazione tra intelligenza artificiale e voce umana. Tra esse, il riconoscimento automatico del parlato (Automatic Speech Recognition, ASR) rappresenta una delle applicazioni più diffuse e consolidate. I sistemi ASR hanno l’obiettivo di convertire il segnale vocale in testo, consentendo alle macchine di comprendere il linguaggio umano in forma scritta. Tale conversione si basa su modelli statistici e, più recentemente, su architetture di deep learning in grado di apprendere le corrispondenze tra suoni e unità linguistiche. L’evoluzione dei sistemi ASR ha comportato un progressivo miglioramento delle prestazioni, rendendo possibile il loro impiego in contesti complessi e multilingue. Tuttavia, la trascrizione automatica del parlato non si limita a una mera operazione tecnica, ma comporta un trattamento intensivo di dati vocali che possono contenere informazioni personali e sensibili. Il testo risultante dalla trascrizione può infatti rivelare opinioni politiche, convinzioni religiose o dettagli della vita privata, ampliando la portata del trattamento ben oltre il dato vocale originario⁸.

Accanto al riconoscimento del parlato, la sintesi vocale (Text-to- Speech, TTS) consente di generare output vocali a partire da input testuali. I sistemi di sintesi vocale moderni sono in grado di produrre voci sempre più naturali, caratterizzate da intonazioni e inflessioni simili a quelle umane. Questa capacità ha favorito l’adozione di assistenti vocali e sistemi conversazionali, trasformando la voce artificiale in un elemento quotidiano dell’esperienza digitale. Dal punto di vista giuridico, la sintesi vocale solleva questioni legate alla trasparenza e alla correttezza dell’interazione. La distinzione tra voce umana e voce artificiale può risultare sempre meno percepibile, con il rischio di indurre l’utente a ritenere di interagire con una persona reale. Tale ambiguità incide sul diritto all’informazione e sulla libertà di autodeterminazione dell’utente, rendendo necessario un obbligo di chiarezza circa la natura artificiale dell’interlocutore⁹. Il Voice Cloning rappresenta un’evoluzione ulteriore delle tecnologie di sintesi vocale, poiché consente di riprodurre le caratteristiche vocali di una persona specifica. Attraverso l’addestramento di modelli su campioni di voce, è possibile generare enunciazioni artificiali che imitano fedelmente il timbro, l’intonazione e lo stile del parlante originario. Questa tecnologia, se da un lato offre potenzialità applicative significative, dall’altro pone rischi particolarmente elevati in termini di abuso e manipolazione¹⁰. La possibilità di far “parlare” una persona senza il suo intervento diretto segna una frattura profonda nel legame tradizionale tra voce e volontà. Dal punto di vista giuridico, ciò incide sul diritto all’identità personale e apre la strada a fenomeni di impersonificazione, disinformazione e appropriazione indebita dell’identità vocale. Tali rischi risultano amplificati nel contesto digitale, caratterizzato da una rapida diffusione dei contenuti e da una difficoltà di controllo ex post¹¹. 1.3 Il processo di training: dataset, annotazione e validazione Il funzionamento dei sistemi di intelligenza artificiale applicati all’elaborazione vocale si fonda su un processo di training complesso, che costituisce il presupposto essenziale per l’apprendimento automatico dei modelli. In ambito vocale, tale processo richiede l’impiego di grandi quantità di dati audio, i quali vengono utilizzati per consentire all’algoritmo di

linguistiche, accenti o caratteristiche vocali, incidendo negativamente su specifici gruppi di utenti. Questo fenomeno, noto come bias algoritmico, evidenzia il legame stretto tra qualità dei dati e impatto sociale dei sistemi di intelligenza artificiale¹³. Dal punto di vista giuridico, la presenza di bias nei modelli vocali pone interrogativi significativi in relazione al principio di uguaglianza e al divieto di discriminazione. L’adozione di sistemi che funzionano in modo sistematicamente meno efficace per alcune categorie di persone può determinare effetti pregiudizievoli, soprattutto quando tali sistemi siano utilizzati in contesti sensibili. Ciò rafforza l’esigenza di una valutazione preventiva dell’impatto del trattamento dei dati vocali, in linea con gli strumenti di accountability previsti dalla normativa europea. La validazione dei modelli rappresenta la fase conclusiva del processo di training e ha l’obiettivo di verificare la capacità del sistema di generalizzare a dati nuovi e non visti durante l’addestramento. In ambito vocale, la validazione assume una particolare importanza, poiché le condizioni reali di utilizzo possono differire significativamente da quelle in cui i dati sono stati raccolti. La presenza di rumore ambientale, variazioni linguistiche o cambiamenti nel parlato del soggetto può incidere sulle prestazioni del sistema, rendendo necessaria una verifica accurata e continuativa. Dal punto di vista giuridico, la fase di validazione si collega strettamente al principio di responsabilità del titolare del trattamento, il quale deve essere in grado di dimostrare la conformità del sistema alle norme vigenti. La documentazione delle fasi di training, annotazione e validazione assume pertanto un ruolo centrale, consentendo di ricostruire le scelte tecniche effettuate e di valutare l’impatto del sistema sui diritti degli interessati. In tale prospettiva, il processo di training non può essere considerato un’attività neutra, ma rappresenta un momento cruciale di esercizio del potere tecnologico. Un ulteriore profilo critico riguarda la conservazione dei dati vocali utilizzati per il training. I modelli di intelligenza artificiale possono incorporare, in forma latente, informazioni derivate dai dati di addestramento, rendendo problematica l’applicazione di diritti come la cancellazione o l’opposizione al trattamento. La difficoltà di “disimparare” dati specifici solleva interrogativi rilevanti circa l’effettività delle tutele riconosciute agli

interessati e impone una riflessione sulla necessità di soluzioni tecniche e giuridiche adeguate¹⁴. 1.4 La voce come dato personale e bene della personalità La qualificazione giuridica della voce rappresenta uno dei nodi centrali nell’analisi del rapporto tra intelligenza artificiale e diritti fondamentali. La voce, infatti, si colloca in una posizione peculiare, in quanto costituisce al tempo stesso un dato personale ai sensi della normativa sulla protezione dei dati e un elemento essenziale dell’identità individuale, riconducibile alla categoria dei beni della personalità. Questa duplice natura impone un approccio interpretativo che tenga conto sia delle logiche del data protection sia dei principi civilistici e costituzionali a tutela della persona. Ai sensi del Regolamento (UE) 2016/679, è dato personale qualsiasi informazione riguardante una persona fisica identificata o identificabile. La voce rientra pienamente in tale definizione, poiché consente l’identificazione diretta o indiretta dell’individuo, soprattutto quando sia associata a ulteriori informazioni o trattata mediante tecniche di analisi avanzate¹⁵. La giurisprudenza e la dottrina hanno chiarito che la nozione di dato personale deve essere interpretata in senso ampio, ricomprendendo qualsiasi informazione che, anche potenzialmente, consenta di risalire all’identità del soggetto. Nel caso della voce, la dimensione identificativa risulta particolarmente marcata, poiché le caratteristiche vocali costituiscono un tratto distintivo difficilmente separabile dalla persona. Anche quando la voce non sia utilizzata esplicitamente a fini di identificazione biometrica, essa può comunque contribuire alla costruzione di profili individuali, rivelando informazioni sul sesso, sull’età approssimativa, sull’origine geografica o sullo stato emotivo del parlante. Ciò amplia significativamente la portata del trattamento e rafforza l’esigenza di una tutela rigorosa. Accanto alla dimensione di dato personale, la voce assume una rilevanza autonoma quale bene della personalità. I beni della personalità sono tradizionalmente definiti come quei beni immateriali che attengono direttamente alla sfera individuale e che sono espressione della dignità e dell’identità della persona. In tale categoria rientrano, tra gli altri, il nome, l’immagine, l’onore, la reputazione e l’identità personale. La voce, pur non

La voce, inoltre, assume una rilevanza particolare anche in relazione alla libertà di espressione. Essa rappresenta uno strumento essenziale per la manifestazione del pensiero e per la partecipazione al dibattito pubblico. L’uso distorto delle tecnologie vocali, come la diffusione di audio falsificati attribuiti a persone reali, può compromettere l’autenticità del discorso pubblico e favorire fenomeni di disinformazione. In questo senso, la tutela della voce non riguarda soltanto l’interesse individuale, ma assume una dimensione collettiva, connessa al corretto funzionamento della sfera pubblica. La protezione della voce come bene della personalità si intreccia inoltre con il tema dell’autodeterminazione informativa. L’individuo deve poter decidere in modo consapevole se e come la propria voce possa essere utilizzata, soprattutto quando tale utilizzo comporti la creazione di modelli capaci di generare nuove enunciazioni. Tuttavia, nel contesto delle piattaforme digitali, il consenso all’uso della voce è spesso prestato in condizioni di asimmetria informativa e contrattuale, rendendo problematica la sua effettiva libertà. La dottrina ha evidenziato come i diritti della personalità presentino una dimensione in parte indisponibile, che pone limiti all’autonomia negoziale. Anche in presenza di un consenso formale, occorre valutare se determinate forme di sfruttamento della voce siano compatibili con la tutela della dignità e dell’identità personale. Questo aspetto assume particolare rilevanza nel caso dell’utilizzo della voce a fini commerciali o di addestramento di sistemi di intelligenza artificiale destinati a un uso generalizzato. Un ulteriore profilo di complessità riguarda l’utilizzo post mortem della voce. Le tecnologie di clonazione vocale rendono possibile la riproduzione della voce di persone decedute, sollevando interrogativi in relazione alla persistenza dei diritti della personalità e alla tutela della memoria del defunto. In assenza di una disciplina specifica, tali questioni devono essere affrontate alla luce dei principi generali dell’ordinamento, valorizzando il rispetto della dignità umana e della volontà espressa in vita dall’individuo. 1.5 Panoramica generale e possibile sviluppo futuro della voce umana

La voce umana rappresenta un elemento centrale nell’attuale sviluppo dei sistemi di intelligenza artificiale, costituendo al tempo stesso una risorsa tecnologica di straordinario valore e un oggetto giuridico di particolare delicatezza. La voce si configura infatti come una manifestazione complessa dell’identità personale, nella quale si intrecciano dimensioni fisiologiche, comportamentali e sociali, rendendola suscettibile di utilizzo sia come strumento comunicativo sia come mezzo di identificazione. Dal punto di vista tecnico, le caratteristiche biometriche della voce consentono l’estrazione di pattern stabili, idonei a distinguere un individuo dagli altri, pur nella variabilità naturale del parlato. L’evoluzione delle tecnologie di elaborazione vocale ha reso possibile un trattamento sempre più sofisticato del segnale audio, aprendo la strada a sistemi di riconoscimento, sintesi e clonazione vocale capaci di raggiungere livelli di accuratezza e realismo senza precedenti. Tali sviluppi hanno profondamente trasformato il rapporto tra uomo e macchina, favorendo modalità di interazione più naturali e intuitive. L’analisi delle principali tecnologie di elaborazione vocale ha evidenziato come l’ASR, il TTS e il voice cloning non costituiscano ambiti separati, ma parti di un ecosistema tecnologico integrato, fondato sulla disponibilità di grandi quantità di dati vocali e sulla capacità di modellare statisticamente il linguaggio umano. In questo contesto, il processo di training dei modelli emerge come un momento cruciale, in cui le scelte tecniche effettuate incidono direttamente sulle prestazioni del sistema e sul suo impatto sociale. La qualità dei dataset, le modalità di annotazione e le procedure di validazione assumono un rilievo che trascende la dimensione puramente ingegneristica, coinvolgendo profili etici e giuridici di primaria importanza. Sotto il profilo giuridico, il capitolo ha mostrato come la voce debba essere qualificata, a pieno titolo, come dato personale ai sensi della normativa europea sulla protezione dei dati, e, in determinate circostanze, come dato biometrico soggetto a un regime di tutela rafforzato. La possibilità di utilizzare la voce per l’identificazione univoca dell’individuo e per la creazione di profili comportamentali accentua il rischio di trattamenti invasivi, rendendo necessario un rigoroso rispetto dei principi di liceità, proporzionalità e trasparenza.

J. Benesty, M. Sondhi, Y. Huang, Springer Handbook of Speech Processing , Springer, 2008.
P. Voigt, A. von dem Bussche, The EU General Data Protection Regulation (GDPR) , Springer, 2017.
S. Rodotà, Il diritto di avere diritti , Laterza, 2012.
G. Resta, Identità personale e diritto all’immagine , Napoli, 2008.
Cass. civ., sez. I, 16 maggio 2008, n. 12433.
EDPB, Guidelines 05/2020 on consent , 2020.
F. Pasquale, The Black Box Society , Harvard University Press, 2015.
A. Mantelero, Intelligenza artificiale e protezione dei dati personali , Giappichelli, 2021.
C. Casonato, Biodiritto , Il Mulino, 2020.

l'utilizzo intelligenza artificiale, Tesi di laurea di Diritto processuale costituzionale

Documenti correlati

Anteprima parziale del testo

Scarica l'utilizzo intelligenza artificiale e più Tesi di laurea in PDF di Diritto processuale costituzionale solo su Docsity!

CAPITOLO 1

Introduzione generale

1.1 Caratteristiche biometriche della voce: profilo tecnico-

giuridico