Il tracciato spettrografico | Sintesi del corso di Linguistica Generale

Fonetica Acustica

Il tracciato spettrografico (o spettrogramma) è il tentativo di rappresentare graficamente le

componenti singole della voce. La prima analisi vocale con tecnica spettrografica risale al 1951 (primo

modello Sound Spectrographic, della Kay Electrics). Oggi sono disponibili vari spettrografi associati a

vari hardware (CSL, Kaypentax) e software (Multispeech, Kaypentax, Praat) sviluppati dall’Università

di Amsterdam.

Lo spettrogramma è un tracciato 3D ottenuto dalla scomposizione del segnale complesso nelle sue

componenti semplici. Sull’asse delle ascisse è rappresentato il tempo (in ms), sull’asse delle ordinate la

frequenza (in Hz). La terza dimensione, ossia l’unione delle due componenti, è l’intensità (indicata

dalla variazione cromatica, in scala di grigi).

A seconda del diverso procedimento usato nel filtrare il segnale complesso, lo spettrogramma assume

caratteristiche diverse. Esistono due filtri passabanda (ossia la larghezza della banda):

1. Spettrogramma a banda stretta (45 Hz): mette in evidenza il comportamento delle corde vocali;

separa le singole armoniche, rappresentate da una serie di striature orizzontali. La distanza tra due

striature contigue (misurata in Hz, sull’asse delle frequenze) dà il valore della frequenza

fondamentale (f0).

2. Spettrogramma a banda larga (300 Hz): mette in risalto le cosiddette formanti (frequenze di

risonanza, generate dalle cavità sopralaringali) le quali sono evidenziate da zone di maggiore

annerimento, rappresentano le maggiori componenti del timbro di un suono. Questo tipo di

spettrogramma, attraverso le formanti, permette di analizzare il comportamento istantaneo delle cavità

epilaringee (grazie alle formanti) senza che vengano perdute informazioni sul comportamento della

glottide (sorgente).

Inoltre, per quanto riguarda le formanti: le aperture e chiusure delle corde vocali sono rappresentate da

striature orizzontali periodiche (nello spettro a banda larga). L’altezza di una formante (misurata nel

punto centrale della banda annerita) dipende non solo dalla forma del risonatore (cavità sopralaringale,

quindi orale o nasale) ma anche dalla sua dimensione. In generale, si può dire che più piccola è la

cavità, più alta è la frequenza a cui risuona.

Sia la frequenza fondamentale che le altezze formantiche variano in base alle caratteristiche fisiche del

parlante. La frequenza fondamentale del parlato conversazionale è in media

- voce maschile: compresa tra i 70 e i 150 Hz

- voce femminile: compresa tra i 150 e i 250 Hz

- voce bambino: compresa tra i 250 e i 350 Hz

Queste differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali, poiché a

un maggiore spessore e a una maggiore lunghezza corrisponde una frequenza più bassa (uomo).

Anteprima parziale del testo

Scarica Il tracciato spettrografico e più Sintesi del corso in PDF di Linguistica Generale solo su Docsity!

Fonetica Acustica

Il tracciato spettrografico (o spettrogramma ) è il tentativo di rappresentare graficamente le componenti singole della voce. La prima analisi vocale con tecnica spettrografica risale al 1951 (primo modello Sound Spectrographic , della Kay Electrics). Oggi sono disponibili vari spettrografi associati a vari hardware (CSL, Kaypentax) e software (Multispeech, Kaypentax, Praat) sviluppati dall’Università di Amsterdam. Lo spettrogramma è un tracciato 3D ottenuto dalla scomposizione del segnale complesso nelle sue componenti semplici. Sull’asse delle ascisse è rappresentato il tempo (in ms), sull’asse delle ordinate la frequenza (in Hz). La terza dimensione, ossia l’unione delle due componenti, è l’ intensità (indicata dalla variazione cromatica, in scala di grigi). A seconda del diverso procedimento usato nel filtrare il segnale complesso, lo spettrogramma assume caratteristiche diverse. Esistono due filtri passabanda (ossia la larghezza della banda):

Spettrogramma a banda stretta (45 Hz): mette in evidenza il comportamento delle corde vocali ; separa le singole armoniche , rappresentate da una serie di striature orizzontali. La distanza tra due striature contigue (misurata in Hz, sull’asse delle frequenze) dà il valore della frequenza fondamentale (f (^) 0).
Spettrogramma a banda larga (300 Hz): mette in risalto le cosiddette^ formanti^ (frequenze di risonanza, generate dalle cavità sopralaringali) le quali sono evidenziate da zone di maggiore annerimento, rappresentano le maggiori componenti del timbro di un suono. Questo tipo di spettrogramma, attraverso le formanti, permette di analizzare il comportamento istantaneo delle cavità epilaringee (grazie alle formanti) senza che vengano perdute informazioni sul comportamento della glottide ( sorgente ).

Inoltre, per quanto riguarda le formanti: le aperture e chiusure delle corde vocali sono rappresentate da striature orizzontali periodiche (nello spettro a banda larga). L’altezza di una formante (misurata nel punto centrale della banda annerita) dipende non solo dalla forma del risonatore (cavità sopralaringale, quindi orale o nasale) ma anche dalla sua dimensione. In generale, si può dire che più piccola è la cavità, più alta è la frequenza a cui risuona. Sia la frequenza fondamentale che le altezze formantiche variano in base alle caratteristiche fisiche del parlante. La frequenza fondamentale del parlato conversazionale è in media

voce maschile : compresa tra i 70 e i 150 Hz
voce femminile : compresa tra i 150 e i 250 Hz
voce bambino : compresa tra i 250 e i 350 Hz

Queste differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali, poiché a un maggiore spessore e a una maggiore lunghezza corrisponde una frequenza più bassa (uomo).

Lo spettrogramma consente di osservare qualsiasi tipo di segmentale e soprasegmentale , ossia dal tracciato è possibile ricavare la durata dei semplici foni, la loro intensità e l’andamento intonativo dell’enunciato. Inoltre, permette di evidenziare numerosi effetti di coarticolazione che caratterizzano il parlato. L’analisi spettrografica consente, quindi, di rilevare molti dettagli articolatori che non potrebbero essere individuati in alcun modo se non mediante tecniche di indagine molto più invasive (radiografie, sonde, cineradiografie, palatografie) le quali, tra l’altro, impediscono la spontaneità e la normalità del parlato. Nello spettrogramma, troviamo metodi di rappresentazione congiunta , come l ’ oscillogramma (che di solito si trova posizionato in alto affiancato allo spettrogramma) il qual descrive l’andamento dell’ampiezza istantanea della forma d’onda, la sua misurazione varia in base a valori convenzionali. Abbiamo poi, sovrapposto allo spettr. il profilo melodico , il quale descrive l’andamento della frequenza fondamentale, misurato quindi in Hz. L’ intensità sonora , anche questa sovrapposta, descrive la curva dell’energia (ossia il volume istantaneo) misurata in scala virtuale in dB, basata sui livelli numerici dell’ampiezza. Il tracciato formantico , anch’esso sovrapposto, descrive le variazioni formantiche nel corso di una stessa produzione, in particolar modo in seguito all’introduzione delle tecniche LPC ( Linear Prediction System ). La sezione spettrale (o spettro d’ampiezza , spectral slice ), in PRAAT, rappresenta una “fetta” di tracciato spettrografico, di risoluzione e lunghezza variabili. La risoluzione dell’analisi di questa fetta dipende dalla lunghezza della finestra (sezione) selezionata. Essa permette di isolare armoniche e formanti di suoni periodici, ma anche di stimare la pendenza ( spectral tilt ), la densità o il centro di gravità tipiche della composizione spettrale dei suoni non periodici (click, rumori di frizione, ecc.). I segnali digitali sono discreti (impulsi non continui, definiti) nel tempo e si ottengono mediante discretizzazione (la trasformazione di modelli matematici ed equazioni continue in unità definite), ossia mediante campionamento di un segnale originariamente continuo (analogico). La frequenza di campionamento stabilisce quanti campioni (unità discrete) vengono esaminati in una data unità di tempo (es. 1 ms): se, per esempio, il campionamento viene fatto a 16 kHz, vengono prelevati 16 campioni di segnale discreto ogni ms di segnale analogico, perciò la frequenza di campionamento (F (^) c ).

A questo punto, il segnale (digitale) ottenuto dal campionamento è discreto nel tempo (definito) ma presenta una perdità di qualità rispetto al segnale originario (analogico): tuttavia tale perdita può essere contenuta aumentando la F (^) c.

Il teorema di Nyquist stabilisce, infatti, che campionando un segnale analogico ad una data F c , si perde la possibilità di descrivere tutte le oscillazioni che hanno frequenza superiore alla metà di F (^) c. Ecco perché se i segnali vengono acquisiti a F (^) c =16 kHz gli spettri e gli spettrogrammi sono rappresentati in

una scala di frequenza fino a 8 kHz (Fc=16 kHz; 16/2=8). La trasformata di Fourier è una funzione dipendente dal tempo nel dominio delle frequenze, decompone la funzione con un prodotto scalare. Nell’ambito della fonetica acustica, questa trasformata rappresenta uno strumento matematico che permette di individuare un criterio per effettuare un

campionamento che dia come risultato la digitalizzazione del segnale senza ridurne il contenuto informativo.

Il tracciato spettrografico, Sintesi del corso di Linguistica Generale

Documenti correlati

Anteprima parziale del testo

Scarica Il tracciato spettrografico e più Sintesi del corso in PDF di Linguistica Generale solo su Docsity!

Fonetica Acustica