Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Il tracciato spettrografico, Sintesi del corso di Linguistica Generale

Breve riepilogo sul tracciato spettrografico e fonetica acustica.

Tipologia: Sintesi del corso

2016/2017

Caricato il 11/12/2017

chiara311
chiara311 🇮🇹

4.2

(14)

12 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Fonetica Acustica
Il tracciato spettrografico (o spettrogramma) è il tentativo di rappresentare graficamente le
componenti singole della voce. La prima analisi vocale con tecnica spettrografica risale al 1951 (primo
modello Sound Spectrographic, della Kay Electrics). Oggi sono disponibili vari spettrografi associati a
vari hardware (CSL, Kaypentax) e software (Multispeech, Kaypentax, Praat) sviluppati dall’Università
di Amsterdam.
Lo spettrogramma è un tracciato 3D ottenuto dalla scomposizione del segnale complesso nelle sue
componenti semplici. Sull’asse delle ascisse è rappresentato il tempo (in ms), sull’asse delle ordinate la
frequenza (in Hz). La terza dimensione, ossia l’unione delle due componenti, è l’intensità (indicata
dalla variazione cromatica, in scala di grigi).
A seconda del diverso procedimento usato nel filtrare il segnale complesso, lo spettrogramma assume
caratteristiche diverse. Esistono due filtri passabanda (ossia la larghezza della banda):
1. Spettrogramma a banda stretta (45 Hz): mette in evidenza il comportamento delle corde vocali;
separa le singole armoniche, rappresentate da una serie di striature orizzontali. La distanza tra due
striature contigue (misurata in Hz, sull’asse delle frequenze) il valore della frequenza
fondamentale (f0).
2. Spettrogramma a banda larga (300 Hz): mette in risalto le cosiddette formanti (frequenze di
risonanza, generate dalle cavità sopralaringali) le quali sono evidenziate da zone di maggiore
annerimento, rappresentano le maggiori componenti del timbro di un suono. Questo tipo di
spettrogramma, attraverso le formanti, permette di analizzare il comportamento istantaneo delle cavità
epilaringee (grazie alle formanti) senza che vengano perdute informazioni sul comportamento della
glottide (sorgente).
Inoltre, per quanto riguarda le formanti: le aperture e chiusure delle corde vocali sono rappresentate da
striature orizzontali periodiche (nello spettro a banda larga). L’altezza di una formante (misurata nel
punto centrale della banda annerita) dipende non solo dalla forma del risonatore (cavità sopralaringale,
quindi orale o nasale) ma anche dalla sua dimensione. In generale, si può dire che più piccola è la
cavità, più alta è la frequenza a cui risuona.
Sia la frequenza fondamentale che le altezze formantiche variano in base alle caratteristiche fisiche del
parlante. La frequenza fondamentale del parlato conversazionale è in media
- voce maschile: compresa tra i 70 e i 150 Hz
- voce femminile: compresa tra i 150 e i 250 Hz
- voce bambino: compresa tra i 250 e i 350 Hz
Queste differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali, poiché a
un maggiore spessore e a una maggiore lunghezza corrisponde una frequenza più bassa (uomo).
pf2

Anteprima parziale del testo

Scarica Il tracciato spettrografico e più Sintesi del corso in PDF di Linguistica Generale solo su Docsity!

Fonetica Acustica

Il tracciato spettrografico (o spettrogramma ) è il tentativo di rappresentare graficamente le componenti singole della voce. La prima analisi vocale con tecnica spettrografica risale al 1951 (primo modello Sound Spectrographic , della Kay Electrics). Oggi sono disponibili vari spettrografi associati a vari hardware (CSL, Kaypentax) e software (Multispeech, Kaypentax, Praat) sviluppati dall’Università di Amsterdam. Lo spettrogramma è un tracciato 3D ottenuto dalla scomposizione del segnale complesso nelle sue componenti semplici. Sull’asse delle ascisse è rappresentato il tempo (in ms), sull’asse delle ordinate la frequenza (in Hz). La terza dimensione, ossia l’unione delle due componenti, è l’ intensità (indicata dalla variazione cromatica, in scala di grigi). A seconda del diverso procedimento usato nel filtrare il segnale complesso, lo spettrogramma assume caratteristiche diverse. Esistono due filtri passabanda (ossia la larghezza della banda):

  1. Spettrogramma a banda stretta (45 Hz): mette in evidenza il comportamento delle corde vocali ; separa le singole armoniche , rappresentate da una serie di striature orizzontali. La distanza tra due striature contigue (misurata in Hz, sull’asse delle frequenze) dà il valore della frequenza fondamentale (f (^) 0).
  2. Spettrogramma a banda larga (300 Hz): mette in risalto le cosiddette^ formanti^ (frequenze di risonanza, generate dalle cavità sopralaringali) le quali sono evidenziate da zone di maggiore annerimento, rappresentano le maggiori componenti del timbro di un suono. Questo tipo di spettrogramma, attraverso le formanti, permette di analizzare il comportamento istantaneo delle cavità epilaringee (grazie alle formanti) senza che vengano perdute informazioni sul comportamento della glottide ( sorgente ).

Inoltre, per quanto riguarda le formanti: le aperture e chiusure delle corde vocali sono rappresentate da striature orizzontali periodiche (nello spettro a banda larga). L’altezza di una formante (misurata nel punto centrale della banda annerita) dipende non solo dalla forma del risonatore (cavità sopralaringale, quindi orale o nasale) ma anche dalla sua dimensione. In generale, si può dire che più piccola è la cavità, più alta è la frequenza a cui risuona. Sia la frequenza fondamentale che le altezze formantiche variano in base alle caratteristiche fisiche del parlante. La frequenza fondamentale del parlato conversazionale è in media

  • voce maschile : compresa tra i 70 e i 150 Hz
  • voce femminile : compresa tra i 150 e i 250 Hz
  • voce bambino : compresa tra i 250 e i 350 Hz

Queste differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali, poiché a un maggiore spessore e a una maggiore lunghezza corrisponde una frequenza più bassa (uomo).

Lo spettrogramma consente di osservare qualsiasi tipo di segmentale e soprasegmentale , ossia dal tracciato è possibile ricavare la durata dei semplici foni, la loro intensità e l’andamento intonativo dell’enunciato. Inoltre, permette di evidenziare numerosi effetti di coarticolazione che caratterizzano il parlato. L’analisi spettrografica consente, quindi, di rilevare molti dettagli articolatori che non potrebbero essere individuati in alcun modo se non mediante tecniche di indagine molto più invasive (radiografie, sonde, cineradiografie, palatografie) le quali, tra l’altro, impediscono la spontaneità e la normalità del parlato. Nello spettrogramma, troviamo metodi di rappresentazione congiunta , come l oscillogramma (che di solito si trova posizionato in alto affiancato allo spettrogramma) il qual descrive l’andamento dell’ampiezza istantanea della forma d’onda, la sua misurazione varia in base a valori convenzionali. Abbiamo poi, sovrapposto allo spettr. il profilo melodico , il quale descrive l’andamento della frequenza fondamentale, misurato quindi in Hz. L’ intensità sonora , anche questa sovrapposta, descrive la curva dell’energia (ossia il volume istantaneo) misurata in scala virtuale in dB, basata sui livelli numerici dell’ampiezza. Il tracciato formantico , anch’esso sovrapposto, descrive le variazioni formantiche nel corso di una stessa produzione, in particolar modo in seguito all’introduzione delle tecniche LPC ( Linear Prediction System ). La sezione spettrale (o spettro d’ampiezza , spectral slice ), in PRAAT, rappresenta una “fetta” di tracciato spettrografico, di risoluzione e lunghezza variabili. La risoluzione dell’analisi di questa fetta dipende dalla lunghezza della finestra (sezione) selezionata. Essa permette di isolare armoniche e formanti di suoni periodici, ma anche di stimare la pendenza ( spectral tilt ), la densità o il centro di gravità tipiche della composizione spettrale dei suoni non periodici (click, rumori di frizione, ecc.). I segnali digitali sono discreti (impulsi non continui, definiti) nel tempo e si ottengono mediante discretizzazione (la trasformazione di modelli matematici ed equazioni continue in unità definite), ossia mediante campionamento di un segnale originariamente continuo (analogico). La frequenza di campionamento stabilisce quanti campioni (unità discrete) vengono esaminati in una data unità di tempo (es. 1 ms): se, per esempio, il campionamento viene fatto a 16 kHz, vengono prelevati 16 campioni di segnale discreto ogni ms di segnale analogico, perciò la frequenza di campionamento (F (^) c ).

A questo punto, il segnale (digitale) ottenuto dal campionamento è discreto nel tempo (definito) ma presenta una perdità di qualità rispetto al segnale originario (analogico): tuttavia tale perdita può essere contenuta aumentando la F (^) c.

Il teorema di Nyquist stabilisce, infatti, che campionando un segnale analogico ad una data F c , si perde la possibilità di descrivere tutte le oscillazioni che hanno frequenza superiore alla metà di F (^) c. Ecco perché se i segnali vengono acquisiti a F (^) c =16 kHz gli spettri e gli spettrogrammi sono rappresentati in

una scala di frequenza fino a 8 kHz (Fc=16 kHz; 16/2=8). La trasformata di Fourier è una funzione dipendente dal tempo nel dominio delle frequenze, decompone la funzione con un prodotto scalare. Nell’ambito della fonetica acustica, questa trasformata rappresenta uno strumento matematico che permette di individuare un criterio per effettuare un

campionamento che dia come risultato la digitalizzazione del segnale senza ridurne il contenuto informativo.