Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


espressioni polirematiche, Slide di Linguistica

lezione 5 : linguistica computazionale

Tipologia: Slide

2021/2022

Caricato il 26/01/2023

sofia_nesteruk
sofia_nesteruk 🇮🇹

4

(6)

8 documenti

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Multiword expression
discovery
Tecniche di estrazione automatica delle
polirematiche
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica espressioni polirematiche e più Slide in PDF di Linguistica solo su Docsity!

Multiword expression

discovery

Tecniche di estrazione automatica delle polirematiche 1

Multiword expressions (MWE)  (^) Anche chiamate «espressioni polirematiche» o «frasi fisse».  (^) Presentano idiosincrasie distribuzionali, sintattiche o semantiche.  (^) Dal punto di vista semantico sono assimilabili alle parole singole.  (^) Comprendono fenomeni linguistici molto diversi tra loro.

Alcuni esempi Nomi: (cane da guardia; casa editrice; doppio senso; gratta e vinci ). Verbi: (sputare il rospo; mandare giù; prendere una decisione; arrabbiarsi; farcela). Aggettivi: ( usa e getta ; su misura). Avverbi: (per filo e per segno; a piene mani). Determinanti: ( un sacco di).

Caratteristiche delle MWE  (^) Co-occorrenza  (^) Idiomaticità  (^) Variabilità  (^) Ambiguità  (^) Discontiguità N.B. non tutte le MWE hanno le stesse caratteristiche.

Idiomaticità Il significato delle MWE non è riconducibile alla combinazione dei significati delle sue parti: significato non-composizionale. es. mangiare la carne vs. mangiare la foglia. Problema : interpretazione letterale. Opportunità : metriche distribuzionali.

Variabilità Nelle MWE alcuni elementi non possono flettere, inoltre le MWE potrebbero non accettare alcune trasformazioni come la passivizzazione. es. I ragazzi corrono come i venti __ le cuoia sono state tirate da Carmelo. Problema : flessione. Opportunità : metriche di sostituzione sintattica.

Discontiguità Alcune MWE accettano l’inserzione di elementi estranei. es. prendere in considerazione qualcosa prendere qualcosa in considerazione Problema : non è possibile trattare le MWE come parole singole.

MWE discovery

 (^) Obiettivo: Costruzione automatica di un lessico di MWE ( type ) a partire da un corpus.  (^) Fasi:  (^) Estrazione dei candidati  (^) Calcolo delle metriche  (^) Classificazione

Estrazione dei candidati

Dal corpus viene estratta una serie di parole che potrebbero essere MWE ( candidati ).  (^) bigram = sequenza di 2 parole  (^) trigram = sequenza di 3 parole  (^) n-gram = sequenza di n parole

Estrazione dei candidati

Pattern morfosintattici:  (^) Aggettivo + Nome doppio senso  (^) Nome + Aggettivo cabina telefonica  (^) Nome + Prep + Nome carta di credito  (^) Verbo + Nome cantar vittoria  (^) Verbo + Aggettivo giocare sporco  (^) Verbo + Prep + Nome andare al diavolo

Metriche di associazione

 (^) Misurano la co-occorrenza di due o più parole ovvero quante volte queste parole compaiono nel testo in sequenza.  (^) Sono le metriche più diffuse.  (^) Si basano sulla teoria dell’informazione o sul test di ipotesi.

Metriche di associazione

Pointwise Mutual Information (PMI)

1

2

) = log

2

1

2

1

2

Metriche di associazione:

problemi

Falsi positivi : Verbi seguiti da argomenti tipici. Es. bussare alla porta , risolvere il problema , inviare un messaggio, tornare a casa Falsi negativi : Alcune parole frequenti formano numerose MWE. Es. avere voce, avere successo, essere indice, essere opera di, dare via e fare fuori

Metriche distribuzionali

 (^) Misurano la non-composizionalità del significato degli n-gram.  (^) Sono basate sui word embeddings.  (^) Confrontano il vettore ottenuto combinando i vettori delle singole parole presenti nell’MWE con il vettore prodotto direttamente dall’MWE.