

























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
lezione 5 : linguistica computazionale
Tipologia: Slide
1 / 33
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























Tecniche di estrazione automatica delle polirematiche 1
Multiword expressions (MWE) (^) Anche chiamate «espressioni polirematiche» o «frasi fisse». (^) Presentano idiosincrasie distribuzionali, sintattiche o semantiche. (^) Dal punto di vista semantico sono assimilabili alle parole singole. (^) Comprendono fenomeni linguistici molto diversi tra loro.
Alcuni esempi Nomi: (cane da guardia; casa editrice; doppio senso; gratta e vinci ). Verbi: (sputare il rospo; mandare giù; prendere una decisione; arrabbiarsi; farcela). Aggettivi: ( usa e getta ; su misura). Avverbi: (per filo e per segno; a piene mani). Determinanti: ( un sacco di).
Caratteristiche delle MWE (^) Co-occorrenza (^) Idiomaticità (^) Variabilità (^) Ambiguità (^) Discontiguità N.B. non tutte le MWE hanno le stesse caratteristiche.
Idiomaticità Il significato delle MWE non è riconducibile alla combinazione dei significati delle sue parti: significato non-composizionale. es. mangiare la carne vs. mangiare la foglia. Problema : interpretazione letterale. Opportunità : metriche distribuzionali.
Variabilità Nelle MWE alcuni elementi non possono flettere, inoltre le MWE potrebbero non accettare alcune trasformazioni come la passivizzazione. es. I ragazzi corrono come i venti __ le cuoia sono state tirate da Carmelo. Problema : flessione. Opportunità : metriche di sostituzione sintattica.
Discontiguità Alcune MWE accettano l’inserzione di elementi estranei. es. prendere in considerazione qualcosa prendere qualcosa in considerazione Problema : non è possibile trattare le MWE come parole singole.
(^) Obiettivo: Costruzione automatica di un lessico di MWE ( type ) a partire da un corpus. (^) Fasi: (^) Estrazione dei candidati (^) Calcolo delle metriche (^) Classificazione
Dal corpus viene estratta una serie di parole che potrebbero essere MWE ( candidati ). (^) bigram = sequenza di 2 parole (^) trigram = sequenza di 3 parole (^) n-gram = sequenza di n parole
Pattern morfosintattici: (^) Aggettivo + Nome doppio senso (^) Nome + Aggettivo cabina telefonica (^) Nome + Prep + Nome carta di credito (^) Verbo + Nome cantar vittoria (^) Verbo + Aggettivo giocare sporco (^) Verbo + Prep + Nome andare al diavolo
(^) Misurano la co-occorrenza di due o più parole ovvero quante volte queste parole compaiono nel testo in sequenza. (^) Sono le metriche più diffuse. (^) Si basano sulla teoria dell’informazione o sul test di ipotesi.
Pointwise Mutual Information (PMI)
1
2
2
1
2
1
2
Falsi positivi : Verbi seguiti da argomenti tipici. Es. bussare alla porta , risolvere il problema , inviare un messaggio, tornare a casa Falsi negativi : Alcune parole frequenti formano numerose MWE. Es. avere voce, avere successo, essere indice, essere opera di, dare via e fare fuori
(^) Misurano la non-composizionalità del significato degli n-gram. (^) Sono basate sui word embeddings. (^) Confrontano il vettore ottenuto combinando i vettori delle singole parole presenti nell’MWE con il vettore prodotto direttamente dall’MWE.