




Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti seconda parte corso di linguistica computazionale di informatica umanistica
Tipologia: Appunti
1 / 8
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





ENTROPIA Un sistema è aleatorio se rappresentabile da un numero di stati che può assumere e le loro relative probabilità, come nel caso del lancio del dado. Una variabile casuale può essere un testo, una lingua. L’entropia è una approssimazione del testo rigorosa, data dalla nozione di Claude Shannon ed è una misura dell’incertezza di un fenomeno e quanto è difficile predire quel dato esito (grado di incertezza). L’entropia nasce come misura del valore informativo di una classe di eventi esclusivi. Gli eventi rari contengono maggior informazione degli eventi più probabili. Periodicità, ripetizioni e correlazioni di varia natura rendono gli eventi più prevedibili e quindi meno informativi. Quanto più piccola è la probabilità, tanto più grande è l’informazione. È quindi un indice inverso della quantità di struttura presente in un testo. Il valore di massima entropia si raggiunge quando le parole formano un flusso caotico, in cui ogni nuova parola ha probabilità costante, indipendente dal contesto che la precede. Aumentando l’ordine del modello Markoviano, siamo in grado di catturare condizionamenti di ampiezza crescente tra parole. Può essere solo un numero positivo o uguale a 0. h(v)= E log2(f(v)h(v)/|T|)= E p(v)h(v)= E p(v)log2p(v) L’entropia ci consente di descrivere in modo sintetico il comportamento di una intera distribuzione, è quindi quanto più grande quanto meno sono numerosi i vincoli che condizionano la distribuzione delle parole. L’entropia di eventi congiunti è invece data dalla somma degli eventi: H=h(v)+h(i)+h(s)… L’entropia di eventi non dipendenti tende a essere più piccola dell’entropia della distribuzione di coppie di parole perché il numero di bigrammi tipo di un testo è generalmente maggiore del numero di parole tipo dello stesso testo. maggiore sarà il numero di bigrammi, maggiore è l’entropia della loro distribuzione, in quanto si abbassa la probabilità associata a ciascun bigramma. L’entropia puntuale si misura in bits (cifre binarie) da 0 a 1, ed è associata a un particolare stato del sistema. Di ogni parola quindi è calcolabile il suo grado di informazione. Il valore calcolato rileva il numero di bit necessari per estrarre quella data parola. Se tutti gli stati sono equiprobabili si può ricavare dalla formula: h(v)=-log2p(v) Più piccola è la probabilità, maggiore sarà l’entropia perché porta più informazione. Il valore massimo rappresenta il caso della parola che ricorre in tutti i testi, e il minimo dove la parola ricorre in un solo testo. L’entropia viene quindi usata per pesare le parole con cui indicizzare i testi. L’entropia di un linguaggio è infinito ma stimabile. Quella incrociata invece consente di valutare quanto bene un modello probabilistico approssima un certo processo stocastico: H=-E P(x)log2N Dove P(x) è la probabilità vera e N la distribuzione del modello
Il trattamento automatico del linguaggio comprende una grammatica di regole scritte a mano dove si fonda il modello del linguaggio, e l’algoritmo di apprendimento automatico (Machine Learning). L’algoritmo permette al computer di riconoscere il linguaggio. Nonostante abbia una forte dipendenza con i dati e problemi di data-sparsing, l’algoritmo è adattabile, robusto, rapido nello sviluppo e estendibile. Esistono due grandi categorie di algoritmi basati sui metodi di ML:
SCHEMI DI ANNOTAZIONE Uno schema di annotazione definisce il contenuto linguistico dell’annotazione, non il modo in cui l’annotazione è proiettata sul testo. Il tipo di rappresentazione dei parser è a costituenti ( labelled bracketing ) e a dipendenti ( dipendency structure ). Tra l’uno e l’altro ci sono algoritmi di facile applicazione per la conversione. Rappresentano le stesse informazioni ma in modo diverso. Si preferisce usare il dipendency per avere informazione immediata, anche sulla semantica, perché più flessibile. Lo schema di annotazione a dipendenze è più semplice da applicare. si parte da una ricostruzione delle analisi di dipendenze in un grafo ad albero , composto da etichette e relazioni, o in un formato tabellare , in cui le relazioni di dipendenza sono rappresentate chiaramente e identificano l’id delle teste e degli elementi dipendenti. Un albero a dipendenze ha nodi che rappresentano elementi lessicali. Gli arti rappresentano dipendenze lessicali o relazioni grammaticali. La root (radice) ci deve sempre essere ed è il verbo principale della frase. Ad ogni passo dell’analisi, il parser usa un classificatore addestrato su una treebank allo scopo di predire quale azione deve compiere dato l’insieme delle feature locali e contestuali estratte in quel determinato parser. Analizza le frasi da sinistra verso destra compiendo tre azioni:
Serve per le ricerche ed elaborazioni più avanzate dei dati linguistici. Gli stessi codici possono essere direttamente recuperate attraverso delle espressioni regolari. Quindi lo scopo è di dotare il computer di una serie di conoscenze sulla struttura e sulle convenzioni di una lingua, eliminando le differenze tra l’organizzazione fisica e logica del testo, attraverso degli algoritmi di apprendimento automatico. L’annotazione linguistica consiste in una codifica di informazioni linguistiche associate al dato testuale. Possiamo anche annotare informazioni relazionali. In LC l’annotazione rende esplicita, interpretabile ed esplorabile dal computer, la struttura linguistica implicita del testo. I dati linguistici si organizzano in più livelli caratterizzati da gerarchie multiple di tratti linguistici, talvolta non perfettamente allineati, e in alcuni casi solo parzialmente definiti. L’annotazione è quindi un processo delicato, aperto e incrementale, e agisce su quattro livelli fondamentali:
Wordnet rappresenta il lessico computazionale esistente di maggior successo ed è sia un dizionario che un thesaurus. Ha validazione su ampia scala. Dato un lemma, descrive i suoi possibili sensi. La rete di synsets definisce una rete concettuale e navigandola possiamo trovare tutti i lemmi che appartengono allo stesso dominio/categoria concettuale. Ogni tipo di relazione semantica è associata a uno schema di frase per verificarne la plausibilità. La similarità semantica è data dalla vicinanza tra i loro concetti nella rete: numero di archi/nodi corrispondenti alle relazioni semantiche che separano i synset corrispondenti. La similarità dipende dalla tipologia della rete che è determinata dal lessicografo. Con wordnet si possono esprimere anche preferenze di selezione (tipi semantici) degli argomenti. Framenet come in tutti i casi di modelli a frame, agisce tra predicati e argomenti. Il significato di un termine lessicale predicativo è rappresentato come un frame di ruoli semantici e tematico. Quest’ultimo esprime il ruolo ricoperto da un certo argomento nell’evento espresso dal predicato. Il significato di una entrata lessicale è descritto tramite un semantic frame , una rappresentazione schematica di una situazione o evento in termini dei suoi vari possibili partecipanti (frame elements). Ogni frame Element è associato alle sue possibili realizzazioni sintattiche e per ogni realizzazione sintattica è riportata una frase del corpus annotata in maniera corrispondente. I lemmi ambigui sono associati a più di un frame. Wordnet e Framenet forniscono una rappresentazione “machine understandable” del significato delle parole, e ciò permette di specificare le restrizioni di selezione dei termini lessicali ed eliminare ambiguità sintattiche.