








Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di linguistica computazionale
Tipologia: Appunti
1 / 14
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!









TiGerSearch linguaggio di query
Ci sono due nodi, che si chiamano 1 e 2. Primo nodo ha una part of speech il cui valore è rappresentato da due posizioni di cui la prima, quella rappresentata dal punto è un qualsiasi carattere e la seconda è 3. Il nodo 1 governa un soggetto che è il nodo che si chiama due che ha una part of speech il cui valore è rappresentato da due posizioni (dove ci sono due forme il cui codice è rappresentato da due caratteri), punto (un carattere qualsiasi) e 1 (che è un nome). Sappiamo che quel punto va interpretato come qualsiasi carattere, espressioni regolari tra i due slash. Abbiamo un verbo che governa un nome, e questo nome fa da soggetto a un verbo. Un nome che fa da soggetto a un nome. Un nodo uno che governa direttamente un nodo 2. E il nodo 1 nell’ordine delle parole precede immediatamente il nodo 2. Il verbo precede il nome. Il soggetto è in posizione immediatamente postverbale. “Chi mangia?” “Mangia Marco”
2 nodi il primo nodo ha la proprietà di modo, disgiunzione tra H e Q. il modo è rappresentato o da H (significa infinito attivo) o da Q (infinito passivo). E relazione è un oggetto. Abbiamo un nodo che è un oggetto ed è all’infinito.
Il primo nodo governa direttamente un soggetto che è rappresentato da un nodo 2, che ha un certo numero e caso. Ho un infinito che governa un soggetto rappresentato da un accusativo. “Dico te bonum esse”. È un accusativo infinito che rappresenta una completiva oggettiva.
Perché lì ci sono le virgolette e lì lo slash? [mood=/[H|Q]/ Nome dell’attributo seguito dal valore Quando un valore è tra slash significa se dentro, tra lo slash iniziale e finale c’è un carattere jolly va interpretato come tale. Se avessi usato le virgolette avrei cercato il mood rappresentato dal valore [H pipe Q]. Scrivendo “Obj” cerco esattamente questa sequenza di caratteri Obj. Il valore può essere compreso, o tra slash / / oppure tra virgolette. Tra slash significa qui dento i caratteri jolly vanno interpretati come caratteri jolly. Tra “ “ significa cerca esattamente questa sequenza di caratteri.
L’abbiamo lanciata su Tundra ed è uscito questo esempio
Traduzione: vediamo che nelle arti una governa l’altra/una è governativa dell’altra
Cioè “che una sia governativa dell’altra” è l’oggetto di “vediamo”. Cosa vediamo? Unam è soggetto di esse che è il nodo 2.
Statistiche, voglio sapere quali sono i lemmi che più frequentemente occorrono come soggetti di una completiva rappresentata da un accusativo più infinito.
C’è un nodo che si chiama uno, rappresenta una part of speech che, prevede due caratteri, uno qualsiasi e il secondo è un verbo (3). Gendnumpers : genere numero e persona; 4|5|6 : significa numero singolare. Prima pers sing, seconda pers sing, terza pers sing.
Coord significa 1 governa direttamente come Coord il nodo 2, attraverso una relazione che si chiama Coord.
#2 >Sb_Co #
Quindi abbiamo nodo 1 che governa nodo 2, nodo 2 che governa nodo 3.
C’è un nodo 1 che è un verbo al singolare, questo nodo 1 governa un nodo 2, il nodo 2 che è una Coord, il nodo 2 governa un nodo 3 che è un soggetto coordinato.
Perchè funziona? Implico la presenza degli altri soggetti coordinati a questo, possono essere anche più di uno. “Marco, Luigi, Giovanni … vanno a scuola”
Avrei potuto aggiungere un nodo #4 però non serve. Se ho lo status di essere fratello di qualcuno, mio fratello c’è. Dico che il nodo 1, verbo al singolare, ha come soggetto una struttura coordinata nella quale c’è un soggetto. Se c’è un soggetto coordinato ce ne deve essere almeno un altro. Altrimenti con cosa lo coordino. Nel momento in cui dico che c’è un sogg coordinato vuol dire che c’è una struttura coordinata. Se il soggetto fosse da solo avrei che il nodo 1 (il verbo) governa direttamente un nodo due che fa da soggetto “marco va a scuola”.
Query dice hai più di un soggetto, ma il verbo è al singolare. “Forma et Materia est”
Lanciamo la query
Esempio: sapientis est meditari et aliis disserere
Due infiniti ma c’è un EST.
Esempio: aliqua opinio vel fides homini a deo immittitur
Immittitur è al singolare non immittuntur.
Traduzione: “Una qualche opinione o fede viene immessa” (anche in italiano verbo al singolare). C’è il vel , elemento discriminante. Se voglio solo et. dovrei dire lemma = et. avrei solo coordinati dalla congiunzione e. Cerca anche “aut” che significa oppure. Non ha un filtro lessicale, solo di struttura.
Trattamento delle strutture coordinate è una differenza tra PDT e UD. Qui stiamo interrogando Index Thomisticus Treebank secondo lo stile di Praga. Come sono rappresentati i coordinati in una struttura coordinata nello stile praghese? La congiunzione coordinativa (e) è sopra e governa i due coordinati.
Marco e Paolo. Come lo governa come Cord, ha la DepRel Cord. I due coordinati hanno una qlk fx, per esempio sono due soggetti, se lo sono Sb_CO. Due soggetti coordianati da una congiunzione coordinante.
Le query fatte bene sono quelle che estraggono informazioni e sono minimamente verbose.
Due nodi che sono fratelli. Un nodo che è una forma del lemma forma e un nodo 2 che è una forma di materia.
Esempio: ex unione formae 1 et materiae 2
Traduzione: dall’unione di forma e materia. Sono figlie dello stesso padre.
Cerca due nodi #1 governa #2 direttamente. Quando vediamo cancelletto # significa che questo è una variabile non un valore! #1 e #2 dice che si chiama variabile uno e variabile 2. #myedge, questa si chiama variabile myedge. #1 governa #2 e i due hanno la stessa dep rel. Soggetto che governa un soggetto. Quando può occorrere una struttura del genere?
Che Francesco frequenti l’uni Cattolica è considerata una buona cosa. Il sogg del verbo “è considerato” è una proposizione “che Francesco frequenti unicatt”. Siamo in una struttura predicato centrica delle grammatiche a dipendenze. Qui “che Francesco frequenti unicatt”, il verbo frequenti riceve la fx sintattica (deprel) è soggetto. Questa proposizione governata dal verbo frequenti è una Sb.
Frequenti ha la dep rel soggetto. Frequenti ha la funzione sintattica, il ruolo di quella proposizione è soggettiva. Che è una congiunzione subordinativa, si dice AuxC. AuxC nodo ausiliare che fa da C: congiunzione subordinativa. Questo è lo stile praghese. Dove le congiunzioni sub e le preposizioni governano il predicato della prop subordinata oppure il nome/verbo introdotto dalla preposizione. In Ud: che dipenderebbe da frequenti.
Proiettività
Dati 3 nodi, i, j , con i che governa j, e v essendo un nodo che sta tra i due. v deve essere
per essere proiettivo. Posso proiettare i nodi su una ideale linea orizzontale senza incorrere in sovrapposizioni.
Non-proiettività
Invece nel caso in cui avessi che i governa j, e v sta tra i e j, e v governa i. Proiettandole vedo un incrocio. Questo succede con sintagmi discontinui: sintagmi i cui elementi sono divisi da materiale lessicale. Tipico di lingue morfologicamente lingue. Sintagma nominale per esempio formato da un aggettivo e un nome, tra i due c’è materiale lessicale che non appartiene al sintagma nominale.
Qui abbiamo scritto due query che cercano una struttura proiettiva e una non-proeittiva.
#1 . #2 & #2 . #3 & #1 > #3 & #3 > #**
Tra le treebank c’è la treebank Kakfa , disegnata a costituenti. Brutta eh…!? Non la spiega perché l'abbiamo già vista. Abbiamo parlato degli stili a costituenti, abbiamo visto lo stile di Tiger misto. Processo di kafka è stato annotato con lo stile di Tiger, le parole sono le foglie dell’albero e risalendo si trovano i nomi dei sintagmi (ad esempio Sintagma verbale). Nei sintagmi un elemento fa da testa.
Qui non si può ragionare dicendo “una parola governa un altra parola” perché la differenza fondamentale tra le grammatiche a costituenti (chiamate anche PSG) e quelle a dipendenze, in termini di rappresentazione a livello di albero è che:
#1: [cat="NX"] > #2:[cat="ART"] & #1 > #3: [cat="NN"]
Cerco un sintagma nominale chiamato NX (nel tagset del processo di Kafka che governa direttamente #2, è un articolo che governa direttamente un #3 che è chiamato NN.
Il nodo #1 che è un NX, cioè un sintagma nominale. Questo nodo governa direttamente un nodo #2 che ha categoria articolo. E il nodo #1 governa direttamente uno nodo #3 che è un NN che è un nome. Struttura di questo tipo “Il cane”, “il tavolo” oppure “un bambino”.
ADJX sintagma aggettivale
Che governa / è costituito da un
“Camera bella e grossa”.
KonText è uno degli strumento di ricerca su treebank sviluppato a Praga, dall’istituto di linguistica formale e applicata. https://lindat.mff.cuni.cz/en/services#KonText
Versione joint. https://lindat.mff.cuni.cz/services/kontext/first_form?corpname=ud_all_a Prende 500 frasi di ciascuna delle 80 treebank di UD e consente di fare una query jointed su tutte queste treebank. Lo stesso lemma può presentarsi in lingue diverse.
Servizio recente messo a disposizione da UD. è molto comodo perchè consente di scrivere query che avere già dei modelli pronti. Ha interazione grafica piuttosto semplice. Manentendo cmq la potenzialità di scriversele da sole. A volte interfaccia è limitante invece. Meglio poter essere liberi per poter essere più dinamici. Ci sono diverse treebank per litaliano
Search for a lemma e ci scrive già la query
Questo è un commento
Per l’italiano c’è. Scrive già il formato della query.
Posso cercare anche bigramma di parole, cioè un pattern formato da due parole che hanno queste forme e la prima precede immediatamente la seconda.
Treebank di UD hanno quantità di nodi diversi.