Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi del Linguaggio e dei Corpora: Esercizi e Quiz - Prof. Panunzi, Appunti di Linguistica

Appunti del corso di Linguistica dei corpora

Tipologia: Appunti

2020/2021

Caricato il 08/01/2024

Marione13
Marione13 🇮🇹

4

(3)

5 documenti

1 / 55

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LINGUISTICA DEI CORPORA- PANUNZI
Guarda la pagina UNIFI del corso per materiale.
Da studiare obbligatoriamente:
- E Cresti. A. Panunzi, "Introduzione ai corpora dell'italiano", Bologna, Mulino, 2013.
- P. Sorianello, "Prosodia. Modelli e ricerca empirica", Roma, Carocci, 2006.
A scelta (meglio due anche se lui ne chiede uno):
-F. Albano Leoni, P. Maturi, "Manuale di fonetica", Roma, Carocci, 2018(3).
-E. Campisi, "Che cos'è la gestualità", Roma, Carocci, 2018.
-E. Lombardi Vallauri, "La struttura informativa. Forma e funzione negli enunciati linguistici", Carocci,
2009.
-A. Ferrari, "Linguistica del testo", Roma, Carocci, 2014.
-T. Raso, H. Mello (eds), "Spoken Corpora and Linguistic Studies", Amsterdam/Philadelphia,
Benjamins, 2014.
Lezione 1- 21/09/20
I corpora (plurale di corpus ) sono collezioni di testi orali o scritti prodotti in contesti comunicativi reali (ex.
Registrazioni di discorsi o articoli di giornale), conservati in formato elettronico e legati a strumenti di
consultazione informatici.
Permettono di osservare l’uso effettivo di una lingua e di verificarne le tendenze su base statistica (la
lessicografia si lega anche ad altre discipline, più matematiche); sono usati per selezionare i lemmi in
lessicografia, in base alla loro frequenza d’uso, e per capire le sfumature di senso di una parola in base ai
contesti.
Oggi, quando parliamo di corpora o corpus, ci riferiamo a collezioni di testi in formato elettronico.
Attraverso i corpora si vede come i parlanti parlano e come gli scriventi scrivono.
Un corpus (2 definizioni diverse):
1. È una raccolta strutturata di eventi comunicativi prodotti in ambiente naturale e selezionati con
criteri specifici al fine di rappresentare una lingua o una specifica varietà (Panunzi).
2. È una raccolta di testi (scritti, orali o multimediali [video per esempio]), spesso in formato
elettronico, trattati in modo uniforme, così da essere gestibili o interrogabili informaticamente
(Barbera).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37

Anteprima parziale del testo

Scarica Analisi del Linguaggio e dei Corpora: Esercizi e Quiz - Prof. Panunzi e più Appunti in PDF di Linguistica solo su Docsity!

LINGUISTICA DEI CORPORA- PANUNZI

Guarda la pagina UNIFI del corso per materiale. Da studiare obbligatoriamente:

  • E Cresti. A. Panunzi, "Introduzione ai corpora dell'italiano", Bologna, Mulino, 2013.
  • P. Sorianello, "Prosodia. Modelli e ricerca empirica", Roma, Carocci, 2006. A scelta (meglio due anche se lui ne chiede uno): - F. Albano Leoni, P. Maturi, "Manuale di fonetica", Roma, Carocci, 2018(3). - E. Campisi, "Che cos'è la gestualità", Roma, Carocci, 2018. - E. Lombardi Vallauri, "La struttura informativa. Forma e funzione negli enunciati linguistici", Carocci,

- A. Ferrari, "Linguistica del testo", Roma, Carocci, 2014. - T. Raso, H. Mello (eds), "Spoken Corpora and Linguistic Studies", Amsterdam/Philadelphia, Benjamins, 2014. Lezione 1- 21/09/ I corpora (plurale di corpus ) sono collezioni di testi orali o scritti prodotti in contesti comunicativi reali (ex. Registrazioni di discorsi o articoli di giornale), conservati in formato elettronico e legati a strumenti di consultazione informatici. Permettono di osservare l’uso effettivo di una lingua e di verificarne le tendenze su base statistica (la lessicografia si lega anche ad altre discipline, più matematiche); sono usati per selezionare i lemmi in lessicografia, in base alla loro frequenza d’uso, e per capire le sfumature di senso di una parola in base ai contesti. Oggi, quando parliamo di corpora o corpus, ci riferiamo a collezioni di testi in formato elettronico. Attraverso i corpora si vede come i parlanti parlano e come gli scriventi scrivono. Un corpus (2 definizioni diverse):

  1. È una raccolta strutturata di eventi comunicativi prodotti in ambiente naturale e selezionati con criteri specifici al fine di rappresentare una lingua o una specifica varietà (Panunzi).
  2. È una raccolta di testi (scritti, orali o multimediali [video per esempio]), spesso in formato elettronico, trattati in modo uniforme, così da essere gestibili o interrogabili informaticamente (Barbera).

In linguistica c’è il “problema del dato”, ossia ci si chiede spesso quali siano i dati di cui ci serviamo quando studiamo il linguaggio. La caratteristica del linguaggio umano è che ha intrinseco il metalinguismo: per parlare del linguaggio (quale facoltà comunicativa) dobbiamo per forza usare il linguaggio. Quando parliamo usiamo un’abilità acquisita (che impariamo ad usare nel tempo). Ferdinando Saussure distingue le langage (la facoltà di linguaggio), la langue (il sistema linguistico che apprendiamo) e la parola (gli atti linguistici che facciamo). Harris descrive un metodo di studio linguistico, che parte dalla registrazione degli studi linguistici; si cercano delle regolarità all’interno di quello che abbiamo appena raccolto. Questo tipo di approccio è stato criticato da Chomsky, che sostiene che i corpora (e l’analisi che ne avevano fatto) non era la cosa giusta da fare per analizzare il linguaggio. Quando si studia il linguaggio bisogna, secondo lui, rivolgerci alla componente mentale interna, che è quella che ci permette di usare il linguaggio in contesti specifici. Bisogna che il linguista si interroghi da solo sulla bontà o meno di alcune strutture linguistiche. Se ci si limita ad analizzare pochi testi, i punti/ regole che tireremo fuori sono sempre troppo specifiche. Bisogna trovare delle regole generali. La competenza linguistica ( competence ) è ciò che dobbiamo analizzare (perché ha un’ampiezza di esecuzione infinita), mentre la performance linguistica (l’esecuzione, ovvero i corpora, quelli che usano per studiare) sono assolutamente finiti. Questa sua ideologia ha influenzato la linguistica americana e in seguito tutta la linguistica mondiale. Il linguaggio è, secondo lui, la capacità mentale di produrre frasi. Vengono distinti due differenti approcci allo studio linguistico:

  • Introspezione: metodo di approccio al linguaggio; il linguista ottiene i dati interrogando sé stesso o un/ una madrelingua (facendo per esempio test di grammaticalità). I dati sono ottenuti per via sperimentale. C’è chi dice che attraverso quest’analisi si manipolano i dati.
  • Dati (più o meno) spontaneamente realizzati (osservazione): è un approccio più empirista; si studia l’attività linguistica dei parlanti. Le fonti principali non sono le idee mentali dei parlanti, ma i veri e propri testi prodotti dai parlanti, eventualmente scritti. Si può definire il dato dei corpora come un dato naturale, usato dai parlanti per comunicare. Viene definito il dato dei corpora come un “dato ecologico”, perché si studiano le parole e gli enunciati nei loro habitat naturali. Si cerca di limitare il più possibile il controllo o la modifica di questi dati. Lezione 2 (22/09/20) Come abbiamo già detto, il linguaggio può essere studiato come facoltà mentale dell’uomo o nel suo vero aspetto concreto.

stava lavorando ai testi latini, in particolare all’uso della proposizione “in” nei testi di San Tommaso d’Acquino. Pensa di inserire i testi in un computer. Nella metà degli anni 50, il francese Alphonse Juilland inizia la raccolta di corpora elettronici francesi, rumeni e italiani. Il vero corpus identificato e studiato negli anni è quello creato da due statunitensi della Brown University (è il Brown corpus ): è la prima generazione dei corpora, che viene presa come modello. Assomma un milione di parole, che viene realizzato negli anni 60 fa Francis e Kuĉera. Negli anni 70 viene fatto dell’inglese parlato ( London-Lund Corpus ). Nel 1987 Sinclair pubblica un dizionario per la Collins, completamente costruito spulciando nel Birmingham collection of english texts , con 18 milioni di parole. Nel 1994 si pubblica il British National Corpus (BNC ), corpus di riferimento all’inglese contemporaneo di 100 milioni di parole, che resta il prototipo di corpora elettronico per molto tempo. Rappresenta un corpus di seconda generazione. Altra tappa importante: nel 2003 la rivista Computational linguistics pubblica un numero dedicato al Web as Corpus : siamo nella terza generazione di corpora, derivati dalla rete. [Le parole si prendono da romanzi molto famosi, come La fattoria degli animali di Orwell, da cui sono state prese circa 30 mila parole, Guerra e Pace di Tolstoj, di 455 mila parole, Lolita di Nabokov, da cui son state prese 112 mila parole etc.] IL WEB Il Web rappresenta il più grande agglomerato di dati testuali che sia mai stato a disposizione dell’uomo, di libero accesso e in continua espansione. Ma è il Motore di ricerca quello che indaga sul web. E il motore di ricerca promuove i siti che hanno maggiori collegamenti o visite. Noi non conosciamo, tra l’altro, neanche le azioni del motore di ricerca, non sappiamo da dove prende questi risultati (trovano e ordinano i risultati in base a criteri non linguistici, come il numero di accessi ad un sito o il numero di collegamenti). I dati non sono controllabili (possono essere modificati da chiunque), quindi non sono adatti per essere utilizzati come base per uno studio scientifico. Il Web è troppo poco controllato per essere considerato un corpus. Il web rappresenta, comunque, il canale primario di accesso all’uso linguistico scritto, sia in fruizione che in produzione (per esempio si stanno sviluppando i blog e le chat, che diffondono un nuovo modo di scrivere). Il Web quindi non è un corpus ; ma possiamo utilizzarlo per creare un corpora. Quindi possiamo affermare la frase web corpora: si possono creare in varie lingue, tarati sulla dimensione del BNC, attraverso risorse stabili, annotabili e verificabili. Per esempio il gruppo di ricerca Wacky ( web as corpus kool ynitiative ) ha

creato 4 grandi corpora (inglese, francese, italiano e tedesco) di 1,5/2 miliardi di parole. Lo Sketch Engine sta creando i Ten Ten Corpora , che puntano ai 10 miliardi di parole. Il web è una gran fonte di dati. Lezione 3 (23/09/20) CRITERI DI COSTRUZIONE Il corpus è definito come un campione statistico: il corpus dovrebbe rappresentare la lingua, quindi noi analizziamo i vari corpus perché poi possa rappresentare la nostra lingua in qualche modo. I testi non vengono studiati in quanto testi, ma in quanto rappresentazione della nostra lingua. Li studiamo ovviamente in rapporto con altri testi. Non si studia il testo in sé e per sé, ma il testo in funzione di qualcosa di più grande, ovvero di rappresentazione della lingua. Ex. Invece di fare uno studio di tutta la popolazione per cercare qualcosa, prendiamo un campione, il corpus , che rappresenta tutta la popolazione. L’importante è che il campione sia simile alla popolazione (qualitativamente e quantitativamente), rappresentativo della popolazione, in modo che si pensi che valga per tutta la popolazione. La popolazione è un insieme di individui che hanno certi comportamenti o reagiscono ad un determinato fenomeno in un motivo. La popolazione però è troppo grande; costruiamo quindi dei campioni ridotti, nel senso che questi campioni rappresentano una parte della popolazione. Il campione può variare in base all’età, al genere, alla zona geografica presa in considerazione etc. Costruire un solo corpus che rispecchi la lingua nella sua integrità totale è quasi impossibile. Ciò che è difficile da definire è l’unità statistica di riferimento: i criteri che vengono usati per combinare i corpora e dare loro una rappresentatività sono di due tipi:  Criterio situazionale: invece di rimandare agli eventi comunicativi si rimanda alle situazioni in cui si producono tali eventi per sceglierle come corpora; l’unità statistica è il testo o, più in generale, l’evento comunicativo (scritto o orale)  Criterio demografico: variazione rispetto all’età, sesso, professione dei parlanti. Non si campionano gli eventi linguistici (che, come abbiamo appurato, sono troppi da classificare), ma si campionano i parlanti (più semplice da fare, perché con più cose in comune). L’unità statistica è il parlante stesso. È un criterio che si usa principalmente con i corpora di parlato (in caso di testo scritto, dovremmo sapere tutto dell’autore; nel parlato, possiamo direttamente chiedere e registrare i parlanti. Il parlante viene schedato rispetto alle sue caratteristiche).

 La BNC ha costruito un corpus di 90 milioni di parole (per quanto riguarda BNC = written: più di 3000 testi; circa 28k di parole per testo. Per quanto riguarda BNC (spoken): 10 milioni di parole; 915 samples, con varianti di interazione (dialogo/ monologo etc.) o varianti regionali; il campionamento è avvenuto anche secondo un criterio situazionale (ambito educativo/ business/ etc), e anche secondo un criterio demografico (età, lavoro, sesso).).  Il corpus design C – ORAL- ROM è stata una risorsa per le lingue romanze, che contiene le varietà della lingua parlata a seconda del luogo. Questa raccolta è stata costruita a partire da alcuni criteri: il primo criterio è la distinzione tra registro formale e informale. A loro volta, registro formale e informale hanno delle sotto classificazioni di raccolta: per esempio il registro formale ha dei sottogruppi quali “raccolta delle info in contesto naturale” (come dibattito politico, insegnamento etc.), o “raccolta nei media” (come talk show, reportage etc.); quello informale ha il sottogruppo del “telefono” (conversazioni private o conversazioni uomo – macchina)… L’impresa di costruire un corpus parte con la costruzione del suo design , ovvero di come è strutturato. Dopodiché, si passa all’acquisizione del materiale per costruirlo: si distingueranno quindi i testi scritti disponibili in formato digitale (come testi giornalistici o biblioteche online o web corpora+**), i testi non disponibili in formato digitale (acquisizione tramite dettatura o scannerizzazione), i testi parlati (acquisizione segnale audio o trascrizione del parlato). Con i testi parlati la situazione si complica un po', perché bisogna scegliere la giusta situazione dalla quale prendere la registrazione, e poi inserirlo nel corpus design. Inoltre, il testo parlato implica una registrazione che poi va trascritta. **I web corpora prendono i dati da internet (per l’Italiano: corpora itWaC/ itTenTen/ RIDIRE/ Paisà ). È sufficiente scaricare i programmi crawler , che scaricano pagine web intere. Il problema delle pagine web è che non contengono solo il testo in sé per sé, ma raccolgono al suo interno sporcizia, immagini, etc. Quindi, una volta scaricato, bisognerà pulire dalla sporcizia e lasciare solo l’articolo che ci interessa. ( HTML cleaning ). Spesso le cose derivate dal web sono poco controllate per quanto riguarda il corpus design. FORMATO E ANNOTAZIONE  i corpora sono archiviati in un formato elettronico: il formato deve essere reso esplicito da chi compila un corpus. Bisogna definirne i criteri di raccolta.  il modo in cui sono rappresentati i dati cambia da corpus a corpus: dal modo dipende cosa noi poi ci facciamo (ex. Corpora parlato e formati di trascrizione)  il formato dei dati è dipendente dai livelli di annotazione presenti in un corpus: ex. Quante volte è usata la parola presa in considerazione.

L’annotazione consiste nell’attribuzione di un’etichetta ( tag ) ad una porzione specifica e limitata di testo (ex. Aggiunta di informazioni di tipo linguistico sul testo raccolto). Questo prevede l’utilizzo di linguaggi specifici o formati specifici e può essere fatto seguendo varie procedure: annotazione automatica (tramite programmi), semiautomatica o manuale. I livelli di annotazione possono essere diversi: strutturale (porzioni del testo), l’annotazione morfosintattica ( PoS = part of speech = parte del discorso ); annotazione sintattica; annotazione semantica (se troviamo una parola ambigua come la parola “canna”; io vorrei sapere se l’uso di questa parola si riferisce ad una parte del fucile o al tipo di pianta o al pino = word sense disambiguation ); annotazione pragmatica. Ex. Standard TEI ( Text enconding Initiative) The SICK ROSE 0 Rose thou art sick. The invisible worm, That flies in the night, In the howling storm: Has found out thy bed Of crimson joy: And his dark secret love Does thy life destroy. Il primo livello di annotazione è la parola (parola grafica nello specifico: è una sequenza di caratteri compresa tra due spazi o segni di interpunzione). Quando ci riferiamo alle parole grafiche usiamo il termine token, per indicare il “costituente grafico minimo in cui è suddivisibile un testo elettronico” (ci si riferisce alle singole parole nel testo ( word token ) ma anche agli altri elementi con valore unitario, come la punteggiatura, i numeri, le sigle e altri simboli). LA TOKENIZZAZIONE È un’operazione che suddivide il testo in singoli token. I programmi che lo fanno sono i tokenizzatori; la tokenizzazione dipende molto dalla lingua. Gli spazi bianchi sono un criterio per la separazione dei token : i problemi che possiamo trovare sono in alcuni casi, come nei proclitici e enclitici (ex. “se lo mette” vs.

  • 42 lemmi (“le” può appartenere a due lemmi distinti: è diverso in “le rose” e “le cercavamo insieme”) L’obiettivo dell’annotazione morfosintattica e lessicale è quello di rendere chiare le forme ambigue. In una frase come “la vecchia porta la sbarra” si avrà: (disegno 8) ETICHETTE quando annoto, ho bisogno di inserire le varie etichette che uso (ADJ = aggettivo; ADV= avverbio; ART= articolo; ARTPRE = preposizione articolata; PRO= pronome o agg pronominale). I verbi: vengono distinti i modi finiti da quelli non finiti; poi si distingue i verbi con gli enclitici, i verbi con gli ausiliari. Ci sono poi delle etichette speciali, come ABR = abbreviazione, o NEG = negazione. Si riporta poi PUN = segno di punteggiatura. Ogni corpus ha il suo TAGSET, l’insieme delle sue etichette (vedi tagset CorDIC slides 46-47). TREEBANKS o È l’etichettatura sintattica, che può avere vari formati. Un esempio di formato è detto Penn (perché viene dall’uni in Pensilvania). Ex. (ART- DE il) (NOU-CS Governo): articolo determinativo il ; nome comune singolare Governo. (NOU-CA difficoltà) = nome comune invariabile Difficoltà. o Un altro tipo di rappresentazione sintattica è quella fatta tramite gli alberi sintattici. o Un altro tipo ancora di annotazione sintattica è quello tendenze (formato CONLL) 1 il IL ART DEF|M|SING 5 SUBJ 2 governo GOVERNO NOUN COMMON | M | SING 1 ARG 3 di DI PREP MONO 2 RMOD 4 Berisha BERISHA NOUN PROPER 3 ARG 5 Appare APPARIRE VERB MAIN | IND| PRES| INTRANS| 3| SING 0 TOP 6 in IN PREP MONO 5 PREDCOMPL + SUBJ 7 difficoltà DIFFICOLTA NOUN COMMON |F|ALLVAL 6 ARG 8 #. PUNCT_5 END

Lezione 6 (30- 09-20) I due formati (CONLL e PEN) sono diversi tra di loro, anche se sono tutte e due rappresentazioni sintattiche. I formati di dati possono essere anche più complessi. ANNOTAZIONE DEL PARLATO Quando lavoro sul parlato, anche la semplice trascrizione è un’annotazione, perché il dato principale è sonoro. La trascrizione è la conversione del segnale sonoro in segni grafici. Trascrivere è un’operazione complessa; conosciamo per esempio la trascrizione fonetica (ogni simbolo grafico corrisponde ad un suono). Le sequenze ortografiche non sono uguali alle sequenze fonetiche. L’inglese per esempio ha una pronuncia strana, anche se dovremmo dire che ha una scrittura strana (perché il parlato è la prima cosa che impariamo in modo naturale). I metadati (dati che parlano dei nostri dati) necessari per la rappresentazione dell’interazione comunicativa e del suo contesto sono la situazione (luogo, tempo, occasione, ambiente, scopo), i parlanti (sesso, età, origine) e gli eventi che accompagnano il dialogo. Ricordiamoci che il parlato viene prima dello scritto. In italiano siamo abbastanza fortunati per quanto riguarda le sfalzature tra sistema grafico e fonologico, anche se qualcuna la troviamo (ex. Sciame è composto da 4 suoni, perché sci rappresenta un solo suono). Ci sono degli elementi che possono influenzare il nostro parlato: se qualcuno entra improvvisamente in una stanza mentre sto parlando di lui, se c’è rumore fuori etc. Io devo stare attenta non solo al flusso del parlato, ma all’interazione comunicativa in sé per sé. I problemi in cui possiamo incorre nella trascrizione del parlato sono:  Parole non standard: forme non registrate dalla norma ortografica (ex. Mangià al posto di mangiare) , che spesso sono associate alle varianti regionali, gergali o individuali.

il corpus LIP degli anni 90 ha adottato un modo di trascrizione che si basava su parole grafiche e turni dialogici. Il suo scopo era quello di registrare il lessico del parlato. Il risultato può essere: B: deve rilasciare una concessione edilizia # e non lo fa omette un atto del suo ufficio l’insegnante il medico delle mutua che non corre che fa che sta facendo la guardia medica e non corre eh a visitare un malato che invece lo chiama perché è grave commette anche il reato di omissione di atti d’uf insomma io fino a una settimana fa ero di un’opinione # dopo di che # così ripensandoci studiando cambio idea oggi mi dimostrano che ho ho completamente preso una toppa micidiale fondamentalmente il risultato è che manca qualcosa di importante, che si traduce con il fenomeno intonativo, che non è rappresentato. Quando parliamo, lo facciamo attraverso dei moduli intonativi; quando parlo, faccio dei “pacchetti prosodici”, ovvero fermo e riprendo il discorso quando voglio. A tutto ciò, ci aggiungo un’intonazione conclusiva. Chiamiamo queste unità prosodiche UNITA TONALI, e sono caratterizzate da profili intonativi coerenti e percettivamente identificabili (non servono delle regole per capire l’intonazione, è automatico che ci sia e che si identifichi). Questo accade anche quando ascoltiamo qualcun altro parlare una lingua diversa dalla nostra: questo significa che l’intonazione, il modello tonale è una caratteristica intrinseca e molto generale della lingua parlata. quando parliamo di intonazione distinguiamo le UNITA TONALI e le SEQUENZE TERMINATE (gruppo di unità tonali che vengono percepite come terminate, concluse a livello intonativo; corrispondono a quello che si chiama “enunciato”). Abbiamo quindi necessità di avere dei tagset che rappresentino queste unità tonali. ESEMPIO DI TAGSET LABELI (CorDIC parlato)  Ex. // = break prosodico terminale ? = break prosodico terminale (intonazione interrogativa)  … = break prosodico terminale (interrogazione sospensiva)  + = break prosodico terminale (sequenza interrotta)  / = break prosodico non terminale  [/] = falsa partenza con ripetizione  [//] = falsa partenza con ripetizione parziale  [///]= falsa partenza senza ripetizione  # = pausa o silenzio  < = inizio di una sovrapposizione  > = fine di una sovrapposizione  Etc…

Per esempio il C-ORAL-ROM (progetto europeo che ha costruito i corpora delle lingue romanze) ha creato un modello tipo: @title: progettazione urbana @ File: ifamcv @Participants: ANG, Angelo (man, B, 3, university student, conversation participant, Lecce); LAU, Laura (woman, B, 3, university student, conversation participant, Lecce) @Date: 29/05/ @Place: Florence @Situation: exchanges of ideas about a project for a university examination between students of Architecture… *LAU: no/ io &di [/] adesso vi volevo chiedere una cosa // *LUI: dimmi// *LAU: eh / questa parete qui // *LUI: mh // *LAU: curva // *LUI: mh // *LAU: va bene / se mettiamo &uns + cioè / &he [/] dobbiamo creare un movimento // *LUI: mh // *LAU: a questa parete // per allungare un po' la prospettiva / no // senza inserire un muro / così / diritto / lineare… Un enunciato è tale quando è interpretabile; ed è interpretabile quando è dotato di intonazione capibile e identificabile.

4. RICERCHE E ANALISI CORPORA E ANALISI LINGUISTICA I corpora permettono di analizzare i fenomeni linguistici da un punto di vista concreto, all’interno di contesti d’uso reali e situazioni comunicative naturali. Il linguaggio è nella mente dei parlanti, e i corpora permettono di analizzarli. Da un punto di vista quantitativo, l’analisi dei corpora permette di accedere ai valori di frequenza e alla distribuzione dei fenomeni linguistici. Ci permettono di analizzare le frequenze lessicali: quali sono le parole che utilizziamo di più? Il corpus ci permette di accedere alle frequenze, ai dati numerici, che poi possono diventare statistici. Posso quindi trarre dei dati statistici da usare in campo linguistico.

Abbiamo detto che le parole si dividono quindi in:  Parole lessicamente piene = classi aperte Contenuto semantico autonomo, perlopiù indipendente dal contesto: nomi, verbi, aggettivi e avverbi; numero alto e ampliabile.  Parole lessicamente vuote = classi chiuse Esprimono relazioni grammaticali o valori funzionali; assumono un significato in relazione con altre parole o del contesto; sono articoli, preposizioni, congiunzioni etc. il numero di elementi è basso. Sono le prime posizioni delle liste di frequenza. VOCABOLARIO DI UN CORPUS: repertorio delle forme concretamente usate in una raccolta di testi Type/ token Ratio (TTR): dividere tutte le forme di un corpus e tutti i token di quel corpus e faccio la divisione. È il rapporto tra l’ampiezza del vocabolario di un corpus (numero delle forme) e il numero delle occorrenze totali. Nella frase “repertorio delle forme concretamente usate in una raccolta di testi” ci sono 10 type e 10 token, quindi il rapporto è 1. Se la frase continuasse con “rapporto tra l’ampiezza del vocabolario di un corpus (numero delle forme) e il

numero delle occorrenze totali”, ci saranno meno types e più token, perché il type “di” è parte della forma articolata “della/del”. Più il rapporto tra questi due fattori è basso più il testo è ripetitivo, più il rapporto è uguale ad un numero alto, più il testo è variegato [secondo me è il contrario]. In generale, i types sono chiaramente sempre in numero inferiore rispetto ai token. Se mettiamo a confronto il corpus scritto e parlato, vediamo che il rapporto “ type/ token ” è 0,086 per lo scritto e 0,059 per il parlato. Questo significa che nel parlato tendiamo a ripeterci di più ed è quindi meno variato dello scritto. Un’altra analisi ha portato alla luce che nel corpus scritto sono presenti più verbi che nomi [ noun/verb ratio ], mentre nel corpus parlato sono presenti più nomi che verbi. Se calcoliamo la noun/verb ratio vediamo che nello scritto il rapporto sarà 1, (più verbi) e nel parlato 0,77 (più nomi). CONCORDANZE È uno strumento classico per l’analisi dei testi. Le prime che attestiamo sono quelle di Ugo di San Caro, che le fece sul testo biblico della Vulgata di San Girolamo, a metà del XIII. Ne è venuto fuori un indice in cui sono elencate alfabeticamente le parole presenti in una o più opere di un autore (viene indicato il capitolo, paragrafo, comma o verso in cui si trova); talvolta compariva anche il contesto in cui si trovavano. Per trovare le concordanze in modo mirato bisogna usare degli strumenti di ricerca, come il linguaggio CQL ( corpus Query language , sviluppato dall’università di Stoccarda negli anni 90). Il linguaggio CQL permette di impostare ricerche attraverso espressioni regolari. Ad esempio vado su CorDic, metto CQL e cerco [ word = “taglio”] e mi cercherà tutti casi in cui si trova la parola “taglio”. Altri esempi possono essere:  [lemma= “distruggere”]  [word= “tsglio” & pos = “NOM”]  [word = “una”] [word = “serie”] [word = “di”]  [lemma = “stare”] [pos = “VER: geru”] Lezione 9- 7/10/ I programmi di oggi ci permettono di estrarre i dati e le concordanze con facilità. Possiamo fare delle ricerche più complesse, utilizzando il linguaggio CQL, incrementato in tanti corpus e ci permette di fare ricerche.

un qualsiasi token. Per esempio se io cerco [lemma = “andare”] [] [word = “a”], mi viene fuori andava poco a, va tuttavia a, andò immediatamente a, andiamo su a, va riconosciuto a etc. il senso della mia ricerca è che cerco una qualsiasi forma di andare , seguito da un token libero (una parola a caso) e la forma a.  Il punto (. ) indica i token di un solo carattere. Se io cerco [word=”.”], mi vengono fuori le parole

composte da un carattere, come la forma è, oppure la virgola. Se io cerco [word=”…”], cerco i

token composti da 3 caratteri. Se io metto [word=”rischios.”] cerco tutte le forme che iniziano per rischios e che sono seguiti da un altro token di un solo carattere.  Il punto interrogativo: è un quantificatore; significa che un elemento è opzionale, può esserci o no. Se io cerco [lemma=”andare”][]?[word=”a”]: il punto interrogativo si riferisce al carattere alla sua sinistra (un solo carattere), all’elemento prima. Quindi in questo caso renderà opzionale il token casuale. Avrò risultati come andato a, vado a. Letteralmente, il punto interrogativo significa “zero o un elemento annullato/ facoltativo, quello alla sinistra del punto”. Se io cerco [word=”non?”] cerco una parola che può avere o no la n finale, ma che inizia comunque con no (quindi trova no e non). Se io cerco [word=”tutt?a”] , mi uscirà come risultato tutta e tuta. Come il punto interrogativo esistono altri due simboli:  Il più (+): significa che ci deve essere ALMENO una ripetizione di elementi/ un carattere in più, moltiplica o aggiunge all’elemento a sinistra. Se io cerco [word=”rischios.+”] mi trova, oltre che rischiosa, rischioso, anche rischiosissimo, rischiosità. Se io cerco quello di prima senza il punto, mi cercherà la parola rischios seguita da altre s. il punto mi serve per far sì che ci sia un carattere libero.  L’asterisco : ha lo stesso significato del punto, ma non implica per forza la presenta di un elemento. Nel senso che se io scrivo _[word=”no.”]_ cerco tutte le parole che iniziano per no e che possono anche continuare con altri caratteri; ma possono anche non farlo. Quindi i risultati varieranno dalla semplice forma no, a quelle più complicate come non, nonna, nonnismo etc. Il punto prima dell’asterisco o del più mi serve per legare l’asterisco o il più a lui e non alla lettera precedente. Se io scrivo [word=”no*”] senza il punto, mi verrà come risultato no e anche solo n. Se io cerco [pos=”VER:geru.*”] sto cercando verbi al gerundio che possono essere seguiti da qualcosa come mettendola, facendola, leggendolo, liberandosi, occupandosi. Allo stesso tempo, la presenza dell’asterisco mi rende l’aggiunta degli elementi opzionale, quindi troverò anche forme come mettendo, facendo, leggendo etc. se io volessi tutti i verbi e basta, scriverei [pos=”VER.*”] : avrò come risultato è, ha, trarre, dobbiamo, recepire etc. Il punto mi serve per dire che accanto alla forma verbale ci può essere qualsiasi forma. Se io scrivo [word=”rischi.*”] trovo rischi più un carattere almeno, come rischi, rischio. Se cerco la

parola rischi più tre caratteri, ho due modi di scriverlo: [word=”rischi…”] oppure [word=”rischi.{3}”].  La parentesi graffa mi indica che voglio 3 caratteri soli. Se uso la virgola, posso far variare i numeri. [word=”rischi.{3,7}”] mi farà trovare parole che inizino per rischi e che siano seguiti da altri caratteri, che variano da 3 a 7, quindi come rischiare, rischiatutto etc. se scrivo tra le graffe {3,} vuol dire “da 3 a infinito”. Se voglio mettere il punto interrogativo, scriverò {0,1}: il senso è “o c’è o non c’è”. Se voglio il significato del +, scrivo {1,}, nel senso “almeno uno ci deve essere”. Se voglio il significato dell’asterisco, scrivo {0,}, nel senso che può spaziare dal non esserci all’esserci.  Shift + back slash (shift + il tasto a sinistra di 1) = ||||||. Se io metto [word=”rischiosa|o”], mi prende o la parola rischiosa o solo il carattere o. se io volessi trovarli tutti e due, dovrei scrivere [word=”rischiosa|rischioso”]: in questo caso mi troverà tutte e due le parole. Se cerco [lemma=”andare”][][pos=”PRE|ARTPRE”] cerco le forme di andare , seguito da qualcosa, seguito da una preposizione, che può essere semplice o articolata. Se io cerco [word=”non?”] posso scrivere anche [word=”no|non”]. È la stessa cosa.  Parentesi tonde (): servono per fare dei raggruppamenti. Se io scrivo [pos:”ART?PRE”], Non avrò nessun risultato, perché il punto interrogativo mi toglie solo un carattere, ovvero la T. se io scrivo [pos=”(ART)?PRE”] , visto che “ART” è tra parentesi, me lo considera come carattere unico.  Il backslash : serve per cercare in un corpus quando ci sono i segni di interpunzione e altri caratteri come “?, +, ., ()” etc. questo perché sono considerati come metacaratteri, che sono utilizzati per dare significato a quello che ci scrivo prima, dopo etc. se scrivo [word=”(”] mi trova le parentesi. Se cerco [word=”(”][]+[word=”)”] cercherò un’espressione tra parentesi. Il backslash mi serve per cercare un carattere che non sia inteso come metacarattere. Se voglio cercare il backslash cerco [word=”\”]. Lezione 10- 12/10/ Ogni token è rappresentato da un elemento nelle parentesi quadre. Se metto due elementi in una stessa parentesi quadra, li cerco insieme. Se li metto in due parentesi differenti, cerco un token seguito da un altro. Ci sono vari caratteri che mi aiutano a cercare i vari elementi. Proviamo a fare dei tipi di ricerche complesse: cerchiamo tra scritto e parlato lo stesso tipo di costruzione e vediamone le differenze.  [pos= “VER.*”] significa che cerco qualsiasi verbo. Dal punto di vista dell’espressione regolare significa (l’asterisco) che VER può essere seguito da qualsiasi carattere, anche da