















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti del corso di Linguistica dei corpora
Tipologia: Appunti
1 / 55
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
















































Guarda la pagina UNIFI del corso per materiale. Da studiare obbligatoriamente:
- A. Ferrari, "Linguistica del testo", Roma, Carocci, 2014. - T. Raso, H. Mello (eds), "Spoken Corpora and Linguistic Studies", Amsterdam/Philadelphia, Benjamins, 2014. Lezione 1- 21/09/ I corpora (plurale di corpus ) sono collezioni di testi orali o scritti prodotti in contesti comunicativi reali (ex. Registrazioni di discorsi o articoli di giornale), conservati in formato elettronico e legati a strumenti di consultazione informatici. Permettono di osservare l’uso effettivo di una lingua e di verificarne le tendenze su base statistica (la lessicografia si lega anche ad altre discipline, più matematiche); sono usati per selezionare i lemmi in lessicografia, in base alla loro frequenza d’uso, e per capire le sfumature di senso di una parola in base ai contesti. Oggi, quando parliamo di corpora o corpus, ci riferiamo a collezioni di testi in formato elettronico. Attraverso i corpora si vede come i parlanti parlano e come gli scriventi scrivono. Un corpus (2 definizioni diverse):
In linguistica c’è il “problema del dato”, ossia ci si chiede spesso quali siano i dati di cui ci serviamo quando studiamo il linguaggio. La caratteristica del linguaggio umano è che ha intrinseco il metalinguismo: per parlare del linguaggio (quale facoltà comunicativa) dobbiamo per forza usare il linguaggio. Quando parliamo usiamo un’abilità acquisita (che impariamo ad usare nel tempo). Ferdinando Saussure distingue le langage (la facoltà di linguaggio), la langue (il sistema linguistico che apprendiamo) e la parola (gli atti linguistici che facciamo). Harris descrive un metodo di studio linguistico, che parte dalla registrazione degli studi linguistici; si cercano delle regolarità all’interno di quello che abbiamo appena raccolto. Questo tipo di approccio è stato criticato da Chomsky, che sostiene che i corpora (e l’analisi che ne avevano fatto) non era la cosa giusta da fare per analizzare il linguaggio. Quando si studia il linguaggio bisogna, secondo lui, rivolgerci alla componente mentale interna, che è quella che ci permette di usare il linguaggio in contesti specifici. Bisogna che il linguista si interroghi da solo sulla bontà o meno di alcune strutture linguistiche. Se ci si limita ad analizzare pochi testi, i punti/ regole che tireremo fuori sono sempre troppo specifiche. Bisogna trovare delle regole generali. La competenza linguistica ( competence ) è ciò che dobbiamo analizzare (perché ha un’ampiezza di esecuzione infinita), mentre la performance linguistica (l’esecuzione, ovvero i corpora, quelli che usano per studiare) sono assolutamente finiti. Questa sua ideologia ha influenzato la linguistica americana e in seguito tutta la linguistica mondiale. Il linguaggio è, secondo lui, la capacità mentale di produrre frasi. Vengono distinti due differenti approcci allo studio linguistico:
stava lavorando ai testi latini, in particolare all’uso della proposizione “in” nei testi di San Tommaso d’Acquino. Pensa di inserire i testi in un computer. Nella metà degli anni 50, il francese Alphonse Juilland inizia la raccolta di corpora elettronici francesi, rumeni e italiani. Il vero corpus identificato e studiato negli anni è quello creato da due statunitensi della Brown University (è il Brown corpus ): è la prima generazione dei corpora, che viene presa come modello. Assomma un milione di parole, che viene realizzato negli anni 60 fa Francis e Kuĉera. Negli anni 70 viene fatto dell’inglese parlato ( London-Lund Corpus ). Nel 1987 Sinclair pubblica un dizionario per la Collins, completamente costruito spulciando nel Birmingham collection of english texts , con 18 milioni di parole. Nel 1994 si pubblica il British National Corpus (BNC ), corpus di riferimento all’inglese contemporaneo di 100 milioni di parole, che resta il prototipo di corpora elettronico per molto tempo. Rappresenta un corpus di seconda generazione. Altra tappa importante: nel 2003 la rivista Computational linguistics pubblica un numero dedicato al Web as Corpus : siamo nella terza generazione di corpora, derivati dalla rete. [Le parole si prendono da romanzi molto famosi, come La fattoria degli animali di Orwell, da cui sono state prese circa 30 mila parole, Guerra e Pace di Tolstoj, di 455 mila parole, Lolita di Nabokov, da cui son state prese 112 mila parole etc.] IL WEB Il Web rappresenta il più grande agglomerato di dati testuali che sia mai stato a disposizione dell’uomo, di libero accesso e in continua espansione. Ma è il Motore di ricerca quello che indaga sul web. E il motore di ricerca promuove i siti che hanno maggiori collegamenti o visite. Noi non conosciamo, tra l’altro, neanche le azioni del motore di ricerca, non sappiamo da dove prende questi risultati (trovano e ordinano i risultati in base a criteri non linguistici, come il numero di accessi ad un sito o il numero di collegamenti). I dati non sono controllabili (possono essere modificati da chiunque), quindi non sono adatti per essere utilizzati come base per uno studio scientifico. Il Web è troppo poco controllato per essere considerato un corpus. Il web rappresenta, comunque, il canale primario di accesso all’uso linguistico scritto, sia in fruizione che in produzione (per esempio si stanno sviluppando i blog e le chat, che diffondono un nuovo modo di scrivere). Il Web quindi non è un corpus ; ma possiamo utilizzarlo per creare un corpora. Quindi possiamo affermare la frase web corpora: si possono creare in varie lingue, tarati sulla dimensione del BNC, attraverso risorse stabili, annotabili e verificabili. Per esempio il gruppo di ricerca Wacky ( web as corpus kool ynitiative ) ha
creato 4 grandi corpora (inglese, francese, italiano e tedesco) di 1,5/2 miliardi di parole. Lo Sketch Engine sta creando i Ten Ten Corpora , che puntano ai 10 miliardi di parole. Il web è una gran fonte di dati. Lezione 3 (23/09/20) CRITERI DI COSTRUZIONE Il corpus è definito come un campione statistico: il corpus dovrebbe rappresentare la lingua, quindi noi analizziamo i vari corpus perché poi possa rappresentare la nostra lingua in qualche modo. I testi non vengono studiati in quanto testi, ma in quanto rappresentazione della nostra lingua. Li studiamo ovviamente in rapporto con altri testi. Non si studia il testo in sé e per sé, ma il testo in funzione di qualcosa di più grande, ovvero di rappresentazione della lingua. Ex. Invece di fare uno studio di tutta la popolazione per cercare qualcosa, prendiamo un campione, il corpus , che rappresenta tutta la popolazione. L’importante è che il campione sia simile alla popolazione (qualitativamente e quantitativamente), rappresentativo della popolazione, in modo che si pensi che valga per tutta la popolazione. La popolazione è un insieme di individui che hanno certi comportamenti o reagiscono ad un determinato fenomeno in un motivo. La popolazione però è troppo grande; costruiamo quindi dei campioni ridotti, nel senso che questi campioni rappresentano una parte della popolazione. Il campione può variare in base all’età, al genere, alla zona geografica presa in considerazione etc. Costruire un solo corpus che rispecchi la lingua nella sua integrità totale è quasi impossibile. Ciò che è difficile da definire è l’unità statistica di riferimento: i criteri che vengono usati per combinare i corpora e dare loro una rappresentatività sono di due tipi: Criterio situazionale: invece di rimandare agli eventi comunicativi si rimanda alle situazioni in cui si producono tali eventi per sceglierle come corpora; l’unità statistica è il testo o, più in generale, l’evento comunicativo (scritto o orale) Criterio demografico: variazione rispetto all’età, sesso, professione dei parlanti. Non si campionano gli eventi linguistici (che, come abbiamo appurato, sono troppi da classificare), ma si campionano i parlanti (più semplice da fare, perché con più cose in comune). L’unità statistica è il parlante stesso. È un criterio che si usa principalmente con i corpora di parlato (in caso di testo scritto, dovremmo sapere tutto dell’autore; nel parlato, possiamo direttamente chiedere e registrare i parlanti. Il parlante viene schedato rispetto alle sue caratteristiche).
La BNC ha costruito un corpus di 90 milioni di parole (per quanto riguarda BNC = written: più di 3000 testi; circa 28k di parole per testo. Per quanto riguarda BNC (spoken): 10 milioni di parole; 915 samples, con varianti di interazione (dialogo/ monologo etc.) o varianti regionali; il campionamento è avvenuto anche secondo un criterio situazionale (ambito educativo/ business/ etc), e anche secondo un criterio demografico (età, lavoro, sesso).). Il corpus design C – ORAL- ROM è stata una risorsa per le lingue romanze, che contiene le varietà della lingua parlata a seconda del luogo. Questa raccolta è stata costruita a partire da alcuni criteri: il primo criterio è la distinzione tra registro formale e informale. A loro volta, registro formale e informale hanno delle sotto classificazioni di raccolta: per esempio il registro formale ha dei sottogruppi quali “raccolta delle info in contesto naturale” (come dibattito politico, insegnamento etc.), o “raccolta nei media” (come talk show, reportage etc.); quello informale ha il sottogruppo del “telefono” (conversazioni private o conversazioni uomo – macchina)… L’impresa di costruire un corpus parte con la costruzione del suo design , ovvero di come è strutturato. Dopodiché, si passa all’acquisizione del materiale per costruirlo: si distingueranno quindi i testi scritti disponibili in formato digitale (come testi giornalistici o biblioteche online o web corpora+**), i testi non disponibili in formato digitale (acquisizione tramite dettatura o scannerizzazione), i testi parlati (acquisizione segnale audio o trascrizione del parlato). Con i testi parlati la situazione si complica un po', perché bisogna scegliere la giusta situazione dalla quale prendere la registrazione, e poi inserirlo nel corpus design. Inoltre, il testo parlato implica una registrazione che poi va trascritta. **I web corpora prendono i dati da internet (per l’Italiano: corpora itWaC/ itTenTen/ RIDIRE/ Paisà ). È sufficiente scaricare i programmi crawler , che scaricano pagine web intere. Il problema delle pagine web è che non contengono solo il testo in sé per sé, ma raccolgono al suo interno sporcizia, immagini, etc. Quindi, una volta scaricato, bisognerà pulire dalla sporcizia e lasciare solo l’articolo che ci interessa. ( HTML cleaning ). Spesso le cose derivate dal web sono poco controllate per quanto riguarda il corpus design. FORMATO E ANNOTAZIONE i corpora sono archiviati in un formato elettronico: il formato deve essere reso esplicito da chi compila un corpus. Bisogna definirne i criteri di raccolta. il modo in cui sono rappresentati i dati cambia da corpus a corpus: dal modo dipende cosa noi poi ci facciamo (ex. Corpora parlato e formati di trascrizione) il formato dei dati è dipendente dai livelli di annotazione presenti in un corpus: ex. Quante volte è usata la parola presa in considerazione.
L’annotazione consiste nell’attribuzione di un’etichetta ( tag ) ad una porzione specifica e limitata di testo (ex. Aggiunta di informazioni di tipo linguistico sul testo raccolto). Questo prevede l’utilizzo di linguaggi specifici o formati specifici e può essere fatto seguendo varie procedure: annotazione automatica (tramite programmi), semiautomatica o manuale. I livelli di annotazione possono essere diversi: strutturale (porzioni del testo), l’annotazione morfosintattica ( PoS = part of speech = parte del discorso ); annotazione sintattica; annotazione semantica (se troviamo una parola ambigua come la parola “canna”; io vorrei sapere se l’uso di questa parola si riferisce ad una parte del fucile o al tipo di pianta o al pino = word sense disambiguation ); annotazione pragmatica. Ex. Standard TEI ( Text enconding Initiative)
Lezione 6 (30- 09-20) I due formati (CONLL e PEN) sono diversi tra di loro, anche se sono tutte e due rappresentazioni sintattiche. I formati di dati possono essere anche più complessi. ANNOTAZIONE DEL PARLATO Quando lavoro sul parlato, anche la semplice trascrizione è un’annotazione, perché il dato principale è sonoro. La trascrizione è la conversione del segnale sonoro in segni grafici. Trascrivere è un’operazione complessa; conosciamo per esempio la trascrizione fonetica (ogni simbolo grafico corrisponde ad un suono). Le sequenze ortografiche non sono uguali alle sequenze fonetiche. L’inglese per esempio ha una pronuncia strana, anche se dovremmo dire che ha una scrittura strana (perché il parlato è la prima cosa che impariamo in modo naturale). I metadati (dati che parlano dei nostri dati) necessari per la rappresentazione dell’interazione comunicativa e del suo contesto sono la situazione (luogo, tempo, occasione, ambiente, scopo), i parlanti (sesso, età, origine) e gli eventi che accompagnano il dialogo. Ricordiamoci che il parlato viene prima dello scritto. In italiano siamo abbastanza fortunati per quanto riguarda le sfalzature tra sistema grafico e fonologico, anche se qualcuna la troviamo (ex. Sciame è composto da 4 suoni, perché sci rappresenta un solo suono). Ci sono degli elementi che possono influenzare il nostro parlato: se qualcuno entra improvvisamente in una stanza mentre sto parlando di lui, se c’è rumore fuori etc. Io devo stare attenta non solo al flusso del parlato, ma all’interazione comunicativa in sé per sé. I problemi in cui possiamo incorre nella trascrizione del parlato sono: Parole non standard: forme non registrate dalla norma ortografica (ex. Mangià al posto di mangiare) , che spesso sono associate alle varianti regionali, gergali o individuali.
il corpus LIP degli anni 90 ha adottato un modo di trascrizione che si basava su parole grafiche e turni dialogici. Il suo scopo era quello di registrare il lessico del parlato. Il risultato può essere: B: deve rilasciare una concessione edilizia # e non lo fa omette un atto del suo ufficio l’insegnante il medico delle mutua che non corre che fa che sta facendo la guardia medica e non corre eh a visitare un malato che invece lo chiama perché è grave commette anche il reato di omissione di atti d’uf
Per esempio il C-ORAL-ROM (progetto europeo che ha costruito i corpora delle lingue romanze) ha creato un modello tipo: @title: progettazione urbana @ File: ifamcv @Participants: ANG, Angelo (man, B, 3, university student, conversation participant, Lecce); LAU, Laura (woman, B, 3, university student, conversation participant, Lecce) @Date: 29/05/ @Place: Florence @Situation: exchanges of ideas about a project for a university examination between students of Architecture… *LAU: no/ io &di [/] adesso vi volevo chiedere una cosa // *LUI: dimmi// *LAU: eh / questa parete qui // *LUI: mh // *LAU: curva // *LUI: mh // *LAU: va bene / se mettiamo &uns + cioè / &he [/] dobbiamo creare un movimento // *LUI: mh // *LAU: a questa parete // per allungare un po' la prospettiva / no // senza inserire un muro / così / diritto / lineare… Un enunciato è tale quando è interpretabile; ed è interpretabile quando è dotato di intonazione capibile e identificabile.
4. RICERCHE E ANALISI CORPORA E ANALISI LINGUISTICA I corpora permettono di analizzare i fenomeni linguistici da un punto di vista concreto, all’interno di contesti d’uso reali e situazioni comunicative naturali. Il linguaggio è nella mente dei parlanti, e i corpora permettono di analizzarli. Da un punto di vista quantitativo, l’analisi dei corpora permette di accedere ai valori di frequenza e alla distribuzione dei fenomeni linguistici. Ci permettono di analizzare le frequenze lessicali: quali sono le parole che utilizziamo di più? Il corpus ci permette di accedere alle frequenze, ai dati numerici, che poi possono diventare statistici. Posso quindi trarre dei dati statistici da usare in campo linguistico.
Abbiamo detto che le parole si dividono quindi in: Parole lessicamente piene = classi aperte Contenuto semantico autonomo, perlopiù indipendente dal contesto: nomi, verbi, aggettivi e avverbi; numero alto e ampliabile. Parole lessicamente vuote = classi chiuse Esprimono relazioni grammaticali o valori funzionali; assumono un significato in relazione con altre parole o del contesto; sono articoli, preposizioni, congiunzioni etc. il numero di elementi è basso. Sono le prime posizioni delle liste di frequenza. VOCABOLARIO DI UN CORPUS: repertorio delle forme concretamente usate in una raccolta di testi Type/ token Ratio (TTR): dividere tutte le forme di un corpus e tutti i token di quel corpus e faccio la divisione. È il rapporto tra l’ampiezza del vocabolario di un corpus (numero delle forme) e il numero delle occorrenze totali. Nella frase “repertorio delle forme concretamente usate in una raccolta di testi” ci sono 10 type e 10 token, quindi il rapporto è 1. Se la frase continuasse con “rapporto tra l’ampiezza del vocabolario di un corpus (numero delle forme) e il
numero delle occorrenze totali”, ci saranno meno types e più token, perché il type “di” è parte della forma articolata “della/del”. Più il rapporto tra questi due fattori è basso più il testo è ripetitivo, più il rapporto è uguale ad un numero alto, più il testo è variegato [secondo me è il contrario]. In generale, i types sono chiaramente sempre in numero inferiore rispetto ai token. Se mettiamo a confronto il corpus scritto e parlato, vediamo che il rapporto “ type/ token ” è 0,086 per lo scritto e 0,059 per il parlato. Questo significa che nel parlato tendiamo a ripeterci di più ed è quindi meno variato dello scritto. Un’altra analisi ha portato alla luce che nel corpus scritto sono presenti più verbi che nomi [ noun/verb ratio ], mentre nel corpus parlato sono presenti più nomi che verbi. Se calcoliamo la noun/verb ratio vediamo che nello scritto il rapporto sarà 1, (più verbi) e nel parlato 0,77 (più nomi). CONCORDANZE È uno strumento classico per l’analisi dei testi. Le prime che attestiamo sono quelle di Ugo di San Caro, che le fece sul testo biblico della Vulgata di San Girolamo, a metà del XIII. Ne è venuto fuori un indice in cui sono elencate alfabeticamente le parole presenti in una o più opere di un autore (viene indicato il capitolo, paragrafo, comma o verso in cui si trova); talvolta compariva anche il contesto in cui si trovavano. Per trovare le concordanze in modo mirato bisogna usare degli strumenti di ricerca, come il linguaggio CQL ( corpus Query language , sviluppato dall’università di Stoccarda negli anni 90). Il linguaggio CQL permette di impostare ricerche attraverso espressioni regolari. Ad esempio vado su CorDic, metto CQL e cerco [ word = “taglio”] e mi cercherà tutti casi in cui si trova la parola “taglio”. Altri esempi possono essere: [lemma= “distruggere”] [word= “tsglio” & pos = “NOM”] [word = “una”] [word = “serie”] [word = “di”] [lemma = “stare”] [pos = “VER: geru”] Lezione 9- 7/10/ I programmi di oggi ci permettono di estrarre i dati e le concordanze con facilità. Possiamo fare delle ricerche più complesse, utilizzando il linguaggio CQL, incrementato in tanti corpus e ci permette di fare ricerche.
un qualsiasi token. Per esempio se io cerco [lemma = “andare”] [] [word = “a”], mi viene fuori andava poco a, va tuttavia a, andò immediatamente a, andiamo su a, va riconosciuto a etc. il senso della mia ricerca è che cerco una qualsiasi forma di andare , seguito da un token libero (una parola a caso) e la forma a. Il punto (. ) indica i token di un solo carattere. Se io cerco [word=”.”], mi vengono fuori le parole
token composti da 3 caratteri. Se io metto [word=”rischios.”] cerco tutte le forme che iniziano per rischios e che sono seguiti da un altro token di un solo carattere. Il punto interrogativo: è un quantificatore; significa che un elemento è opzionale, può esserci o no. Se io cerco [lemma=”andare”][]?[word=”a”]: il punto interrogativo si riferisce al carattere alla sua sinistra (un solo carattere), all’elemento prima. Quindi in questo caso renderà opzionale il token casuale. Avrò risultati come andato a, vado a. Letteralmente, il punto interrogativo significa “zero o un elemento annullato/ facoltativo, quello alla sinistra del punto”. Se io cerco [word=”non?”] cerco una parola che può avere o no la n finale, ma che inizia comunque con no (quindi trova no e non). Se io cerco [word=”tutt?a”] , mi uscirà come risultato tutta e tuta. Come il punto interrogativo esistono altri due simboli: Il più (+): significa che ci deve essere ALMENO una ripetizione di elementi/ un carattere in più, moltiplica o aggiunge all’elemento a sinistra. Se io cerco [word=”rischios.+”] mi trova, oltre che rischiosa, rischioso, anche rischiosissimo, rischiosità. Se io cerco quello di prima senza il punto, mi cercherà la parola rischios seguita da altre s. il punto mi serve per far sì che ci sia un carattere libero. L’asterisco : ha lo stesso significato del punto, ma non implica per forza la presenta di un elemento. Nel senso che se io scrivo _[word=”no.”]_ cerco tutte le parole che iniziano per no e che possono anche continuare con altri caratteri; ma possono anche non farlo. Quindi i risultati varieranno dalla semplice forma no, a quelle più complicate come non, nonna, nonnismo etc. Il punto prima dell’asterisco o del più mi serve per legare l’asterisco o il più a lui e non alla lettera precedente. Se io scrivo [word=”no*”] senza il punto, mi verrà come risultato no e anche solo n. Se io cerco [pos=”VER:geru.*”] sto cercando verbi al gerundio che possono essere seguiti da qualcosa come mettendola, facendola, leggendolo, liberandosi, occupandosi. Allo stesso tempo, la presenza dell’asterisco mi rende l’aggiunta degli elementi opzionale, quindi troverò anche forme come mettendo, facendo, leggendo etc. se io volessi tutti i verbi e basta, scriverei [pos=”VER.*”] : avrò come risultato è, ha, trarre, dobbiamo, recepire etc. Il punto mi serve per dire che accanto alla forma verbale ci può essere qualsiasi forma. Se io scrivo [word=”rischi.*”] trovo rischi più un carattere almeno, come rischi, rischio. Se cerco la
parola rischi più tre caratteri, ho due modi di scriverlo: [word=”rischi…”] oppure [word=”rischi.{3}”]. La parentesi graffa mi indica che voglio 3 caratteri soli. Se uso la virgola, posso far variare i numeri. [word=”rischi.{3,7}”] mi farà trovare parole che inizino per rischi e che siano seguiti da altri caratteri, che variano da 3 a 7, quindi come rischiare, rischiatutto etc. se scrivo tra le graffe {3,} vuol dire “da 3 a infinito”. Se voglio mettere il punto interrogativo, scriverò {0,1}: il senso è “o c’è o non c’è”. Se voglio il significato del +, scrivo {1,}, nel senso “almeno uno ci deve essere”. Se voglio il significato dell’asterisco, scrivo {0,}, nel senso che può spaziare dal non esserci all’esserci. Shift + back slash (shift + il tasto a sinistra di 1) = ||||||. Se io metto [word=”rischiosa|o”], mi prende o la parola rischiosa o solo il carattere o. se io volessi trovarli tutti e due, dovrei scrivere [word=”rischiosa|rischioso”]: in questo caso mi troverà tutte e due le parole. Se cerco [lemma=”andare”][][pos=”PRE|ARTPRE”] cerco le forme di andare , seguito da qualcosa, seguito da una preposizione, che può essere semplice o articolata. Se io cerco [word=”non?”] posso scrivere anche [word=”no|non”]. È la stessa cosa. Parentesi tonde (): servono per fare dei raggruppamenti. Se io scrivo [pos:”ART?PRE”], Non avrò nessun risultato, perché il punto interrogativo mi toglie solo un carattere, ovvero la T. se io scrivo [pos=”(ART)?PRE”] , visto che “ART” è tra parentesi, me lo considera come carattere unico. Il backslash : serve per cercare in un corpus quando ci sono i segni di interpunzione e altri caratteri come “?, +, ., ()” etc. questo perché sono considerati come metacaratteri, che sono utilizzati per dare significato a quello che ci scrivo prima, dopo etc. se scrivo [word=”(”] mi trova le parentesi. Se cerco [word=”(”][]+[word=”)”] cercherò un’espressione tra parentesi. Il backslash mi serve per cercare un carattere che non sia inteso come metacarattere. Se voglio cercare il backslash cerco [word=”\”]. Lezione 10- 12/10/ Ogni token è rappresentato da un elemento nelle parentesi quadre. Se metto due elementi in una stessa parentesi quadra, li cerco insieme. Se li metto in due parentesi differenti, cerco un token seguito da un altro. Ci sono vari caratteri che mi aiutano a cercare i vari elementi. Proviamo a fare dei tipi di ricerche complesse: cerchiamo tra scritto e parlato lo stesso tipo di costruzione e vediamone le differenze. [pos= “VER.*”] significa che cerco qualsiasi verbo. Dal punto di vista dell’espressione regolare significa (l’asterisco) che VER può essere seguito da qualsiasi carattere, anche da