Scarica Linguistica digitale e più Appunti in PDF di Linguistica solo su Docsity!
MOD. 1 FONDAMENTI DI LINGUISTICA DEI CORPORA
La linguistica è una disciplina empirica. Le sue generalizzazioni traggono il fondamento da dati empirici. I principi teorici rendono conto dei fatti di lingua. CHOMSKY: LINGUISTICA INTERNA ED ESTERNA Grammaticalità vs Accettabilità La prima deriva dall’osservanza delle regole della grammatica, nella costruzione di una frase: es. Incolori verdi idee dormono furiosamente La seconda deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarle in contesti appropriati: es. Dovremmo riparare la sedia infelice es. Domani ti messaggio La frase: es. Ho visto un’esile balena Per quanto sia improbabile nella ordinaria comunicazione linguistica, è perfettamente grammaticale. A partire dalla pubblicazione delle Strutture della sintassi (1957), i dati linguistici sono soprattutto i giudizi di grammaticalità. Secondo Chomsky, la Linguistica interna riguarda lo studio della competenza (Grammatica Generativa), la linguistica esterna riguarda lo studio dell'esecuzione. Parallelamente, ed in polemica con la GGT, si sviluppa un approccio nel quale i dati sono il prodotto dell’attività linguistica dei parlanti. Herdan reinterpreta la dicotomia langue/parole in termini di popolazione statistica/campione statistico. TIPI DI DATI LINGUISTICI Dati naturalistici Aspetto positivo: naturalezza del contesto. Aspetto negativo: difficoltà di controllo delle variabili pertinenti. Dati controllati sperimentalmente Aspetto positivo: astrazione ed idealizzazione. Aspetto negativo: interferenza dello sperimentatore. La linguistica computazionale ha bisogno di entrambe le procedure di raccolta dei dati.
CORPORA E TRATTI DEFINITORI
Esistono diverse definizioni di corpus:
- Testo che raccoglie occorrenze di lingua in uso, scelte per caratterizzare uno stato o una varietà linguistica (Sinclair 1991: 171).
- Una raccolta di testi che si assume essere rappresentativa per una determinata lingua, messa insieme per essere usata ai fini di un’analisi linguistica (Tognini – Bonelli 2001: 2).
- Una raccolta di esempi di occorrenze di lingua in uso, che consistono di qualsiasi cosa che vada da poche frasi sino a un insieme di testi scritti o registrazioni, che sono stati raccolti per lo studio linguistico. Più recentemente, raccolte di testi memorizzati a cui si accede elettronicamente (Hunston 2002: 2).
- Una raccolta di testi o parti di testi su cui si può condurre una qualche analisi linguistica generale. In tempi recenti, si è arrivati a considerare un corpus come un insieme di testi reso disponibile in forma computerizzata per scopi di analisi linguistica (Meyer 2002)
- Un sacco di testo, memorizzato su un computer (Leech 1992: 106).
- Una raccolta di parti di lingua selezionate e ordinate secondo espliciti criteri linguistici per essere usate come campioni della lingua (Eagles 1996). Il corpus è dunque un campione estratto da una popolazione più ampia selezionato per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero consentirci di inferire qualcosa anche della popolazione da cui il campione è stato tratto, dovrebbero cioè essere generalizzabili (1,2,6). Scarto esistente tra la concezione attuale di corpus e un'epoca in cui la ricerca linguistica, benché empiricamente fondata e orientata a indagini su esempi di uso naturale, non era ancora supportata dal computer (3,4). Modernamente un corpus è implicitamente sempre informatizzato, perché si intende che possa essere accessibile elettronicamente e interrogabile con un computer. Di fatto è costituito da una serie di documenti solitamente in formato testo (ad es. fi le con estensione .txt) raccolti in cartelle (directory). Definizioni scherzosa che allude al fatto che i corpora oggi hanno superato i 500 milioni di parole di testo costituendo veri e propri magazzini testuali (5). Parafrasando, un corpus in linguistica un insieme di testi che si assume essere rappresentativo dello stato di una lingua, o di una varietà di essa, al fine di ottenere una descrizione complessiva. Il luogo naturale dei dati linguistici è costituito dai testi. Una collezione di testi raccolti e organizzati per rispondere alle esigenze dell’analisi linguistica è detta corpus. Esso è un sottoinsieme di tutte le possibili produzioni linguistiche, ossia ne costituisce un campione. PROBLEMA: Campionamento da una popolazione infinita o, quantomeno, non delimitabile
- dimensione del campione (possibilità offerte dalla tecnologia-corpora dinamici);
- metodo di campionamento (bilanciamento campioni stratificati) La tipologia di un corpus è determinata da:
- Generalità: specialistico/generale;
- Modalità: lingua scritta/lingua parlata/misto;
- Cronologia: sincronico/diacronico;
- Lingua: monolingue/multilingue.
Il campionamento è fondamentale: tenere in considerazione questi parametri, esterni all’uso linguistico, permette di fissare le molteplici dimensioni di variabilità intrinseca alla popolazione di cui il corpus intende fornire una rappresentazione. Se io faccio un campionamento faccio riflessioni a livello statistico. La variazione linguistica in termini statistici: esiste una relazione tra uno dei parametri contestuali (variabile indipendente) con un certo tipo di comportamento linguistico osservato, è quindi l’elemento che voglio prendere in considerazione (variabile dipendente). Un esempio è l’uso della parola cioè: la variabile indipendente è l’età o il periodo storico mentre la variabile dipendente è come si utilizza cioè/come si utilizzano le emoji. Altra questione è quanto deve essere grande il corpus? Decisioni rilevanti relative all’ampiezza del corpus (conteggio parole): La quantità e proporzione di testi da includere per ogni tipologia individuata, la decisione se includere testi interi o porzioni (campionamento casuale). La costruzione del corpus dipende dagli obiettivi. Se obiettivo è:
- offrire uno spaccato della lingua in uso (corpus di riferimento) → corpus molto ampio (molti milioni di parole).
- indagare un fenomeno specifico allora non necessariamente enorme, ma molto rappresentativo in base ai parametri individuati L’utilizzo (o la creazione) di un corpus non può prescindere dalla conoscenza del modo in cui sono stati affrontati i problemi della variabilità della lingua e della necessità di fornire una rappresentazione bilanciata della variabilità della popolazione. Se usiamo un corpus senza conoscere il modo in cui esso è stato costruito, qualsiasi deduzione fatta risulterebbe un azzardo poiché ci porterebbe, ad esempio, a confondere la lingua parlata con quella scritta, quella dei giornali con la letteratura ecc. Esempio corpora: BNC: British National Corpus Corpus generico di riferimento dell’inglese britannico contemporaneo (1970 al 1993) → come funzionava l’inglese tra il 1970 e il 1993? Ampiezza di 100 milioni di parole, 90 di inglese scritto e 10 di inglese orale (rapporto di 9:1). SCRITTO: variazione diafasica Testi letterari e creativi (25%) e prosa informativa (75%) (rapporto di 1:3). La prosa informativa è equamente divisa tra: scienze applicate, arti, fede e pensiero, commercio e finanza, tempo libero, scienze naturali e pure, scienze sociali, attualità. 90 milioni di parole (60% proveniente da libri, 25% dai periodici, il 5-10% da forme miste di materiale pubblicato, il 5-10% da materiale scritto non pubblicato e 5% di parlato-scritto e parlato recitato). ORALE: distinzione tra dati raccolti su base demografica (età, sesso, occupazione, provenienza
geografica) (4 milioni di parole) e dati selezionati sulla base del contesto più o meno istituzionale (riunioni di lavoro, riunioni sindacali, lezioni accademiche, telegiornali, incontri ufficiali di governo, sedute parlamentari, telefonate radiofoniche ecc ecc.) (6 milioni). Esempio 2 Corpus KIParla: corpus italiano di lingua orale Differenziazione geografica (Torino vs Bologna) perno nella costruzione del corpus (specialistico). Situazione sociolinguistica delle due città:
- compresenza di italiano e dialetto;
- meta di mobilità interna, così come di flussi migratori esterni. Collocazione sociale degli individui: i parlanti coinvolti nelle registrazioni sono differenziati primariamente per età, titolo di studio e occupazione (parametri particolarmente significativi). Tipologia di interazioni: interviste semistrutturate e, in contesto universitario, lezioni ed esami, differenziate in base a parametri situazionali:
- relazione simmetrica/asimmetrica tra i partecipanti,
- presenza/assenza di un argomento predefinito,
- presenza/assenza di norme per la presa di turno, ecc. Tutti i dati sono registrati a microfono palese. Le registrazioni sono state trascritte utilizzando il software ELAN, che permette l’allineamento della trascrizione con la traccia audio. Per le trascrizioni, è stata adottata una versione semplificata del sistema Jefferson, frequentemente utilizzato nell’analisi della conversazione. Organizzazione interna:
- moduli indipendenti che permettono nel tempo l’aggiunta di nuovi moduli;
- medesimi design e metadati, trascritti da ELAN, e resi disponibili attraverso NoSketch Engine;
- diverse dimensioni della variazione linguistica e possono raccogliere dati da diverse aree geografiche. KIParla è un potenziale corpus monitor (monitora l’uso della lingua) aperto a integrazioni e aggiornamenti nel tempo. Ad oggi, il corpus KIParla è costituito da due moduli:
- Il modulo KIP: registrazioni nelle Università di Torino e Bologna in cinque tipi di situazioni comunicative (lezioni universitarie, 25h : 45m : 12s, esami, 6h : 20m : 22s, ricevimento studenti, 6h : 48m : 19s, interviste semistrutturate a studenti, 14h : 6m : 15s, conversazione libera, 16h : 23m : 33s.
- Il modulo ParlaTO: conversazioni di più di un centinaio di parlanti con diversa provenienza geografica e diversa collocazione sociale, raccolte a Torino fra il 2018 e il 2020, prevalentemente attraverso interviste individuali e discussioni di gruppo su vari temi (studio, lavoro, attività nel tempo libero o in pensione, ricordi del passato, vita in città, ecc.). Le ore di registrazione sono ripartite in modo pressoché paritario fra parlanti giovani, adulti anziani.
Lo standard deve essere estensibile e la standardizzazione deve distinguere 3 livelli:
- Il formato dei file con cui i testi sono codificati (.txt, Unicode).
- La modalità con cui avviene l’annotazione (standard .xml).onde facilitare e condividere la lettura e l’interpretazione dei fi le annotati, è opportuno rifarsi a uno standard. In questo ambito, lo standard xml (eXtensible Markup Language) rappresenta una scelta utilizzata da molti corpora moderni. È bene sottolineare però che l’xml stabilisce le regole con cui comporre i marcatori.
- I Contenuti dell’annotazione (.xml e grammatiche DTD Document Type Definition –elenco dei tag, struttura, caratteristiche). Esempio: Corpus specialistico e diacronico: testi giornalistici scritti > tutti gli articoli pubblicati nel quotidiano “la Repubblica” dal 1985 al 2000. Disponibile online, sito Dipartimento di Interpretazione e Traduzione di Forlì (Università Alma Mater Studiorum di Bologna). Pubblicato tramite la piattaforma NoSketchEngine. Per accedere:
- corpora.dipintra.it
- Cliccare pulsante blu “Public” - per accedere a NoSketchEngine
- Nel menù a tendina in alto, selezionare “Repubblica Il corpus Repubblica è annotato integralmente per lemma e per parte del discorso. Al link seguente sono riportati tutti i tag utilizzati per l’annotazione per parti del discorso del corpus. CREAZIONE E TIPOLOGIE DI CORPORA I criteri che guidano la creazione di corpora rispondono a domande/obiettivi diversi. Sulla base di tali criteri si potrebbero classificare i corpora in tipologie. La classificazione va considerata a solo a scopo orientativo.
- corpora generici vs corpora specialistici,
- corpora di parlato vs corpora di scritto,
- corpora di testi prodotti da parlanti nativi vs non nativi,
- corpora monolingue vs bilingue,
- comparabili vs paralleli,
- annotati vs non annotati. Distinguendo in corpora grezzi e corpora annotati si indica la presenza o meno in un corpus di un qualche livello di annotazione linguistica. BNC ad esempio contiene annotazione per parti del discorso (POS). Corpora annotati grammaticalmente (POS) prendono il nome dal modello di grammatica su cui è basata l’annotazione. Ci sono due modelli sintattici:
- analisi dei costituenti di frase: segmentano la frase in gruppi di parole in relazione logica tra di loro (ad es. Penn Treebank)
- relazioni di dipendenza: specificano le relazioni gerarchiche tra il verbo e i suoi argomenti (ad es. PDT). 1. Corpora e variazione diafasica Lo studio della variazione diafasica introduce la distinzione tra:
- Corpus di riferimento: raccoglie testi di tutte le varietà diafasiche,diastratiche, diatopiche e diamesiche, considerando le caratteristiche di una lingua nel suo insieme.
- Corpus specialistico: circoscritto ad un singolo genere o dominio (es.solo testi di argomento medico rappresentativi esclusivamente della lingua dei medici).
1.1 Corpora generici di riferimento Gli studi grammaticali necessitano di grandi quantità di parole organizzate in gamma di testi il più possibile varia e completa (ad es. costruire una grammatica) affinché sia possibile riscontrare il maggior numero di fenomeni strutturali di una lingua. Oggi questo tipo di corpus raggiunge le centinaia di milioni di parole, etichettate grammaticalmente, e copre un’enorme quantità di testi scritti e orali. Al suo interno è possibile individuare ulteriori distinzioni inglese in BNC vs americano in COCA. Troviamo inoltre un’ulteriore distinzione tra:
- corpus statico: fornisce quadro di una lingua attraverso un numero di parole prefissato e raccolte in un arco temporale preciso (ad es. BNC e ANC),
- corpus dinamico/monitoraggio: costantemente aggiornato con testi nuovi andando ad aumentare il numero di parole campionate (KIParla, COCA). I corpora generici di riferimento sono usati anche per gli studi di genere (a metà tra la sociolinguistica e l’analisi del discorso) perché mettono in rilievo distribuzioni di frequenza diversamente associati al sesso, all’età o alla condizione sociale del parlante. Nei corpora di riferimento sono dunque l’ampiezza e la gamma di tipologie testuali che determinano il criterio dominante di selezione dei testi. 1.2 Corpora specialistici Lo studio della variazione di genere, registro o tipologia testuale e ambito disciplinare si avvale in primo luogo di corpora specialistici. I corpora specialistici sono generalmente più piccoli rispetto ai corpora di riferimento (in media 1 o 2 milioni di parole). Tra i più noti:
- Repubblica, per italiano
- il MICASE (Michigan Corpus of Academic Spoken English) per l’inglese accademico orale nella varietà americana (1.8 milioni di parole che corrispondo a 200 ore di parlato trascritto offrendo una rappresentazione della lingua in uso nei diversi contesti accademici dell’Università del Michigan).È infatti il contesto d’uso a guidare il campionamento dei testi, che sono classificati a seconda del tipo di evento discorsivo, legato alle diverse forme di interazione che hanno luogo all’università e alle caratteristiche dei parlanti;
- il BASE (British Academic Spoken English) di 1.6 milioni di parole (Università di Warwick e Reading). Rispetto al micase, il base costituisce un avanzamento per la natura multimediale dei dati: esso comprende infatti i video di almeno una parte delle lezioni e dei seminari. 2.Corpora e variazioni diamesica La lingua scritta ha caratterizzato i primi corpora invece i corpora di solo parlato sono molto più recenti, per via della complessità che accompagna i dati orali rispetto allo scritto. Il potenziamento dei mezzi informatici che consentono oggi di passare più velocemente dall’orale alla sua trascrizione tramite sistemi di riconoscimento vocale, hanno contribuito solo parzialmente a velocizzare lo sviluppo dei corpora del parlato: l’interesse primario è di associare, alla trascrizione di testi orali, file audio e video. 2.1 Corpora di scritto: BROWN è il primo corpus di inglese in senso moderno e esemplifica ogni corpora di scritto prodotto successivamente. 2.2 Corpora di parlato Le componenti orali dei corpora di riferimento consentono l’osservazione della variazione diamesica all’interno di una stessa varietà geografica.
- definire l’ordine di presentazione del lessico in base ai diversi obiettivi di apprendimento (ad es. creazione di prove d’esame finali o test d’ingresso). Inizialmente la realizzazione di questi corpus era limitata all’inglese L2, oggi la gamma di lingue straniere è molto più ampia. Corpora multilingue Con la bipartizione tra corpora paralleli e corpora comparabili si entra nella dimensione del confronto interlinguistico. Il principio che regola il campionamento dei testi è quello di scegliere o testi tradotti e confrontati con i testi originali e osservati in parallelo (corpus parallelo) o testi confrontabili per genere, registro, funzione ma redatti in lingue diverse (corpus comparabile). Però non sempre è possibile avere una rappresentazione bilanciata di una coppia di lingue. È quanto succede con quelle lingue parlate in paesi dove circola molta più letteratura tradotta di quella prodotta in lingua originale o dove non vi sia simmetria nella traduzione per genere o per discorso. Ad esempio, per i paesi doppiatori tutta la produzione cinematografi ca straniera (per lo più americana) viene adattata e doppiata in italiano, francese, tedesco ecc., non è così per la produzione in lingua italiana, francese, tedesca ecc., esportata nei paesi anglosassoni solo in misura ridotta e non doppiata, ma sottotitolata. Si tratta però in genere di corpora monodirezionali. Corpora e WWW Il World Wide Web è oggi la più grande banca dati di testi esistenti facilmente accessibile.Sorge dunque la domanda se i contenuti testuali della rete entrino in competizione con i modelli tradizionali di corpora visti sinora. Però
- non contiene testi selezionati secondo criteri espliciti legati ad una ricerca linguistica
- l’origine dei documenti non è sempre verificabile
- aspetti legati alla volatilità dei testi sul web e alla loro qualità. Tuttavia, i motori di ricerca commerciali funzionano su testi non annotati e non consentono di compiere ricerche linguistiche complesse. Essendo stati principalmente sviluppati per trovare e presentare contenuti, usano criteri di rilevanza non pertinenti alla ricerca linguistica. Alcuni strumenti importanti per la creazione di corpora “fai da te” che attingono ad informazioni dal web (WebBootCat dell’interfaccia Sketch Engine e il WebCorp che ‘catturano’ dalla rete testi che si inseriscono in un corpus). CORPORA E ANALISI LINGUISTICA Analisi linguistica fondata sui corpora. L’analisi si compone di due momenti distinti:
- procedure di compilazione del corpus (che dipendono dagli obiettivi dell’analisi, dalle ipotesi, dai vincoli esterni, quali ad esempio i limiti delle risorse informatiche, tecniche ecc..) (sezione 1 e 2)
- Sviluppo di strumenti informatici per l’interrogazione e l’utilizzo del corpus (che comprende altresì lo sviluppo delle interfacce tra utente, ricercatore, insegnante o apprendente, e dati nel corpus (sezione 3).
DISTRIBUZIONI DI FREQUENZA E APPROCCIO PROBABILISTICO
Il campionamento degli usi linguistici in corpora informatizzati quantifica i fenomeni osservati. Un esempio: calcolo del numero di volte con cui un fenomeno linguistico si presenta in un campione scelto. Cosi dato un corpus, si può calcolare la frequenza delle parole che lo compongono (contando il numero di occorrenze di ciascuna parola). In generale: conteggio aritmetico del numero di elementi linguistici (tokens) che appartengono ad ogni classificazione (type). La frequenza assoluta (ovvero il conteggio effettivo di occorrenze) è utile quando si usa un solo corpus/sottocorpus. Ma se si devono confrontare corpora diversi (o segmenti di uno stesso corpus) con grandezze diverse, la frequenza assoluta deve essere normalizzata. Frequenza assoluta vs frequenza relativa (permette di confrontare delle frequenze di parole tra di loro o dati tra campioni diversi) Frequenza relativa : se dividiamo il numero delle occorrenze per il numero totale delle parole del corpus, otteniamo la frequenza relativa (FR, relative frequency) Numero di occorrenze (di una parola)/numero totale delle parole del corpus 2/6 = 0,33 (eventualmente * 100) (33%) 1/6 = 0, 16 (eventualmente * 100) (16%) Ma cosa succede in corpora di maggiori dimensioni? 6.000.000 → 2/6.000.000 = 0,0000003 → 0,0000003*1.000.000= 0,33 occorrenze per milione Esprimere la frequenza riferita a un numero fisso di parole prende il nome di normalizzazione. Il termine moltiplicatore è anche detto base comune perchè il risultato rappresenta la frequenza che la parola avrebbe avuto se il corpus fosse stato composto da un numero totale di parole pari alla base comune es. 1.000.0000. La grandezza del corpus influisce sul significato statistico quindi la base comune per la normalizzazione deve essere comparabile alla grandezza del corpus. Se confrontiamo la sezione orale del BNC (10 milioni di parole) e quella scritta (90 milioni di parole) la normalizzazione a 1000 parole è inappropriata. I risultati ottenuti su basi comuni troppo grandi o troppo piccole sono distorti. Esempio confronto tra uso del termine fucker in BNC scritto (90 milioni) e orale (10 milioni) Scritto: 50 volte (frequenza assoluta) Orale: 25 volte (frequenza assoluta) Occorrenze devono essere messe in relazione con numerosità del campione 50/90.000.000 = 0,55 (frequenza relativa) 25/10.000.000 = 2,5 (frequenza relativa) → quasi 5 volte più frequente nel parlato che nello scritto
Distribuzioni di frequenze: indice di Guiraud Sinclair (2004) ha posto l’accento sulle implicazioni rilevanti di questo rapporto per apprendenti di L2/LS che incontrano molte parole nuove con scarsa possibilità di ripetizione e con una probabilità alta che occorrano una volta sola. Vengono quindi studiate le distribuzioni di frequenze. Il rapporto tra tipi e token (Type Token Ratio
- TTR, anche indice di Guiraut) è una possibile misura della varietà lessicale di un testo. TTR: più è alta la frequenza di ogni singola occorrenza più lentamente cresce un vocabolario (+ i token - vocabolario). Viceversa, se il risultato del rapporto fosse 1 vorrebbe dire che ogni parola usata è una parola diversa e non vi sono parole ripetute e quindi che più questo numero si avvicina a 1, più ampio è il vocabolario. La TTR quindi appare poco significativa perché sensibile alla numerosità del campione. Risultato di questo rapporto = 1 > ogni parola usata è una parola diversa. Esempio: 113/189= 0, TTR standardizzata : per esplorare la variazione stilistica rispetto alla ricchezza lessicale o ampiezza del vocabolario (utile quando si comparano scrittori o generi diversi). Diversi modi per calcolarla, spesso dipendenti dal software. Ad es. corpus specialistico con capitoli introduttivi di 10 manuali di linguistica (250.000 parole) TTR standardizzate con pochissima variabilità (tipico dei linguaggi settoriali). I dati riorganizzati in liste di frequenza e analizzati in termini di significatività si prestano a un’ interpretazione probabilistica delle lingue e del linguaggio. La frequenza tende alla probabilità ed è da osservazioni ripetute su campioni estesi e rappresentativi che possiamo inferire le probabilità di una lingua. Quello che conta è l’emergere di pattern d’uso più o meno frequenti entro la naturale variabilità osservabile in campioni di lingua. Dall’osservazione della variazione e della frequenza, deriva un approccio probabilistico allo studio del linguaggio che riconosce fenomeni di gradienza e di non categoricità (anche per i giudizi di grammaticalità).
Questo approccio ha avuto un enorme impatto sulla ricerca empirica: ad es. lo studio del mutamento linguistico (linguistica storica), della produzione e comprensione delle lingue (psicolinguistica), dell’acquisizione della propria lingua, dell’apprendimento delle lingue seconde, della descrizione grammaticale e della lessicografia. Confronto tra corpora: le parole chiave La nozione di parola chiave (key-words) in riferimento al confronto tra corpora si deve alla ricerca di Mike Scott. Per Scott le parole chiave sono quelle che caratterizzano un corpus e ne rappresentano la deviazione rispetto a una norma presa come riferimento. Quindi, dati due corpora, interessa verificare se:
- la distanza tra di essi, misurata in differenza tra le frequenze osservate, è significativa;
- i due corpora rappresentano campioni casuali della stessa popolazione o se le differenze osservate ci dicono qualcosa della naturale variazione del linguaggio. Lettura di concordanze e collocati Un ulteriore strumento rilevante nella linguistica dei corpora è relativo alle concordanze. la concordanza è un elenco di tutte le occorrenze di una parola (nodo) nell’ambiente che la circonda (cotesto - orizzonte). La parola viene normalmente associata alla modalità di visualizzazione delle concordanze, la KWIC (Key Word In Context) dove il nodo viene allineato al centro a distanza fissa dalla porzione di testo che lo precede e che lo segue. L’estensione del contesto, di solito misurata in caratteri, può variare a seconda del tipo di osservazione. La concordanza può essere osservata in modi diversi. La concordanza può essere ordinata in vari modi, secondo l’ordine di occorrenza nel corpus, alfabeticamente a destra o a sinistra, ecc. L’esito più innovativo dell’osservazione dei dati tramite concordanze è lo sviluppo della teoria della collocazione (Sinclair). Obiettivo: mostrare che il significato di una parola è in parte derivabile dal suo contesto d’uso dove per contesto intende:
- contesto verbale immediatamente precedente e successivo (in orizzontale, espressione dell’asse sintagmatico).
- contesto più astratto derivante dalla ripetizione di tale cotesto in un elenco di concordanze (in verticale, asse paradigmatico). Queste due dimensioni possono rispondere di usi e restrizioni situazionali (contesto). Contesto e cotesto possono servire a disambiguare sensi di parole molto comuni e polisemiche. Il corpus, letto tramite concordanze, diventa il modo di scardinare l’idea radicata secondo cui l’unità di senso è la singola parola. Nuova concezione del significato: meaning shift unit o MSU (unità di passaggio di senso). Il meaning shift unit viene intesa come estensione della nozione di collocazione a comprendere la co-selezione di più elementi concomitanti e la ripetizione lungo l’asse delle scelte possibili. Un ruolo di primo piano nell’individuazione dei significati è giocato dalla frequenza con cui certe combinazioni occorrono in un corpus. è la ripetitività di una scelta fa sì che l’uso (la parole) tenda al sistema (langue). La frequenza di un fenomeno non è casuale e anche se non è condizione sufficiente all’individuazione di sensi di una parola è una condizione necessaria.
FARE ANALISI SUI CORPORA
ESEGUIRE UNA QUERY
Query: analisi/ricerca tramite motore di ricerca (di un corpus o di un database). Letteralmente, una “richiesta” fatta al motore di ricerca di cercare (nel corpus o nel database) tutti i dati che rispettano i vincoli di ricerca inseriti (una specifica sequenza di caratteri, o anche una combinazione di più parametri, ad es. tutte le occorrenze di “lo” etichettato come articolo). Come fare: inserire del testo in uno dei campi di ricerca (una o anche più parole) > i risultati dipendono dal campo utilizzato:
- Simple query: cerca la sequenza di caratteri ovunque nei dati
- Lemma: permette di cercare tutte le forme di un lemma
- Word form: cerca una specifica forma di parola
- Character: cerca una sequenza di caratteri, anche all’interno della parola
- CQL: permette di fare ricerche complesse, combinando più vincoli, tramite il Corpus Query Language (CQL) Concordanze e keyword-in-context (KWIC) I risultati di una query vengono visualizzati in una lista, di solito nella visualizzazione Keyword- incontext (abbreviato: KWIC). Nella visualizzazione KWIC, le concordanze (le righe dei risultati, “concordanti”, perché riproducono la parola o la sequenza di parole cercata) sono incolonnate in modo da avere la sequenza di testo cercata (la keyword) al centro, contornata da porzioni di testo immediatamente precedenti (contesto sinistro) e seguenti (contesto destro). Contesto/co-testo Contesto : l’insieme degli elementi testuali compresenti con la porzione di messaggio che stiamo analizzando Co-tèsto (o cotèsto) s. m. [comp. di co-1 e testo3]. – In linguistica testuale, l’insieme degli elementi intrinsecamente testuali (detti anche intra-testuali), come per es. le frasi, gli elementi costitutivi di esse, ecc., le cui relazioni compongono un testo; in questo senso il co-testo si contrappone al contesto, che si riferisce agli elementi extra-testuali, cioè non facenti parte del testo, ma che ne influenzano la produzione e la ricezione, come per es. la situazione comunicativa. Quello che qui viene chiamato contesto (sinistro o destro) dovrebbe essere definito co-testo (più specifico e appropriato). Metadati in (no) sketch engine Cliccando sul codice identificativo al margine sinistro della concordanza (il numero in blu), si apre un box giallo con i metadati relativi al testo (in basso nella finestra):
- Autore del testo
- Genere testuale
- Sezione del quotidiano
- Anno
- Titolo dell’articolo
- Conteggio parole
Ricerca di collocati Le collocazioni sono sequenze di tokens (i.e. parole) che conccorrono in un corpus. Inoltre combinazioni di n elementi (n-grams) che mostrano un grado di solidarietà semantica, ovvero la combinazione risulta sensibilmente più frequente e lessicalmente appropriata rispetto ad altre combinazioni possibili tra uno degli elementi della collocazione e altri possibili sostituti (es. condurre un’indagine vs. fare un’indagine). Esistono diversi tipi e gradi di solidarietà semantica (collocazioni, locuzioni, polirematiche etc.). Per individuare le possibili collocazioni di un elemento:
- si esegue prima una query normale con un’unità di riferimento;
- si filtrano i risultati tramite una query “Collocations” (voce in basso nel menù di sinistra di NoSketchEngine). La query per le collocations richiede di indicare:
- il tipo di unità co-occorrenti con la keyword (attribute)
- il range in cui cercare unità ricorrenti (ovvero, quante parole prima o dopo la keyword occorre scansionare). Log-dice Log-dice: misura statistica che individua collocati in termini di ‘tipicalità’ (in Sketch Engine nella sezione WordSketch, in noSketch Engine nella sezione Collocations) Basato sulla frequenza del nodo (parola) e del collocato e sulla frequenza della collocazione (nodo
- collocato). Non dipende dalla grandezza del corpus e quindi può essere usato con corpora di diversa grandezza. Mi-score e T-score MI (Mutual Information)-score: la misura con cui le parole ricorrono contemporaneamente rispetto al numero di volte in cui appaiono separatamente. Fortemente influenzato dalla frequenza, le parole a bassa frequenza tendono a raggiungere un punteggio MI alto che può essere fuorviante (Sketch Engine consente di impostare un limite di frequenza in modo che le parole a bassa frequenza possano essere escluse dal calcolo). T-Score: la certezza con cui si può sostenere che esiste un'associazione tra le parole, ovvero la loro co-occorrenza non è casuale. Il valore è influenzato dalla frequenza dell'intera collocazione, motivo per cui combinazioni di parole molto frequenti tendono a raggiungere un punteggio T elevato nonostante non siano collocazioni significative. Nella maggior parte dei casi, il punteggio T è più affidabile o più utile del punteggio MI. La maschera di ricerca per le collocations usa la denominazione “Collocation candidates”, perché la lista risultante può solo indicare la presenza di elementi co-occorrenti con frequenza significativa, ma non può - da sola - individuare reali rapporti di solidarietà semantica, che pertengono all’analisi dell’osservatore. Qui si osservi sire (lemmatizzazione errata di sitter come forma di un verbo inesistente), Bells, Jane e Achtung (si tratta di nomi propri: Baby Bells, Baby Jane, Achtung Baby)
- /gupp(y|ies)/ guppy OR guppies
- /(x|y)/ significa “o X o Y” Importante usare le parentesi! Quantificatori:
- /colou?r/ Corrisponde a color o colour
- /govern(ment)?/ Corrisponde a govern o government
- /?/ significa zero o uno dei caratteri o dei gruppi di caratteri precedenti
- /ba+/ Corrisponde a ba, baa, baaa…
- /(inkiss )+/ Corrisponde a inkiss, inkiss inkiss (notare lo spazio bianco nella regex)
- /+/ significa “uno o più del carattere o del gruppo di caratteri precedente”
- /ba/ Corrisponde a b, ba, baa, baaa, // significa “zero o più del carattere o del gruppo di caratteri predente”
- /(ba ){1,3}/ Corrisponde a ba, ba ba or ba ba ba
- {n, m} significa “tra n e m del carattere o del gruppo di caratteri predente”
- /(ba ){2}/ Corrisponde a ba ba
- {n}significa “esattamente n del carattere o del gruppo di caratteri precedente CQL Sintassi: Ricerche CQL consistono in espressioni regolari rispetto ad attributi (parole, lemmi o tag) Regex rispetto a parole:
- [word=“it”] [word=“resulted”] [word=“that”] Corrisponde solo a “it resulted that” Regex rispetto a parole con caratteri speciali:
- [word=“it”] [word=“result.*”] [word=“that”] Corrisponde a it resulted/results that Regex rispetto ad un lemma:
- [word=“it”] [lemma=“result”] [word=“that”] Corrisponde a qualsiasi forma di result (regex sul lemma) É possible combinare query con parola, lemma e tag: Limiti rispetto a parola e tag:
- [word=“it”] [lemma=“result” & tag=“V.*] Corrisponde a it seguito da una variante morfologica del lemma result il cui tag inizia con V (i.e. un verbo) Le parentesi quadrate vuote significano “qualsiasi corrispondenza” L’uso di quantificatori complessi per corrispondenza rispetto ad intervalli:
- [word=“confus.” & tag=“V.”] []{0,2} [word=“by”] “verbo che inizia con confus taggato come verbo, seguito dalla parola by, con parole inframmezzate in numero da 0 a 2” confused by (the problem) confused John by (saying that) confused John Smith by (saying that)
MOD. 2 IL REPERTORIO LINGUISTICO ITALIANO
VARIABILITÀ LINGUISTICA E ARCHITETTURA DELL’ITALIANO CONTEMPORANEO
Gli assi di variazione:
- il passaggio del tempo (variazione diacronica)
- il luogo geografico da cui il parlante proviene (variazione diatopica: italiano regionale)
- l’identità sociale del parlante (variazione diastratica)
- la situazione e il contesto comunicativo in cui ci si trova ad interagire (variazione diafasica: registro)
- l’argomento di cui si parla (variazione diafasica: sottocodice, linguaggio settoriale, lingua speciale)
- il canale che si utilizza (variazione diamesica: scritto, orale, mediato) DIVERSITA’ DI STRATEGIE TRA SCRITTO E PARLATO