




Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunto del libro Linguistica dei Corpora per l'esame con la Michelini
Tipologia: Sintesi del corso
1 / 8
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





1.1 Che cos’è un corpus? Nel corso degli anni, sono state fornite diverse definizioni della parola “corpus” : queste potrebbero essere riassunte come un insieme di testi (o parti di testi) che si assume essere rappresentativo dello stato di una lingua, o di una varietà di essa, al fine di ottenerne una descrizione complessiva. I corpora, dunque, non sono altro che campioni di lingua estratti da una popolazione (in questo caso con popolazione ci riferiamo ad un insieme di testi) più ampia, sui quali vengono condotti degli studi di tipo linguistico. Queste analisi linguistiche vengono condotte in un ambiente “naturale”, ridotto e controllato, con l’obiettivo di inferire informazioni anche sulla popolazione dalla quale è stato ricavato il campione; gli esiti, quindi, dovrebbero essere generalizzabili. In un primo periodo i corpora non erano informatizzati, e quindi anche la loro capacità di archiviazione dei dati era limitata; ad oggi, però, i corpora sono sempre accessibili elettronicamente e quindi interrogabili tramite computer. Il padre della linguistica computazionale (colui che ha dunque trasformato i corpora da cartacei a digitali) è Padre Roberto Busa. Dal punto di vista informatico, un corpus è solitamente costituito da dei documenti in formato testo raccolti in delle cartelle (= directory ). 1.2-1.3 Autenticità dei dati linguistici, rappresentatività e campionamento. Essendo i corpora odierni costituiti da milioni, se non miliardi di parole bisogna fare riferimento ad alcune loro problematiche:
parlato. Fa riferimento all’inglese contemporaneo e il periodo di campionamento va dai primi anni ‘ del ‘900 al 1993 (si tratta di un campione deperibile , perché fa riferimento ad un periodo linguistico limitato. Probabilmente tra un decennio non sarà più attuale). Comprende il 90% di testi scritti e il 10% di trascrizioni di testi orali, semplicemente per la difficoltà che si riscontra nel raccogliere dati orali. È un corpus statico (=a campione chiuso, non viene più aggiornato);
450 milioni di parole in inglese scritto e parlato. Il periodo di campionamento va dal 1990 al 2012.
Comprende l’80% di testi scritti e il 20% di trascrizioni di testi orali (derivanti solo da programmi televisivi e radiofonici). È un corpus statico;
milione parole esclusivamente in inglese americano scritto. Il periodo di campionamento comprende soltanto il 1961. È un corpus statico. Il campionamento, come è stato possibile capire, non è un’operazione scientifica ma dipendente unicamente dai parametri (soggettivi) alla base di uno studio linguistico. 1.4 Informatizzazione e rappresentazione dei dati linguistici. Come abbiamo già accennato, l’attuale concezione di corpus implica il formato elettronico ( computer- readable form/machine-readable form ); questo comporta la piena comprensione del processo di codifica informatica dei testi. Cosa significa codificare un testo? Dal punto di vista pratico, la macchina deve riconoscere i caratteri, l’uso delle maiuscole, i segni di punteggiatura, gli spazi tra le parole e le ripartizioni stilistiche (es. paragrafi, titoli ecc…). Bisogna, quindi, rendere il testo interpretabile dalla macchina per codificare contenuti rilevanti ai fini dell’indagine linguistica che vogliamo svolgere; questi contenuti ci permettono di condurre indagini morfo- sintattiche, sintattiche, semantiche, pragmatiche e (fonetiche). È preferibile che la codifica sia standardizzata, in modo da facilitare la portabilità dei dati. Per rendere esplicita, e quindi esplorare la struttura linguistica di un testo, utilizziamo l’annotazione linguistica (anche etichettatura o taggatura/tagging ) e la marcatura (dall’inglese mark-up ). 1.4.1 Annotazione e mark-up. Un corpus, nella sua forma iniziale, è semplicemente costituito da file di testo raccolti in cartelle. La forma più elementare di annotazione consiste nell’assegnare al file un nome che ne richiami il contenuto; chiaramente però, in questo caso, si tratta di un’annotazione generale e che quindi non può fare riferimento ad elemento specifico del testo. Con il termine annotazione ci si riferisce all’attività di arricchire i dati grezzi contenuti nel corpus di metadati , i quali sono standardizzati e stabiliti dalla comunità scientifica, che successivamente possiamo recuperare ed interrogare. Bisogna però fare una distinzione tra mark-up e annotazione:
corpus (es. autore, anno di pubblicazione, suddivisione in paragrafi, immagini ecc…). Molto simile alle pratiche di trascrizione, quindi ha poco a che fare con la linguistica dei corpora in senso stretto;
di analisi linguistica (es. morfosintassi, semantica ecc..). Per i livelli più “bassi” questo processo è solitamente automatizzato, visto che inizialmente si tratta di annotazioni oggettive. Questo tipo di annotazione, ovviamente, permette di analizzare i testi all’interno di un corpus in maniera più specifica. In particolare, l’uso di corpora annotati ha comportato un’evoluzione del concetto di “grammatica” , che ora non è più considerata come un qualcosa di fisso ma come un’entità che varia a seconda dei contesti. Distinguiamo anche la grammatica orale da quella scritta. I corpora specialistici , in particolare, presentano delle annotazioni che permettono di derivarne delle grammatiche “ristrette”, ovvero relative ad uno specifico settore (idea sviluppata da Barnbrook e Sinclair ). Il primo livello di annotazione ( morfo-sintattica ), appunto, consiste nell’ etichettatura grammaticale. Questo processo è preceduto dalla segmentazione del testo in parole/token ( tokenizzazione ). Il termine “parola” , dal punto di vista informatico e linguistico, corrisponde a sequenze ininterrotte di caratteri precedute e seguite da uno spazio o da un segno di punteggiatura. In alcuni casi, il concetto linguistico e quello informatico si distaccano leggermente, ad esempio: · Espressioni perifrastiche ( as a matter of fact ); · Composti dall’ortografia variabile ( course-book, coursebook e course book ); · Forme contratte in inglese. La tokenizzazione dei testi consente, dunque, di distinguere ogni occorrenza di ciascuna forma. Un altro processo, noto come lemmatizzazione , permette di associare le varianti morfologiche di una parola e considerarne tutte le flessioni come un’unica parola ( es. le flessioni “do”, “did”, “does”, “doing” e “done” sono tutte riconducibili al lemma “do” ). L’analisi morfologica di una lingua grazie alla lemmatizzazione è anche conosciuta come “stemming” , e ovviamente la sua rilevanza dipende dalla difficoltà morfologica di una determinata lingua.
essere letti e interpretati; un file XML non può esistere senza l’associazione di una grammatica DTD, e tale file risulta valido solo per quella grammatica specifica. La verifica del file XML in base alla sua grammatica ( validazione ) è un’operazione preliminare in uno studio corpus-based. Il TEI è uno dei progetti più significativi di codifica dei testi linguistici, che aveva come scopo quello di definire degli standard di codifica; viene pubblicato per la prima volta nel 1994, e da allora è costantemente aggiornato. Oltre ai file XML, per annotare un corpus è possibile anche utilizzare i database relazionali. A differenza dei file XML, però, i database non sono immediatamente leggibili tramite un editor di testo, ma necessitano di un database server ; questo server, che contiene appunto i dati, viene interrogato tramite delle queries (=richieste per ottenere parte di tali dati). I dati possono essere interrogati tramite un linguaggio che ha una base comune, ma che varia leggermente tra un database e un altro ( SQL=Structured Query Language). In un database le informazioni sono strutturate in tabelle composte da un insieme di colonne ( campi ), le cui righe sono riempite dall’insieme dei record ; ogni campo di una tabella è collegato ad altre tabelle per mezzo di una relazione. I record corrispondono a delle unità elementari nelle quali viene suddiviso il corpus, e presentano un certo numero di attributi ognuno (chi ha pronunciato/scritto il testo, contesto etc…). Uno dei maggiori vantaggi rappresentati dall’uso dei database consiste nel fatto che essi permettono di immagazzinare enormi quantità di dati e, allo stesso tempo, di indicizzare il testo (=compilare un secondo database in maniera automatica nel quale è segnata la posizione delle singole parole all’interno del corpus); questo permette di interrogare il corpus in maniera più rapida. 1.5 Questioni metodologiche aperte. Nell’analisi degli studi che prevedono l’utilizzo di un corpus, occorre innanzitutto fare una distinzione tra due macro-tipologie:
nota→tramite l’esplorazione sul corpus la si verifica tramite conversazioni ripetute sui dati);
senza nozioni precostituite→esplora il corpus senza un’ipotesi a monte, ed è l’esplorazione stessa che mi aiuterà ad arrivare ad una sintesi/generalizzazione). CAPITOLO 2-CREAZIONE DI CORPORA E TIPOLOGIE I diversi criteri che guidano la creazione di corpora corrispondono a domande di ricerca diverse, e permettono di classificare i corpora in tipologie (es. corpora grezzi vs. annotati, di parlato vs. di scritto etc… ). Bisogna sottolineare, prima di cominciare ad analizzare queste tipologie, che un singolo corpus può combinare in più modi le varie distinzioni (nel senso, un corpus può essere annotato, ma anche di scritto etc…). 2.1 Corpora grezzi vs. annotati. Questa distinzione, considerata come la più basilare, indica la presenza o meno in un corpus di un qualche livello di annotazione linguistico (grezzo=no annotazioni, annotato=annotazioni); La scelta dipende dal grado di sofisticatezza della ricerca linguistica che vogliamo raggiungere. L’annotazione grammaticale, per esempio, permette di formulare interrogazioni più complesse e aumenta le potenzialità della ricerca, poiché interrogare milioni di parole in maniera semplice ne consentirebbe solo un uso limitato. I corpora annotati grammaticalmente prendono il nome dal modello di grammatica su cui è basata l’annotazione, e possono seguire due diversi modelli sintattici:
gruppi di parole in relazione logica tra di loro;
verbo (predicato) e i suoi argomenti. Osservazioni grammaticali su così larga scala, ovviamente, sarebbero inconcepibili senza il contributo di corpora elettronici annotati, che tra l’altro permettono anche di aggiornare le grammatiche di riferimento. 2.2 Corpora e variazione diafasica. Nell’ambito della variazione diafasica, possiamo individuare una distinzione di base tra due tipi di corpus:
numero di fenomeni strutturali di una lingua generale, e per questo contengono testi appartenenti a tutte le varietà diafasiche, diastratiche, diatopiche e diamesiche considerate caratteristiche di una lingua nel suo insieme (=milioni di parole). I corpora di riferimento possono essere ulteriormente suddivisi in
statici (=coprono un arco temporale ben definito) e dinamici/di monitoraggio/monitor (=nutriti regolarmente, servono per studiare l’evoluzione della lingua; l’aggiornamento può avere cadenza annuale, mensile o addirittura giornaliera, e viene effettuata automaticamente dal computer. Va sempre però mantenuto il bilanciamento). Un corpus di riferimento è costruito in maniera corretta solo se è molto ampio e contiene diverse tipologie testuali;
strutturali di una lingua speciale. Per questo motivo, sono generalmente più piccoli dei corpora generali, ma includono comunque sia testi orali che scritti. Servono a studiare gli usi linguistici relativi a contesti comunicativi specifici, relativi a discipline ed attività sociali svolte da una comunità di parlanti/ scientifica/di pratica. La lingua speciale si esprime nel lessico e nelle strutture tipiche della comunicazione specialistica; quindi, solitamente si creano per scopi specifici. I corpora di riferimento vengono utilizzati anche per gli studi relativi al genere , i quali si trovano a metà tra l’analisi sociolinguistica e quella del discorso; in particolare si mette in evidenza l’uso degli epiceni ( he, chairman ), e come questi si presentino o meno marcati in base al genere. 2.3 Corpora e variazione diamesica. Per quanto riguarda la dimensione diamesica, distinguiamo tra:
porzioni di testi;
orali)→contengono dati orali trascritti (la trascrizione dei dati può essere di due tipi: ortografica e prosodica ; quest’ultima tiene conto di fenomeni tipici del parlato come intonazione e ritmo). All’interno dei corpora di parlato possiamo anche individuare i corpora multimediali/multimodali , che contengono file audio e video. 2.4 corpora e variazione diacronica. Un’ulteriore bipartizione riguarda i:
l’arco temporale non è esteso;
linguistici. 2.4.1 Corpora sincronici. Un corpus sincronico rappresentativo di numerose varietà di inglese e dei “World Englishes” , è l’ ICE , che raccoglie dati linguistici delle diverse varietà nazionali e regionali dell’inglese nel mondo. Ogni sottoinsieme consta 1 milione di parole, tra scritto e parlato, prodotte dopo il 1989, etichettate grammaticalmente e semanticamente. Lo scopo principale è la comparazione delle varietà di inglese del mondo: per garantire la massima comparabilità dei dati, ogni team regionale si attiene agli stessi criteri di campionamento dei testi e di rappresentazione dei dati. Per molti paesi il progetto ICE costituisce la prima occasione di investigazione sistematica della propria varietà nazionale. Alcune varietà regionali sono rappresentate da corpora minori come ad esempio lo “Scottish Corpus of Texts and Speech” con oltre 4 milioni di parole. 2.4.2 Corpora diacronici. Il criterio di campionamento dei testi è la periodizzazione linguistica. Si tratta per lo più di testi scritti e non vengono applicate restrizioni di genere. Un importante corpus diacronico è l’ ARCHER , un corpus multigenere di inglese americano e britannico che contiene testi compresi tra il 1650 e il 1999, inizialmente compilato su progetto di Biber ed Edward Finegan negli anni Novanta, oggi ripreso e portato avanti da un consorzio di 14 università in 7 paesi diversi. La versione in fase di completamento è nota come 3.2 e comprende 12 generi (metto qualche esempio non sia mai ti scordi i generi di sto corpus! Teatro, fiction, diari, racconti di viaggio…)e 8 scansioni temporali interne di 49 anni l’una. Sono rappresentate entrambe le varietà geografiche, il corpus è in continuo ampliamento. Tra i corpora generici va citato il COHA , che fa parte dei progetti di compilazione realizzati da Mark Davies. esso contiene 400 milioni di parole che coprono il periodo dal 1810 al 2009 a intervalli di 10 anni, con la stessa proporzione di generi testuali. Il corpus offre una rappresentazione bilanciata per genere. Sempre di Mark Davies troviamo un corpus di periodizzazione più recente per l'inglese americano che comprende 100 milioni di parole tratte dalla rivista americana TIME dal 1923 al 2006. Un altro esempio noto di corpus diacronico è il Lampeter Corpus of Early Modern English Tracts compilato da Josef Schmied all'Università di Chemnitz in Germania, che contiene testi interi di tipo pubblicistico datati tra il 1640 e il
Numerose sono le applicazioni pratiche di corpus di L2, fra tutte lo sviluppo di sillabi e materiale per apprendenti che tenga conto delle difficoltà di un particolare gruppo linguistico e degli errori riscontrati a livelli diversi di competenza. In questo ambito specifico, la ricerca fondata su corpora raccoglie le istanze della linguistica acquisizione e dell'insegnamento delle lingue straniere. Questo è uno degli indirizzi più recenti della linguistica dei corpora che risale alla fine degli anni ’80. Alcuni aspetti del campionamento e dell'annotazione del corpora di apprendenti, nonché il loro utilizzo, hanno assunto rilievo metodologico e teorico. È importante menzionare la riflessione sui concetti di norma di riferimento o target di apprendimento: dato un campione di lingua inglese di apprendenti non nativi, esso può essere confrontato con la produzione di apprendenti nativi in contesti equivalenti, come il LOCNESS ( Louvain Corpus of Native English Essays ), un corpus di saggi argomentati scritti da studenti universitari americani e inglesi, oppure con i saggi contenuti in un corpus generico di riferimento come il BNC. I corpora di L2 possono aiutare a decidere l'ordine di insegnamento di argomenti grammaticali e a definire il vocabolario che deve essere insegnato a seconda dei diversi obiettivi di apprendimento, stabilendo le priorità sulla base di osservazioni di frequenza d’uso. Possono essere inoltre usati per la creazione di prove d'esame per la valutazione e la diagnosi delle competenze linguistiche come ad esempio accade per il Cambridge Learner corpus e l'attività di Cambridge English Language Assessment. Anche il Longman Learner’s Corpus e l' Oxford English corpus sono corpora ad uso commerciale e vengono perlopiù usati dalle rispettive case editrici per lo sviluppo di materiale pedagogico. Possono essere annoverati tra i corpora di apprendenti anche il MICUSP e il CHILDES. Il primo contiene una parte di parlanti di inglese non nativi ed è costituito di elaborati scritti in inglese per scopi specifici, prove d'esame o prove corrette, ma non valutate non pubblicate. Il secondo costituisce l'esempio più noto di corpus del parlato di bambini. 2.6 Corpora multilingui. Con la bipartizione tra corpora paralleli e comparabili si entra nella dimensione del confronto inter linguistico, degli studi produttivi e contrassi tramite l'ausilio di corpora. Il principio che regola il campionamento dei testi in questo caso è quello di scegliere o testi tradotti considerati insieme ai testi di partenza e osservati in parallelo, oppure testi confrontabili per genere, registro, funzione comunicativa, ma redatti in lingue diverse. I corpora paralleli possono contenere qualsiasi coppia di testi, purché originali, e le loro traduzioni, in entrambe le direzioni di traduzione non sempre è possibile avere una rappresentazione bilanciata di una coppia di lingue. a seconda della direzione che la comparazione assume, il corpus consente di studiare innanzitutto le caratteristiche dell'italiano doppiato in relazione sia fenomeni di transfer dall'inglese sia ai vincoli tecnici imposti dal mezzo audiovisivo e, se confrontato con corpora di parlato spontaneo in originale inglese e italiano, di stabilire le differenze o somiglianze sistematiche nella distribuzione di diversi fenomeni della lingua parlata. Un esempio per quanto riguarda il corpus parallelo e comparabile e l’ OPUS ( Open Parallel Corpus ) è un insieme di corpora paralleli di traduzioni tratte dal web, allineate e annotate automaticamente. Si tratta di una open source che comprende testi paralleli di natura diversa catturati dal web e messi a disposizione della comunità scientifica per testare modelli di traduzione automatica e di elaborazione del linguaggio naturale. Oltre a questo corpus abbiamo l’ EUROPARL che comprende gli estratti degli atti del parlamento europeo in 11 lingue diverse considerati in parallelo alla versione inglese e allineati a livello di frase. Il TEC è un corpus di traduzioni in inglese da lingue sia europee che extra europee. Comprende testi esclusivamente iscritti organizzati in quattro sezioni: fiction, biografie, stampa e riviste di volo per circa 10 milioni di parole. I testi sono annotati a seconda di sesso, nazionalità e occupazione del traduttore, lingua di partenza, direzione della traduzione, editore della traduzione. È stato concepito da Mona Baker. L'approccio è empirico ed è teso a verificare su un grande numero di testo soluzione produttive ripetute o viceversa idiosincratiche e riconducibili a singoli traduttori. L'esito più interessante di questo filone di studi sono le osservazioni sulle norme produttive, dette anche universali della traduzione. La teoria dell'universali è indiscutibilmente probabilistica, basata su osservazioni di frequenza e affermazioni di probabilità relative all'occorrenza di certe rese produttive in contesti indipendenti dalla coppia di lingue coinvolta nel processo di traduzione e in una certa misura addirittura gli scopi che la traduzione si prefigge. Essi riguardano la tendenza alla semplificazione , la tendenza opposta all’ esplicitazione (l'aggiunta nel testo di arrivo di parole) eccetera. Sono universali della traduzioni parimenti la normalizzazione , cioè la tendenza a riportare a una lingua media non sociolinguisticamente marcata forme colloquiali del testo originale, e il transfer o interferenza , ossia l'influenza esercitata sul testo di arrivo. 2.7 Corpora e WWW. Il World Wide Web rappresenta ad oggi la più grande banca di dati di testi esistente facilmente accessibile. da questo sorge la domanda se i contenuti testuali della rete entrino in competizione con i modelli tradizionali. l'origine dei documenti che si incontrano non è sempre verificabile e la loro tipologia non facilmente
classificabile, il che li rende dati linguistici che necessitano di un riordino secondo precisi principi di campionamento. Google offre risultati affidabili grazie a uno strumento di indicizzazione molto potente e efficace. Può essere utilizzato come un metodo di estrazione di dati testuali attendibile. Tuttavia i motori di ricerca commerciali funzionano su testi non annotati e non consentono di compiere ricerche linguistiche complesse in quanto usano criteri di rilevanza non pertinenti alla ricerca linguistica. Per sopperire a questa mancanza sono stati sviluppati alcuni strumenti informatici per la creazione di corpus Fai da Te attingendo dal web come ad esempio WebBootCaT dell'interfaccia sketch engine , un client sviluppato da Adam Kilgariff o il progetto WebCorp realizzato da Antoniette Renouf insieme a un gruppo di ricercatori della city university di Birmingham. Per valutare i vantaggi e svantaggi associati all'utilizzo del web come corpus occorre tornare su temi centrali alla linguistica dei corpora: l'ampiezza del campione, la rappresentatività e il bilanciamento, i sistemi di interrogazione dei dati che determinano la funzionalità e la conseguente utilità pratica dei corpus. Google sicuramente è più accessibile senza costi aggiuntivi per l’utilizzo; il problema si pone piuttosto in termini di corretto bilanciamento, tale per cui, rispetto alle varietà di tipologie testuali selezionate, nessuna dovrà prevalere sulle altre. Questo fenomeno di sbilanciamento tende comunque a manifestarsi anche in corpora tradizionali. L'uso di corpora per l'analisi linguistica consente di misurare la variabilità intrinseca ai fenomeni linguistici. La ricerca basata su corpora testuali investe tutti i livelli di analisi linguistica, dalla morfosintassi al lessico, dalla descrizione semantica alla descrizione di fenomeni pragmatici, testuali e discorsivi. Il corpus rappresenta ciò che è stato detto in una lingua in un certo momento, suggerisce dimensioni di interpretazione della variazione linguistica rispetto a parametri sia interni al testo che contestuali ed esterni, ma non contiene tutto ciò che si può dire di una lingua. 2.8 Corpora e analisi stilistica. Si intende lo studio stilistico di testi letterari anche molto noti, alla luce di ciò che la rappresentazione in corpora informatizzati e la loro lettura tramite concordanza e in liste di frequenza può rivelare, in conformità o difformità con la critica letteraria esistente. A questo proposito si vedono i contributi metodologici di Bill Louw e Martin Wynne su diversi aspetti della stilistica dei corpora, e in particolare sulla poesia di Michael Stubbs su Joseph Conrad , di Jonathan Culpeper su Shakespeare , di Bettina Fisher Starke su Jane Austen. La stilistica dei corpora tende invece a recuperare l'unicità testuale della creazione letteraria. Un'analisi stilistica che utilizzi gli strumenti della linguistica dei corpora potrà quindi riproporre sul testo letterario quasi tutte le domande di ricerca che si sono discusse nei paragrafi precedenti, investendo i vari livelli dell'analisi linguistica, lessicale, grammaticale, semantica e pragmatica, allo scopo di trarne il quadro dello stile di un autore e di derivarne una chiave critica nuova.