Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Riassunto Linguistica dei Corpora, Sintesi del corso di Traduzione

Riassunto del libro Linguistica dei Corpora per l'esame con la Michelini

Tipologia: Sintesi del corso

2024/2025

Caricato il 25/01/2026

vytjx5h4rm
vytjx5h4rm 🇮🇹

3 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1-CARATTERISTICHE DEI CORPORA NELLA LINGUISTICA MODERNA
1.1 Che cos’è un corpus?
Nel corso degli anni, sono state fornite diverse definizioni della parola “corpus”: queste potrebbero essere
riassunte come un insieme di testi (o parti di testi) che si assume essere rappresentativo dello stato di una
lingua, o di una varietà di essa, al fine di ottenerne una descrizione complessiva. I corpora, dunque, non sono
altro che campioni di lingua estratti da una popolazione (in questo caso con popolazione ci riferiamo ad un
insieme di testi) più ampia, sui quali vengono condotti degli studi di tipo linguistico. Queste analisi
linguistiche vengono condotte in un ambiente “naturale”, ridotto e controllato, con l’obiettivo di inferire
informazioni anche sulla popolazione dalla quale è stato ricavato il campione; gli esiti, quindi, dovrebbero
essere generalizzabili.
In un primo periodo i corpora non erano informatizzati, e quindi anche la loro capacità di archiviazione dei
dati era limitata; ad oggi, però, i corpora sono sempre accessibili elettronicamente e quindi interrogabili
tramite computer. Il padre della linguistica computazionale (colui che ha dunque trasformato i corpora da
cartacei a digitali) è Padre Roberto Busa.
Dal punto di vista informatico, un corpus è solitamente costituito da dei documenti in formato testo raccolti
in delle cartelle (=directory).
1.2-1.3 Autenticità dei dati linguistici, rappresentatività e campionamento.
Essendo i corpora odierni costituiti da milioni, se non miliardi di parole bisogna fare riferimento ad alcune
loro problematiche:
1. Autenticitàcon autenticità dei dati linguistici contenuti in un corpus, intendiamo che questi sono
naturali e non vengono prodotti in maniera artificiale dai linguisti. Grazie allo sviluppo di Internet e
alla sua diffusione, è diventato molto semplice accedere a questo tipo di dati, con però alcune
difficoltà riferite ai dati orali e in generale ai vincoli imposti dalla tutela della privacy. I metodi di
raccolta “tradizionali” (=su campo) vengono messi in discussione sotto questo aspetto perché,
ovviamente, se i parlanti vengono informati dello studio in atto si riduce notevolmente la loro
spontaneità (ad oggi vengono comunque accettati però);
2. Rappresentatività e campionamentocome sappiamo, una lingua è potenzialmente “infinita”, e per
questo motivo è necessario campionarla (ovviamente, il campione deve rifletterne le caratteristiche).
La lingua può essere osservata sulla base degli assi di variazione: diacronica (=vediamo come la
lingua varia nel tempo), diamesica (=osserviamo la lingua dal punto di vista del mezzo, e quindi in
particolare vedremo la contrapposizione tra scritto e orale), diafasica (=studio del registro, i cui due
poli opposti sono informale e formale), diastratica (=studio della lingua sulla base di fattori sociali e
demografici) e diatopica (=variazione della lingua in base al luogo). Questi parametri extralinguistici
ci permettono di condurre un’analisi quasi statistica, nella quale appunto si indaga se esiste una
relazione tra una variazione contestuale (=variabile indipendente) e un certo comportamento
linguistico (=variabile dipendente).
Ma quanti testi vanno inclusi? E in quale proporzione? Vanno inclusi testi interi o solo delle porzioni degli
stessi? Tutte le risposte a queste domande derivano dal corpus design, che stabilisce i criteri di costruzione
del corpus. L’ampiezza di un corpus corrisponde al numero di parole che contengono, e questi campioni di
parole devono provenire da un gran numero di testi differenti, in modo da fornire una rappresentazione
bilanciata delle tipologie testuali (=i generi) e delle variabili sociali. La decisione se includere testi interi o
solo porzioni, invece, dipende dal tipo di analisi linguistica.
Per consultare un corpus e avviare un’analisi linguistica a partire da questo, è fondamentale sapere come è
stato costruito; in caso contrario, ogni ipotesi formulata potrebbe rappresentare un rischio per l’attendibilità
dello studio.
Vediamo ora alcuni esempi di corpora fondamentali:
BRITISH NATIONAL CORPUS (BNC), che comprende circa 100 milioni di parole in inglese scritto e
parlato. Fa riferimento all’inglese contemporaneo e il periodo di campionamento va dai primi anni ‘70
del ‘900 al 1993 (si tratta di un campione deperibile, perché fa riferimento ad un periodo linguistico
limitato. Probabilmente tra un decennio non sarà più attuale). Comprende il 90% di testi scritti e il 10%
di trascrizioni di testi orali, semplicemente per la difficoltà che si riscontra nel raccogliere dati orali. È
un corpus statico (=a campione chiuso, non viene più aggiornato);
COCA (Corpus of Contemporary American English, compilato da Mark Davies), che comprende circa
450 milioni di parole in inglese scritto e parlato. Il periodo di campionamento va dal 1990 al 2012.
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Riassunto Linguistica dei Corpora e più Sintesi del corso in PDF di Traduzione solo su Docsity!

CAPITOLO 1-CARATTERISTICHE DEI CORPORA NELLA LINGUISTICA MODERNA

1.1 Che cos’è un corpus? Nel corso degli anni, sono state fornite diverse definizioni della parola “corpus” : queste potrebbero essere riassunte come un insieme di testi (o parti di testi) che si assume essere rappresentativo dello stato di una lingua, o di una varietà di essa, al fine di ottenerne una descrizione complessiva. I corpora, dunque, non sono altro che campioni di lingua estratti da una popolazione (in questo caso con popolazione ci riferiamo ad un insieme di testi) più ampia, sui quali vengono condotti degli studi di tipo linguistico. Queste analisi linguistiche vengono condotte in un ambiente “naturale”, ridotto e controllato, con l’obiettivo di inferire informazioni anche sulla popolazione dalla quale è stato ricavato il campione; gli esiti, quindi, dovrebbero essere generalizzabili. In un primo periodo i corpora non erano informatizzati, e quindi anche la loro capacità di archiviazione dei dati era limitata; ad oggi, però, i corpora sono sempre accessibili elettronicamente e quindi interrogabili tramite computer. Il padre della linguistica computazionale (colui che ha dunque trasformato i corpora da cartacei a digitali) è Padre Roberto Busa. Dal punto di vista informatico, un corpus è solitamente costituito da dei documenti in formato testo raccolti in delle cartelle (= directory ). 1.2-1.3 Autenticità dei dati linguistici, rappresentatività e campionamento. Essendo i corpora odierni costituiti da milioni, se non miliardi di parole bisogna fare riferimento ad alcune loro problematiche:

  1. Autenticità con autenticità dei dati linguistici contenuti in un corpus, intendiamo che questi sono naturali e non vengono prodotti in maniera artificiale dai linguisti. Grazie allo sviluppo di Internet e alla sua diffusione, è diventato molto semplice accedere a questo tipo di dati, con però alcune difficoltà riferite ai dati orali e in generale ai vincoli imposti dalla tutela della privacy. I metodi di raccolta “tradizionali” (=su campo) vengono messi in discussione sotto questo aspetto perché, ovviamente, se i parlanti vengono informati dello studio in atto si riduce notevolmente la loro spontaneità (ad oggi vengono comunque accettati però);
  2. Rappresentatività e campionamento →come sappiamo, una lingua è potenzialmente “infinita”, e per questo motivo è necessario campionarla (ovviamente, il campione deve rifletterne le caratteristiche). La lingua può essere osservata sulla base degli assi di variazione: diacronica (=vediamo come la lingua varia nel tempo), diamesica (=osserviamo la lingua dal punto di vista del mezzo, e quindi in particolare vedremo la contrapposizione tra scritto e orale), diafasica (=studio del registro, i cui due poli opposti sono informale e formale), diastratica (=studio della lingua sulla base di fattori sociali e demografici) e diatopica (=variazione della lingua in base al luogo). Questi parametri extralinguistici ci permettono di condurre un’analisi quasi statistica, nella quale appunto si indaga se esiste una relazione tra una variazione contestuale (=variabile indipendente) e un certo comportamento linguistico (=variabile dipendente). Ma quanti testi vanno inclusi? E in quale proporzione? Vanno inclusi testi interi o solo delle porzioni degli stessi? Tutte le risposte a queste domande derivano dal corpus design , che stabilisce i criteri di costruzione del corpus. L’ampiezza di un corpus corrisponde al numero di parole che contengono, e questi campioni di parole devono provenire da un gran numero di testi differenti, in modo da fornire una rappresentazione bilanciata delle tipologie testuali (=i generi) e delle variabili sociali. La decisione se includere testi interi o solo porzioni, invece, dipende dal tipo di analisi linguistica. Per consultare un corpus e avviare un’analisi linguistica a partire da questo, è fondamentale sapere come è stato costruito; in caso contrario, ogni ipotesi formulata potrebbe rappresentare un rischio per l’attendibilità dello studio. Vediamo ora alcuni esempi di corpora fondamentali:

• BRITISH NATIONAL CORPUS (BNC) , che comprende circa 100 milioni di parole in inglese scritto e

parlato. Fa riferimento all’inglese contemporaneo e il periodo di campionamento va dai primi anni ‘ del ‘900 al 1993 (si tratta di un campione deperibile , perché fa riferimento ad un periodo linguistico limitato. Probabilmente tra un decennio non sarà più attuale). Comprende il 90% di testi scritti e il 10% di trascrizioni di testi orali, semplicemente per la difficoltà che si riscontra nel raccogliere dati orali. È un corpus statico (=a campione chiuso, non viene più aggiornato);

• COCA^ ( Corpus of Contemporary American English , compilato da Mark Davies), che comprende circa

450 milioni di parole in inglese scritto e parlato. Il periodo di campionamento va dal 1990 al 2012.

Comprende l’80% di testi scritti e il 20% di trascrizioni di testi orali (derivanti solo da programmi televisivi e radiofonici). È un corpus statico;

• BROWN^ ( Brown University standard corpus of present-day american english ), che contiene circa un

milione parole esclusivamente in inglese americano scritto. Il periodo di campionamento comprende soltanto il 1961. È un corpus statico. Il campionamento, come è stato possibile capire, non è un’operazione scientifica ma dipendente unicamente dai parametri (soggettivi) alla base di uno studio linguistico. 1.4 Informatizzazione e rappresentazione dei dati linguistici. Come abbiamo già accennato, l’attuale concezione di corpus implica il formato elettronico ( computer- readable form/machine-readable form ); questo comporta la piena comprensione del processo di codifica informatica dei testi. Cosa significa codificare un testo? Dal punto di vista pratico, la macchina deve riconoscere i caratteri, l’uso delle maiuscole, i segni di punteggiatura, gli spazi tra le parole e le ripartizioni stilistiche (es. paragrafi, titoli ecc…). Bisogna, quindi, rendere il testo interpretabile dalla macchina per codificare contenuti rilevanti ai fini dell’indagine linguistica che vogliamo svolgere; questi contenuti ci permettono di condurre indagini morfo- sintattiche, sintattiche, semantiche, pragmatiche e (fonetiche). È preferibile che la codifica sia standardizzata, in modo da facilitare la portabilità dei dati. Per rendere esplicita, e quindi esplorare la struttura linguistica di un testo, utilizziamo l’annotazione linguistica (anche etichettatura o taggatura/tagging ) e la marcatura (dall’inglese mark-up ). 1.4.1 Annotazione e mark-up. Un corpus, nella sua forma iniziale, è semplicemente costituito da file di testo raccolti in cartelle. La forma più elementare di annotazione consiste nell’assegnare al file un nome che ne richiami il contenuto; chiaramente però, in questo caso, si tratta di un’annotazione generale e che quindi non può fare riferimento ad elemento specifico del testo. Con il termine annotazione ci si riferisce all’attività di arricchire i dati grezzi contenuti nel corpus di metadati , i quali sono standardizzati e stabiliti dalla comunità scientifica, che successivamente possiamo recuperare ed interrogare. Bisogna però fare una distinzione tra mark-up e annotazione:

• Mark-up →codifica di metadati contestuali ed oggettivi, relativi al testo, che si vogliono includere nel

corpus (es. autore, anno di pubblicazione, suddivisione in paragrafi, immagini ecc…). Molto simile alle pratiche di trascrizione, quindi ha poco a che fare con la linguistica dei corpora in senso stretto;

• Annotazione →informazioni di tipo linguistico-interpretativo (soggettive), e quindi riferite ai vari livelli

di analisi linguistica (es. morfosintassi, semantica ecc..). Per i livelli più “bassi” questo processo è solitamente automatizzato, visto che inizialmente si tratta di annotazioni oggettive. Questo tipo di annotazione, ovviamente, permette di analizzare i testi all’interno di un corpus in maniera più specifica. In particolare, l’uso di corpora annotati ha comportato un’evoluzione del concetto di “grammatica” , che ora non è più considerata come un qualcosa di fisso ma come un’entità che varia a seconda dei contesti. Distinguiamo anche la grammatica orale da quella scritta. I corpora specialistici , in particolare, presentano delle annotazioni che permettono di derivarne delle grammatiche “ristrette”, ovvero relative ad uno specifico settore (idea sviluppata da Barnbrook e Sinclair ). Il primo livello di annotazione ( morfo-sintattica ), appunto, consiste nell’ etichettatura grammaticale. Questo processo è preceduto dalla segmentazione del testo in parole/token ( tokenizzazione ). Il termine “parola” , dal punto di vista informatico e linguistico, corrisponde a sequenze ininterrotte di caratteri precedute e seguite da uno spazio o da un segno di punteggiatura. In alcuni casi, il concetto linguistico e quello informatico si distaccano leggermente, ad esempio: · Espressioni perifrastiche ( as a matter of fact ); · Composti dall’ortografia variabile ( course-book, coursebook e course book ); · Forme contratte in inglese. La tokenizzazione dei testi consente, dunque, di distinguere ogni occorrenza di ciascuna forma. Un altro processo, noto come lemmatizzazione , permette di associare le varianti morfologiche di una parola e considerarne tutte le flessioni come un’unica parola ( es. le flessioni “do”, “did”, “does”, “doing” e “done” sono tutte riconducibili al lemma “do” ). L’analisi morfologica di una lingua grazie alla lemmatizzazione è anche conosciuta come “stemming” , e ovviamente la sua rilevanza dipende dalla difficoltà morfologica di una determinata lingua.

essere letti e interpretati; un file XML non può esistere senza l’associazione di una grammatica DTD, e tale file risulta valido solo per quella grammatica specifica. La verifica del file XML in base alla sua grammatica ( validazione ) è un’operazione preliminare in uno studio corpus-based. Il TEI è uno dei progetti più significativi di codifica dei testi linguistici, che aveva come scopo quello di definire degli standard di codifica; viene pubblicato per la prima volta nel 1994, e da allora è costantemente aggiornato. Oltre ai file XML, per annotare un corpus è possibile anche utilizzare i database relazionali. A differenza dei file XML, però, i database non sono immediatamente leggibili tramite un editor di testo, ma necessitano di un database server ; questo server, che contiene appunto i dati, viene interrogato tramite delle queries (=richieste per ottenere parte di tali dati). I dati possono essere interrogati tramite un linguaggio che ha una base comune, ma che varia leggermente tra un database e un altro ( SQL=Structured Query Language). In un database le informazioni sono strutturate in tabelle composte da un insieme di colonne ( campi ), le cui righe sono riempite dall’insieme dei record ; ogni campo di una tabella è collegato ad altre tabelle per mezzo di una relazione. I record corrispondono a delle unità elementari nelle quali viene suddiviso il corpus, e presentano un certo numero di attributi ognuno (chi ha pronunciato/scritto il testo, contesto etc…). Uno dei maggiori vantaggi rappresentati dall’uso dei database consiste nel fatto che essi permettono di immagazzinare enormi quantità di dati e, allo stesso tempo, di indicizzare il testo (=compilare un secondo database in maniera automatica nel quale è segnata la posizione delle singole parole all’interno del corpus); questo permette di interrogare il corpus in maniera più rapida. 1.5 Questioni metodologiche aperte. Nell’analisi degli studi che prevedono l’utilizzo di un corpus, occorre innanzitutto fare una distinzione tra due macro-tipologie:

• Studi corpus-based→basati sui corpora. Viene applicato un^ metodo deduttivo^ (ipotesi linguistica già

nota→tramite l’esplorazione sul corpus la si verifica tramite conversazioni ripetute sui dati);

• Studi corpus-driven→guidati da corpora. Studi in cui il metodo è^ induttivo^ (si basa sull’esplorazione

senza nozioni precostituite→esplora il corpus senza un’ipotesi a monte, ed è l’esplorazione stessa che mi aiuterà ad arrivare ad una sintesi/generalizzazione). CAPITOLO 2-CREAZIONE DI CORPORA E TIPOLOGIE I diversi criteri che guidano la creazione di corpora corrispondono a domande di ricerca diverse, e permettono di classificare i corpora in tipologie (es. corpora grezzi vs. annotati, di parlato vs. di scritto etc… ). Bisogna sottolineare, prima di cominciare ad analizzare queste tipologie, che un singolo corpus può combinare in più modi le varie distinzioni (nel senso, un corpus può essere annotato, ma anche di scritto etc…). 2.1 Corpora grezzi vs. annotati. Questa distinzione, considerata come la più basilare, indica la presenza o meno in un corpus di un qualche livello di annotazione linguistico (grezzo=no annotazioni, annotato=annotazioni); La scelta dipende dal grado di sofisticatezza della ricerca linguistica che vogliamo raggiungere. L’annotazione grammaticale, per esempio, permette di formulare interrogazioni più complesse e aumenta le potenzialità della ricerca, poiché interrogare milioni di parole in maniera semplice ne consentirebbe solo un uso limitato. I corpora annotati grammaticalmente prendono il nome dal modello di grammatica su cui è basata l’annotazione, e possono seguire due diversi modelli sintattici:

• Grammatiche a struttura sintagmatica →analisi dei costituenti della frase, la quale viene segmentata in

gruppi di parole in relazione logica tra di loro;

• Grammatiche basate sulle relazioni di dipendenza→ in cui si specificano le relazioni gerarchiche tra il

verbo (predicato) e i suoi argomenti. Osservazioni grammaticali su così larga scala, ovviamente, sarebbero inconcepibili senza il contributo di corpora elettronici annotati, che tra l’altro permettono anche di aggiornare le grammatiche di riferimento. 2.2 Corpora e variazione diafasica. Nell’ambito della variazione diafasica, possiamo individuare una distinzione di base tra due tipi di corpus:

• Corpora di riferimento/generali/generici →hanno come obiettivo quello di riscontrare il maggior

numero di fenomeni strutturali di una lingua generale, e per questo contengono testi appartenenti a tutte le varietà diafasiche, diastratiche, diatopiche e diamesiche considerate caratteristiche di una lingua nel suo insieme (=milioni di parole). I corpora di riferimento possono essere ulteriormente suddivisi in

statici (=coprono un arco temporale ben definito) e dinamici/di monitoraggio/monitor (=nutriti regolarmente, servono per studiare l’evoluzione della lingua; l’aggiornamento può avere cadenza annuale, mensile o addirittura giornaliera, e viene effettuata automaticamente dal computer. Va sempre però mantenuto il bilanciamento). Un corpus di riferimento è costruito in maniera corretta solo se è molto ampio e contiene diverse tipologie testuali;

• Corpora specialistici →hanno come obiettivo quello di riscontrare il maggior numero di fenomeni

strutturali di una lingua speciale. Per questo motivo, sono generalmente più piccoli dei corpora generali, ma includono comunque sia testi orali che scritti. Servono a studiare gli usi linguistici relativi a contesti comunicativi specifici, relativi a discipline ed attività sociali svolte da una comunità di parlanti/ scientifica/di pratica. La lingua speciale si esprime nel lessico e nelle strutture tipiche della comunicazione specialistica; quindi, solitamente si creano per scopi specifici. I corpora di riferimento vengono utilizzati anche per gli studi relativi al genere , i quali si trovano a metà tra l’analisi sociolinguistica e quella del discorso; in particolare si mette in evidenza l’uso degli epiceni ( he, chairman ), e come questi si presentino o meno marcati in base al genere. 2.3 Corpora e variazione diamesica. Per quanto riguarda la dimensione diamesica, distinguiamo tra:

• Corpora di scritto^ (quelli che sono stati utilizzati fin dai primi corpora)→contengono testi scritti o

porzioni di testi;

• Corpora di parlato^ (utilizzati solo recentemente, a causa della difficoltà nella raccolta dei dati

orali)→contengono dati orali trascritti (la trascrizione dei dati può essere di due tipi: ortografica e prosodica ; quest’ultima tiene conto di fenomeni tipici del parlato come intonazione e ritmo). All’interno dei corpora di parlato possiamo anche individuare i corpora multimediali/multimodali , che contengono file audio e video. 2.4 corpora e variazione diacronica. Un’ulteriore bipartizione riguarda i:

• C orpora sincronici →offre uno spaccato di una lingua o di una varietà di essa in un momento definito;

l’arco temporale non è esteso;

• Corpora diacronici →contiene testi di periodi diversi in una stessa lingua ed è adatto agli studi storico-

linguistici. 2.4.1 Corpora sincronici. Un corpus sincronico rappresentativo di numerose varietà di inglese e dei “World Englishes” , è l’ ICE , che raccoglie dati linguistici delle diverse varietà nazionali e regionali dell’inglese nel mondo. Ogni sottoinsieme consta 1 milione di parole, tra scritto e parlato, prodotte dopo il 1989, etichettate grammaticalmente e semanticamente. Lo scopo principale è la comparazione delle varietà di inglese del mondo: per garantire la massima comparabilità dei dati, ogni team regionale si attiene agli stessi criteri di campionamento dei testi e di rappresentazione dei dati. Per molti paesi il progetto ICE costituisce la prima occasione di investigazione sistematica della propria varietà nazionale. Alcune varietà regionali sono rappresentate da corpora minori come ad esempio lo “Scottish Corpus of Texts and Speech” con oltre 4 milioni di parole. 2.4.2 Corpora diacronici. Il criterio di campionamento dei testi è la periodizzazione linguistica. Si tratta per lo più di testi scritti e non vengono applicate restrizioni di genere. Un importante corpus diacronico è l’ ARCHER , un corpus multigenere di inglese americano e britannico che contiene testi compresi tra il 1650 e il 1999, inizialmente compilato su progetto di Biber ed Edward Finegan negli anni Novanta, oggi ripreso e portato avanti da un consorzio di 14 università in 7 paesi diversi. La versione in fase di completamento è nota come 3.2 e comprende 12 generi (metto qualche esempio non sia mai ti scordi i generi di sto corpus! Teatro, fiction, diari, racconti di viaggio…)e 8 scansioni temporali interne di 49 anni l’una. Sono rappresentate entrambe le varietà geografiche, il corpus è in continuo ampliamento. Tra i corpora generici va citato il COHA , che fa parte dei progetti di compilazione realizzati da Mark Davies. esso contiene 400 milioni di parole che coprono il periodo dal 1810 al 2009 a intervalli di 10 anni, con la stessa proporzione di generi testuali. Il corpus offre una rappresentazione bilanciata per genere. Sempre di Mark Davies troviamo un corpus di periodizzazione più recente per l'inglese americano che comprende 100 milioni di parole tratte dalla rivista americana TIME dal 1923 al 2006. Un altro esempio noto di corpus diacronico è il Lampeter Corpus of Early Modern English Tracts compilato da Josef Schmied all'Università di Chemnitz in Germania, che contiene testi interi di tipo pubblicistico datati tra il 1640 e il

Numerose sono le applicazioni pratiche di corpus di L2, fra tutte lo sviluppo di sillabi e materiale per apprendenti che tenga conto delle difficoltà di un particolare gruppo linguistico e degli errori riscontrati a livelli diversi di competenza. In questo ambito specifico, la ricerca fondata su corpora raccoglie le istanze della linguistica acquisizione e dell'insegnamento delle lingue straniere. Questo è uno degli indirizzi più recenti della linguistica dei corpora che risale alla fine degli anni ’80. Alcuni aspetti del campionamento e dell'annotazione del corpora di apprendenti, nonché il loro utilizzo, hanno assunto rilievo metodologico e teorico. È importante menzionare la riflessione sui concetti di norma di riferimento o target di apprendimento: dato un campione di lingua inglese di apprendenti non nativi, esso può essere confrontato con la produzione di apprendenti nativi in contesti equivalenti, come il LOCNESS ( Louvain Corpus of Native English Essays ), un corpus di saggi argomentati scritti da studenti universitari americani e inglesi, oppure con i saggi contenuti in un corpus generico di riferimento come il BNC. I corpora di L2 possono aiutare a decidere l'ordine di insegnamento di argomenti grammaticali e a definire il vocabolario che deve essere insegnato a seconda dei diversi obiettivi di apprendimento, stabilendo le priorità sulla base di osservazioni di frequenza d’uso. Possono essere inoltre usati per la creazione di prove d'esame per la valutazione e la diagnosi delle competenze linguistiche come ad esempio accade per il Cambridge Learner corpus e l'attività di Cambridge English Language Assessment. Anche il Longman Learner’s Corpus e l' Oxford English corpus sono corpora ad uso commerciale e vengono perlopiù usati dalle rispettive case editrici per lo sviluppo di materiale pedagogico. Possono essere annoverati tra i corpora di apprendenti anche il MICUSP e il CHILDES. Il primo contiene una parte di parlanti di inglese non nativi ed è costituito di elaborati scritti in inglese per scopi specifici, prove d'esame o prove corrette, ma non valutate non pubblicate. Il secondo costituisce l'esempio più noto di corpus del parlato di bambini. 2.6 Corpora multilingui. Con la bipartizione tra corpora paralleli e comparabili si entra nella dimensione del confronto inter linguistico, degli studi produttivi e contrassi tramite l'ausilio di corpora. Il principio che regola il campionamento dei testi in questo caso è quello di scegliere o testi tradotti considerati insieme ai testi di partenza e osservati in parallelo, oppure testi confrontabili per genere, registro, funzione comunicativa, ma redatti in lingue diverse. I corpora paralleli possono contenere qualsiasi coppia di testi, purché originali, e le loro traduzioni, in entrambe le direzioni di traduzione non sempre è possibile avere una rappresentazione bilanciata di una coppia di lingue. a seconda della direzione che la comparazione assume, il corpus consente di studiare innanzitutto le caratteristiche dell'italiano doppiato in relazione sia fenomeni di transfer dall'inglese sia ai vincoli tecnici imposti dal mezzo audiovisivo e, se confrontato con corpora di parlato spontaneo in originale inglese e italiano, di stabilire le differenze o somiglianze sistematiche nella distribuzione di diversi fenomeni della lingua parlata. Un esempio per quanto riguarda il corpus parallelo e comparabile e l’ OPUS ( Open Parallel Corpus ) è un insieme di corpora paralleli di traduzioni tratte dal web, allineate e annotate automaticamente. Si tratta di una open source che comprende testi paralleli di natura diversa catturati dal web e messi a disposizione della comunità scientifica per testare modelli di traduzione automatica e di elaborazione del linguaggio naturale. Oltre a questo corpus abbiamo l’ EUROPARL che comprende gli estratti degli atti del parlamento europeo in 11 lingue diverse considerati in parallelo alla versione inglese e allineati a livello di frase. Il TEC è un corpus di traduzioni in inglese da lingue sia europee che extra europee. Comprende testi esclusivamente iscritti organizzati in quattro sezioni: fiction, biografie, stampa e riviste di volo per circa 10 milioni di parole. I testi sono annotati a seconda di sesso, nazionalità e occupazione del traduttore, lingua di partenza, direzione della traduzione, editore della traduzione. È stato concepito da Mona Baker. L'approccio è empirico ed è teso a verificare su un grande numero di testo soluzione produttive ripetute o viceversa idiosincratiche e riconducibili a singoli traduttori. L'esito più interessante di questo filone di studi sono le osservazioni sulle norme produttive, dette anche universali della traduzione. La teoria dell'universali è indiscutibilmente probabilistica, basata su osservazioni di frequenza e affermazioni di probabilità relative all'occorrenza di certe rese produttive in contesti indipendenti dalla coppia di lingue coinvolta nel processo di traduzione e in una certa misura addirittura gli scopi che la traduzione si prefigge. Essi riguardano la tendenza alla semplificazione , la tendenza opposta all’ esplicitazione (l'aggiunta nel testo di arrivo di parole) eccetera. Sono universali della traduzioni parimenti la normalizzazione , cioè la tendenza a riportare a una lingua media non sociolinguisticamente marcata forme colloquiali del testo originale, e il transfer o interferenza , ossia l'influenza esercitata sul testo di arrivo. 2.7 Corpora e WWW. Il World Wide Web rappresenta ad oggi la più grande banca di dati di testi esistente facilmente accessibile. da questo sorge la domanda se i contenuti testuali della rete entrino in competizione con i modelli tradizionali. l'origine dei documenti che si incontrano non è sempre verificabile e la loro tipologia non facilmente

classificabile, il che li rende dati linguistici che necessitano di un riordino secondo precisi principi di campionamento. Google offre risultati affidabili grazie a uno strumento di indicizzazione molto potente e efficace. Può essere utilizzato come un metodo di estrazione di dati testuali attendibile. Tuttavia i motori di ricerca commerciali funzionano su testi non annotati e non consentono di compiere ricerche linguistiche complesse in quanto usano criteri di rilevanza non pertinenti alla ricerca linguistica. Per sopperire a questa mancanza sono stati sviluppati alcuni strumenti informatici per la creazione di corpus Fai da Te attingendo dal web come ad esempio WebBootCaT dell'interfaccia sketch engine , un client sviluppato da Adam Kilgariff o il progetto WebCorp realizzato da Antoniette Renouf insieme a un gruppo di ricercatori della city university di Birmingham. Per valutare i vantaggi e svantaggi associati all'utilizzo del web come corpus occorre tornare su temi centrali alla linguistica dei corpora: l'ampiezza del campione, la rappresentatività e il bilanciamento, i sistemi di interrogazione dei dati che determinano la funzionalità e la conseguente utilità pratica dei corpus. Google sicuramente è più accessibile senza costi aggiuntivi per l’utilizzo; il problema si pone piuttosto in termini di corretto bilanciamento, tale per cui, rispetto alle varietà di tipologie testuali selezionate, nessuna dovrà prevalere sulle altre. Questo fenomeno di sbilanciamento tende comunque a manifestarsi anche in corpora tradizionali. L'uso di corpora per l'analisi linguistica consente di misurare la variabilità intrinseca ai fenomeni linguistici. La ricerca basata su corpora testuali investe tutti i livelli di analisi linguistica, dalla morfosintassi al lessico, dalla descrizione semantica alla descrizione di fenomeni pragmatici, testuali e discorsivi. Il corpus rappresenta ciò che è stato detto in una lingua in un certo momento, suggerisce dimensioni di interpretazione della variazione linguistica rispetto a parametri sia interni al testo che contestuali ed esterni, ma non contiene tutto ciò che si può dire di una lingua. 2.8 Corpora e analisi stilistica. Si intende lo studio stilistico di testi letterari anche molto noti, alla luce di ciò che la rappresentazione in corpora informatizzati e la loro lettura tramite concordanza e in liste di frequenza può rivelare, in conformità o difformità con la critica letteraria esistente. A questo proposito si vedono i contributi metodologici di Bill Louw e Martin Wynne su diversi aspetti della stilistica dei corpora, e in particolare sulla poesia di Michael Stubbs su Joseph Conrad , di Jonathan Culpeper su Shakespeare , di Bettina Fisher Starke su Jane Austen. La stilistica dei corpora tende invece a recuperare l'unicità testuale della creazione letteraria. Un'analisi stilistica che utilizzi gli strumenti della linguistica dei corpora potrà quindi riproporre sul testo letterario quasi tutte le domande di ricerca che si sono discusse nei paragrafi precedenti, investendo i vari livelli dell'analisi linguistica, lessicale, grammaticale, semantica e pragmatica, allo scopo di trarne il quadro dello stile di un autore e di derivarne una chiave critica nuova.