Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Corpora nella Lingua Moderna: Caratteristiche e Metodi di Raccolta, Sintesi del corso di Linguistica Generale

Università degli Studi di Bergamo (UNIBG)Linguistica Generale

Riassunto del libro "Linguistica dei corpora" di Maria Freddi.

Tipologia: Sintesi del corso

2021/2022

In offerta

~~30 Punti~~

Offerta a tempo limitato

Caricato il 02/01/2023

TheHandler 🇮🇹

4.5

(53)

17 documenti

1 / 33

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

PARTE 1: CARATTERISTICHE DEI CORPORA NELLA LINGUA MODERNA

1.1 Che cos’è un corpus?

Un corpus è un insieme di testi (o di parti di testi) che si assume essere

rappresentativo dello stato di una lingua o di una varietà di essa al fine di

ottenerne una descrizione complessiva; è un campione estratto da una

popolazione più ampia ed è stato selezionato per condurvi un qualche tipo di

analisi linguistica i cui esiti dovrebbero essere generalizzabili (dirci qualcosa della

popolazione da cui il campione è stato tratto).

Modernamente un corpus è implicitamente sempre informatizzato, perché si

intende che possa essere accessibile elettronicamente e interrogabile con un

computer; di fatto è costituito da una serie di documenti solitamente in formato

testo (file.ext) raccolti in cartelle (directory).

Le caratteristiche di un corpus pongono, però, una serie di problemi, ovvero

autenticità, rappresentatività e campionamento, informatizzazione e

rappresentazione dei dati linguistici.

1.2 Autenticità dei dati linguistici

Si definiscono “autentici” gli esempi d'uso linguistico attestato, scritto e orale,

d'uso reale e non artificiosamente inventato dal linguista.

Oggi è molto facile attingere a grandi quantità di dati linguistici autentici; in alcuni

casi però l'acquisizione dei dati può essere problematica per una serie di

limitazioni, come la difficoltà di acquisire dati orali, di trascriverli, ottenere i

permessi per lo sfruttamento della proprietà intellettuale e i vincoli imposti dalla

tutela della privacy; è per questo motivo che nella creazione di corpora si ricorre

talvolta a metodi di raccolta dei dati che sembrerebbero metterne in discussione

l'autenticità (per esempio, se un gruppo di parlanti è stato informato di un

progetto per la raccolta di dati orali e ne vengono registrate le conversazioni, si

può discutere quanto queste siano spontanee e "autentiche").

1.3 Rappresentatività e campionamento

L’ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua,

ma questo non è possibile per la natura stessa di una lingua, i cui confini non sono

definiti.

Il campionamento dei testi in corpus è dunque un'operazione necessaria, ma non

basta: pure la selezione del materiale da includere nel campione deve avvenire

secondo dei criteri adeguati alla popolazione che si intende studiare. La selezione

dovrà tenere conto della:

variazione diamesica: che individua le due varietà fondamentali dello scritto

e del parlato

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

In offerta

Scopri Sintesi del corso di Linguistica Generale Università degli Studi di Bergamo (UNIBG)

Documenti correlati

Linguistica dei corpora / Maria Freddi

(1)

Fondamenti di Linguistica Digitale: Caratteristiche dei Corpora

Linguistica dei Corpora: Metodi e Analisi - Prof. Valentini

metodi di insegnamento corpora

Lingua Digitale: Corpora e Tratti Definitori - Prof. Ghezzi

la linguistica dei corpora e i corpora della lingua Italiana

(2)

La raccolta e l'analisi dei corpora nella linguistica computazionale - Prof. Pagliaro

Introduzione ai corpora linguistici: concetti, tipologie e applicazioni

LINGUISTICA DEI CORPORA, M. FREDDI

(1)

Corpora dell'italiano

Linguistica dei Corpora: Introduzione, Storia e Metodi

(3)

Linguistica dei Corpora: Un Viaggio nella Storia, nei Metodi e nelle Applicazioni

Anteprima parziale del testo

Scarica Corpora nella Lingua Moderna: Caratteristiche e Metodi di Raccolta e più Sintesi del corso in PDF di Linguistica Generale solo su Docsity!

PARTE 1: CARATTERISTICHE DEI CORPORA NELLA LINGUA MODERNA

1.1 Che cos’è un corpus?

Un corpus è un insieme di testi (o di parti di testi) che si assume essere rappresentativo dello stato di una lingua o di una varietà di essa al fine di ottenerne una descrizione complessiva; è un campione estratto da una popolazione più ampia ed è stato selezionato per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero essere generalizzabili (dirci qualcosa della popolazione da cui il campione è stato tratto). Modernamente un corpus è implicitamente sempre informatizzato, perché si intende che possa essere accessibile elettronicamente e interrogabile con un computer; di fatto è costituito da una serie di documenti solitamente in formato testo (file.ext) raccolti in cartelle ( directory ). Le caratteristiche di un corpus pongono, però, una serie di problemi, ovvero autenticità, rappresentatività e campionamento, informatizzazione e rappresentazione dei dati linguistici.

1.2 Autenticità dei dati linguistici

Si definiscono “autentici” gli esempi d'uso linguistico attestato, scritto e orale, d'uso reale e non artificiosamente inventato dal linguista. Oggi è molto facile attingere a grandi quantità di dati linguistici autentici; in alcuni casi però l'acquisizione dei dati può essere problematica per una serie di limitazioni, come la difficoltà di acquisire dati orali, di trascriverli, ottenere i permessi per lo sfruttamento della proprietà intellettuale e i vincoli imposti dalla tutela della privacy; è per questo motivo che nella creazione di corpora si ricorre talvolta a metodi di raccolta dei dati che sembrerebbero metterne in discussione l'autenticità (per esempio, se un gruppo di parlanti è stato informato di un progetto per la raccolta di dati orali e ne vengono registrate le conversazioni, si può discutere quanto queste siano spontanee e "autentiche").

1.3 Rappresentatività e campionamento

L’ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua, ma questo non è possibile per la natura stessa di una lingua, i cui confini non sono definiti. Il campionamento dei testi in corpus è dunque un'operazione necessaria, ma non basta: pure la selezione del materiale da includere nel campione deve avvenire secondo dei criteri adeguati alla popolazione che si intende studiare. La selezione dovrà tenere conto della:  variazione diamesica : che individua le due varietà fondamentali dello scritto e del parlato

 variazione diastratica : che è determinata da fattori di tipo sociale (età, istruzione, occupazione...)  variazione diafasica : che individua le variazioni di genere e registro  variazione diacronica : che è legato alla dimensione cronologica (sincronica o diacronica)  variazione diatopica : che è determinata dalla dimensione geografica- spaziale L'utilizzo di qualsiasi corpus non può prescindere dalla conoscenza del modo in cui sono stati affrontati i problemi della variabilità della lingua e dell'esigenza di fornirne una rappresentazione bilanciata (è importante conoscere come un corpus è stato costruito).

 Corpus of Contemporary American English (COCA)

conta circa 450 milioni di parole campionate seguendo criteri di campionamento diversi; tale campionamento attinge in eguali proporzioni da 5 generi per circa 90-95 milioni di parole l'uno (parlato, fiction, riviste commerciali, giornali, riviste accademiche), include nella componente scritta del corpus gli script cinematografici, mentre in quella orale solo programmi televisivi e radiofonici trasmessi su diverse stazioni escludendo completamente conversazioni spontanee faccia a faccia in contesti quotidiani.
Mark Davies, compilatore del COCA, osserva che nelle trascrizioni dei programmi radiofonici e televisivi, esclusa una minima parte di dialoghi costruiti, il resto si può considerare un parlato spontaneo: si può, quindi, fare a meno del parlato detto più propriamente spontaneo risparmiando tempo e lavoro (perciò, volendo studiare esitazioni, interruzioni ed altre caratteristiche del parlato spontaneo in inglese americano oggi, occorrerà ricordare che i risultati di uno studio basato sulla componente orale del COCA vanno riferiti al parlato televisivo e radiofonico)
un'ulteriore differenza rispetto al BNC, è quella di aggiungere materiale nuovo con cadenza regolare  Brown University Standard Corpus of Present-Day American English (BROWN)
conta 1 milione di parole esclusivamente di inglese americano scritto e prodotto nel 1961
la proporzione di fiction e testi informativi è la stessa del BNC (1 : 3), articolata in 15 categorie tematiche che comprendono stampa, religione, tempo libero, folklore, prosa accademica, biografie e saggistica, fantascienza, letteratura rosa, prosa umoristica...
diversamente dal COCA, il BROWN esclude in toto il parlato-scritto proveniente da testi drammaturgici non ritenendolo realmente scritto, bensì una riproduzione fittizia dell'orale
il campionamento risponde a parametri soggettivi di scelta e classificazione dei testi dettati dall’ipotesi di ricerca stessa

1.4 Informatizzazione e rappresentazione dei dati linguistici

Si pone il problema della rappresentazione dei dati testuali su un supporto digitale, vale a dire della codifica informatica dei testi. La macchina deve riconoscere i caratteri, l'uso delle maiuscole, i segni di punteggiatura, deve separare le parole, deve poter mantenere le partizioni strutturali (capitoli, paragrafi, battute o turni di un testo dialogico…) L’annotazione linguistica rende esplicita ed esplorabile la struttura linguistica del testo, tuttavia è preferibile che la codifica sia standardizzata per facilitare la

portabilità dei dati; se ci si attiene a schemi noti e condivisi dalla comunità scientifica, un corpus informatizzato può essere facilmente condivisibile.

Il primo livello di annotazione riguarda l'attribuzione a ogni parola nel corpus di una parte del discorso (nome, verbo, aggettivo, avverbio…), chiamata in inglese POS tagging (POS sta per part-of-speech ), mentre in italiano etichettatura grammaticale o, più raramente, annotazione morfosintattica.
Il secondo livello di annotazione è il parsing sintattico e consiste nell'analizzare le frasi di un corpus nei loro costituenti sintattici (sintagma nominale, verbale, preposizionale…), funzioni grammaticali (Soggetto, Oggetto Diretto); è noto anche come tree banking.
Il terzo livello di annotazione è quello semantico grazie al quale il ricercatore può farsi un’idea dei campi semantici più o meno frequenti in un corpus anche in relazione alle tipologie testuali rappresentate (questo tipo di annotazione sta alla base di studi lessicali sul gergo specialistico e sulle metafore nei testi).
Il quarto livello di annotazione riguarda i fenomeni della coesione testuale (ellissi, sostituzione e ripetizione di elementi lessicali); questo livello comporta l’individuazione in un testo di un antecedente o di un conseguente a cui viene attribuito un tag che indica la direzione della relazione tra i due elementi, che specifica la relazione (per esempio, anafora) ed eventualmente la natura inclusiva o esclusiva di un pronome (per esempio, we ).
Il quinto livello di annotazione riguarda la dimensione pragmatica dei testi: ciò comprende per lo più il piano degli atti linguistici in riferimento a ciascun enunciato (assertivi, direttivi, commissioni…); è il caso dell’analisi delle forme dialogiche, delle questioni di rappresentanza del palato e dell’annotazione prosodica (intonazione, ritmo, accento). Un particolare tipo di annotazione è l’ error-tagging che consiste nell’annotazione di categorie di errori riscontrabili nella produzione linguistica di apprendenti una lingua non materna. A seconda del grado di astrazione dell’analisi linguistica che si intende annotare, l’annotazione può essere interamente automatica, interamente manuale o semiautomatica. L’annotazione semantica può essere automatizzata come processo con una percentuale di accuratezza molto bassa e richiede quindi una più accurata revisione manuale. L’annotazione prosodica può essere automatizzata solo parzialmente proprio per la natura delle informazioni che si devono catturare nella trascrizione di testi orali (pattern intonativi, accenti e pause).

L’etichettatura grammaticale è la più automatizzata: un esempio è il CLAWS (Constituent Likelihood Automatic Word-Tagging System), sviluppato dall’Università di Lancaster, che ha un’accuratezza non inferiore al 97% e che è stato utilizzato per annotare il BNC.

queries. Le informazioni sono strutturate in tabelle composte da un insieme di colonne, dette campi (per esempio film, regista, anno di uscita…) e le cui righe sono riempite dall’insieme dei record (per esempio Ocean’s Eleven, Steven Soderbergh, 2001). Uno dei maggiori vantaggi dell'uso di database consiste nella capacità di immagazzinare enormi quantità di dati e contemporaneamente di compilare automaticamente un secondo database in cui è registrata la posizione delle singole parole all'interno del corpus.

PARTE 2: CREAZIONE DI CORPORA E TIPOLOGIE

I diversi criteri che guidano la creazione di corpora, rispondono a domande di ricerca e, sulla base di tali criteri, i corpora possono essere classificati in tipologie:  corpora generici e corpora specialistici  corpora di parlato e corpora di scritto  corpora di testi prodotti da nativi (L1) e corpora di testi prodotti da non nativi (L2)  corpora monolingui e corpora multilingui  corpora annotati e corpora non annotati Ciascun corpus può, ovviamente, combinare in più modi queste distinzioni.

2.1 Corpora grezzi vs Corpora annotati

Con questa ripartizione si indica la presenza o meno in un corpus di un qualche livello di annotazione linguistica (per esempio, il BNC e il COCA contengono un’annotazione per parti del discorso; l’etichettatura grammaticale permette di formulare interrogazioni più complesse). In sintesi, sono due i modelli sintattici:

quelli fondati su un’ analisi dei costituenti di frase : segmentano la frase in gruppi di parole in relazione logica tra loro (un esempio è il Penn Treebank, che opta per un’annotazione ricca dove si specificano informazioni di natura diversa e viene inoltre indicata la divisione in sintagmi specificando il ruolo grammaticale di ogni sintagma)
quelli basati su relazioni di dipendenza : specificano le relazioni gerarchiche tra il verbo (predicato) e i suoi argomenti (un esempio è il Prague Dependency Treebank (PDT) in cui ogni verbo viene trattato nelle sue relazioni gerarchiche con altri elementi della frase) 1) International Corpus of English (ICE)
- sviluppato dall’Università di Londra
- contiene 1 milione di parole etichettate per parte del di scorso unitamente alla segmentazione in costituenti di frase; per ogni frase (o enunciato nei testi orali) indicata come PU, ossia parsing unit , esiste un albero sintattico che specifica:  la parte del discorso di ogni parola contenuta nell'albero (PRON pers sing -> pronome personale singolare / V montr infin -> verbo monotransitivo infinitivo)  il suo ruolo all'interno del sintagma (NPHD -> noun phrase head > testa sostantivale o pronominale / MVB -> main verb -> verbo principale)  il tipo di sintagma (NP -> noun phrase -> sintagma nominale / VP -> verb phrase -> sintagma verbale)  la funzione grammaticale (SU -> Subject -> Soggetto / OD -> Direct Object -> Oggetto Diretto)

2) FrameNet

progetto ultradecennale portato avanti in California
si rifà alla grammatica in costituenti per individuare pattern associativi tra significati e relazioni sintattiche, ossia la serie di possibilità combinatorie di ogni parola in ciascuna delle sue accezioni allo scopo di compilare un inventario di frame semantici Un esempio è lo studio del frame semantico REPLACEMENT (“sostituzione”): abbiamo diversi elementi semantici del frame, ovvero l’Agente (che determina il cambiamento o la sostituzione), il Vecchio (che viene sostituito) e il Nuovo (esito della sostituzione). Nell’estratto: We must replace a state that's gigantic, inefficient and corrupt with one that’s' modern and austere, he said. “we” sarà etichettato come ‘Agente’, “ a state that's gigantic, inefficient and corrupt ” come ‘Vecchio’ e “ with one that's modern and austere ” come ‘Nuovo’; ciascun elemento semantico corrisponde a un ruolo sintattico, rispettivamente pronome personale, sintagma nominale e sintagma preposizionale. In conclusione, ogni parola evoca un frame semantico che può avere realizzazioni sintattico-semantiche diverse (le valenze). Un esempio noto di corpus annotato per le relazioni di coriferimento è il Lancaster/IBM Anaphoric Treebank (100.000 parole), sviluppato all'Università di Lancaster, che consente di etichettare coppie formate da un antecedente e dall'elemento in relazione anaforica. Quale esempio di annotazione pragmatica, abbiamo l' Araucaria Data Base o Araucaria Argumentation Corpus , un progetto guidato da Chris Reed dell'Università di Dundee in Scozia, che ha portato alla creazione del primo corpus di testi argomentativi di generi diversi, e del software per l'annotazione di schemi argomentativi in un testo.  Pavia Corpus of Film Dialogue (PCFD)
sviluppato da un’équipe di ricercatori dell'Università di Pavia
offre un modello di corpus elettronico di parlato filmico in due lingue (inglese e italiano); poiché la relazione tra le due lingue è una relazione di traduzione (inglese originale e italiano doppiato), il PCFD costituisce anche un esempio di corpus parallelo
il primo livello di rappresentazione del parlato è la trascrizione: nel momento in cui si trascrive, si operano delle scelte che hanno rilevanza teorica e queste scelte dovrebbero essere tali da non ridurre la complessità del dato orale e da non perdere informazioni interessanti per il linguista che andrà ad analizzare i dati; il passaggio dal mezzo orale a quello scritto pone, ad esempio, la scelta tra trascrizione ortografica e trascrizione prosodica (ossia una trascrizione che tiene conto anche di fenomeni tipici del parlato quali intonazione e ritmo); la codifica in corpora computerizzati interrogabili elettronicamente sarà pertanto

un compromesso tra mantenimento e semplificazione della complessità descritta; in generale, quelle che sono puramente varianti ortografiche dovranno essere evitate ( all right / alright ) a meno che non siano portatrici di differenze semantiche e pragmatiche importanti (per esempio, le forme wanna , gotta ...)

2.2.2 Corpora specialistici

Generalmente, questi sono ben più piccoli rispetto ai corpora di riferimento per via della specificità testuale che intendono rappresentare, con un ordine di grandezza variabile dalle centinaia di migliaia di parole a uno o due milioni (possono limitarsi anche a decine di migliaia di token). Alcuni esempi: o Michigan Corpus of Academic Spoken English (MICASE), che conta 1,8 milioni di parole di testi solo orali (200 ore di parlato) appartenenti alla varietà dell’inglese americano e che offre una rappresentazione della lingua in uso nei diversi contesti accademici dell’Università del Michigan o British Academic Spoken English (BASE), che conta 1,6 milioni di parole tra lezioni e seminari registrati alle Università di Warwick e Reading, suddivise in 4 macroaree (scienze umane, scienze della vita, scienze fisiche e scienze sociali); permette di osservare l’interazione tra codice verbale e visivo o British Academic Written English (BAWE), che conta 6,5 milioni di parole (tratte da 2500 composizioni scritte) e che ha lo scopo di studiare la produzione accademica scritta e di confrontarla con quella orale; contiene solo testi prodotti da studenti di livello avanzato e non da accademici di professione; copre gli stessi 4 settori del BASE ed è stato concepito come ausilio della didattica dell’inglese per scopi specifici e accademici o Corpus of Professional English (CPE), che conta 28 milioni di parole di inglese usato da professionisti nel campo della scienza, dell’ingegneria e della tecnologia; costituisce una risorsa per la formazione linguistica dei professionisti di settore (può essere utilizzato per sviluppare materiale didattico, dizionari specialistici e manuali)

2.3 Corpora e variazione diamesica

La lingua scritta ha caratterizzato i primi corpora, invece i corpora di solo parlato sono molto più recenti.

2.3.1 Corpora di scritto

Il più noto è il BROWN , considerato il primo corpus di inglese in senso moderno; non contiene testi interi, ma solo parti di testi di uguale lunghezza (2000 parole ciascuna), per un totale di 1 milione di parole di inglese americano scritto rispondenti a 15 categorie testuali (scienza o prosa accademica, fiction, stampa, religione, letteratura umoristica, tecnica e commercio); tuttavia è sincronicamente limitato a testi prodotti nel 1961, ma è servito da modello ad altri corpora (come il LOB).

2.3.2 Corpora di parlato

Essi consentono l’osservazione della variazione diamesica all'interno di una stessa varietà geografica (per esempio, si potrà comparare l'uso dei connettivi testuali nella componente scritta e in quella orale del BNC). Tra i corpora di solo parlato citiamo: o il Michigan Corpus of Academic Spoken English (MICASE) per l’inglese americano o il British Academic Spoken English (BASE)per l'inglese britannico o il Pavia Corpus of Film Dialogue (PCFD) o il London-Lund Corpus, che contiene 500.000 parole (100 testi di 5000 parole) di inglese britannico orale trascritto e annotato prosodicamente con tratti prosodici e paralinguistici o il Cambridge and Nottingham Corpus of Discourse in English (CANCODE), che conta 5 milioni di parole e che raccoglie trascrizioni di parlato spontaneo in inglese britannico registrato in centinaia di location in Gran Bretagna e in situazioni disparate (conversazioni casuali, interazioni durante lo shopping, interazioni al lavoro, discussioni, richieste di informazioni...) o il Wellington Corpus, che conta 1 milione di parole appartenenti a testi compresi tra il 1990 e il 1994; si tratta di discorsi formali o monologhi (inclusi i dibattiti parlamentari), discorsi semi-formali o monologhi elicitati (incluse le interviste televisive e radiofoniche), conversazioni informali o dialoghi (dunque non vi sono testi interi); la varietà di parlato è quella neozelandese o il Lessico di frequenza dell’italiano parlato (LIP), compilato da un gruppo di linguisti diretto da Tullio de Mauro all’inizio degli anni novanta, che contiene 500.000 parole di trascrizioni di registrazioni effettuate a Milano , Firenze, Roma e Napoli per circa 57 ore di parlato tra conversazioni faccia-a-faccia e telefoniche, dibattiti e interviste tratte da trasmissioni radiofoniche e televisive, lezioni, conferenze, omelie...

2.4 Corpora e variazione diacronica

Distinguiamo tra:  corpus sincronico : offre uno spaccato di lingua o di una varietà di essa in un momento definito; di norma, quindi, l’arco temporale non è sufficientemente esteso da consentire l’osservazione di uno sviluppo in diacronia  corpus diacronico : contiene testi di periodi diversi in una stessa lingua ed è viceversa adatto agli studi storico-linguistici.

2.4.1 Corpora sincronici

Lo International Corpus of English (ICE) è un corpus redatto da più di 20 équipe di ricercatori in tutto il mondo e raccoglie dati linguistici delle diverse varietà nazionali e regionali dell’inglese nel mondo. Ogni sottoinsieme conta 1 milione di parole, tra scritto e parlato, prodotte dopo il 1989, etichettate grammaticalmente e semanticamente. Lo scopo principale dell’ICE è la comparazione delle varietà dell’inglese nel mondo. Alcune varietà regionali minori sono rappresentate da corpora decisamente più piccoli per dimensioni, ma che comunque rendono investigabili empiricamente fenomeni che possono essere distintivi di quella varietà.

2.4.2 Corpora diacronici

Lo Helsinki Diachronic Corpus of English Texts è un corpus di testi scritti che copre i 3 grandi periodi della storia della lingua inglese dall’VIII secolo all’inizio del XVIII; contiene 1,5 milioni di parole provenienti da testi di generi diversi annotati secondo parametri sociolinguistici (età, status sociale dell’autore e distanza tra autore e destinatario); così, si può studiare l’evoluzione nel tempo delle preposizioni o della terza persona singolare dei tempi presenti. Un altro corpus importante è l’ARCHER (A Representative Corpus of Historical English Registers) , un corpus multigenere di inglese americano e britannico che contiene testi compresi tra il 1650 e il 1999; comprende 12 generi: teatro, fiction, sermoni, diari, resoconti di viaggio o di vita politica, medicina, legge, scienza, lettere, stampa, pubblicità e il genere denominato early prose (in continuo ampliamento). Un altro esempio è il Diachronic Corpus of Present-Day Spoken English (DCPSE) , compilato dallo University College of London; si tratta di una derivazione del London-Lund Corpus e dell’ICE-GB; contiene 460.000 parole di inglese orale annotate sintatticamente dell’uno e 420.000 parole dell’altro, in modo da comporre la dimensione diacronica dagli anni Sessanta agli anni Novanta.

2.4.3 Corpora dinamici o di monitoraggio

I corpora di monitoraggio rappresentano un’altra categoria di corpora utilizzata per lo studio del cambiamento linguistico. Essa viene regolarmente aggiornata con materiale nuovo su base annuale, mensile e in alcuni casi anche quotidiana. I corpora di monitoraggio sono, perciò, tendenzialmente molto più grandi dei corpora a campione chiuso. Alcuni esempi sono:  il Corpus of Contemporary American English (COCA), che viene aggiornato una o due volte all’anno mantenendo una rappresentazione dei dati bilanciata rispetto a 5 generi, equamente divisa tra parlato, fiction, riviste commerciali, giornali e riviste accademiche  il Bank of English (BOE) , che conta 600 milioni di parole Connessi ai corpora di monitoraggio esistono i sistemi di filtraggio di termini nuovi come il sistema AVIATOR (Analysis of Verbal Interaction and Automated Text Retrieval), ACRONYM (Automated Collocational Retrieval of Nyms) e APRIL (Analysis and Prediction of Innovation in Text): tali sistemi sono stati sviluppati con lo scopo di osservare usi lessicali nuovi, usi creativi e pattern di formazione di parola su corpora di testate giornalistiche (“Times”, “Independent” e il “Guardian”).

2.5 Corpora e apprendimento linguistico

Il più noto corpus di inglese L2 è l’ International Corpus of Learner English (ICLE) :

compilato dall’Università Louvain-la-Neuve
contiene saggi di tipo argomentativo scritti da studenti universitari di 16 madrelingue diverse (bulgaro, cinese, ceco, olandese, finlandese, francese, tedesco, italiano, giapponese, norvegese...)
nella sua ultima versione del 2009 conta 3,7 milioni di parole e 6.085 testi, tutti lemmatizzati ed etichettati grammaticalmente; questa novità rende possibile la ricerca per lemmi, per parti del discorso e per sequenze di parti del discorso (per esempio, i nomi al plurale seguiti da verbi lessicali) Numerose sono le applicazioni pratiche dei corpora L2, fra tutte lo sviluppo di sillabi e materiale per apprendenti che tenga conto delle difficoltà di un particolare gruppo linguistico e degli errori riscontrati a livelli diversi di competenza. Corpora di L2 possono aiutare a decidere l’ordine di insegnamento di argomenti grammaticali e a definire il vocabolario che deve essere insegnato a seconda dei diversi obiettivi di apprendimento, oppure per la creazione di prove d’esame per la valutazione e la diagnosi delle competenze linguistiche.