

























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunto del libro "Linguistica dei corpora" di Maria Freddi.
Tipologia: Sintesi del corso
1 / 33
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























In offerta
Un corpus è un insieme di testi (o di parti di testi) che si assume essere rappresentativo dello stato di una lingua o di una varietà di essa al fine di ottenerne una descrizione complessiva; è un campione estratto da una popolazione più ampia ed è stato selezionato per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero essere generalizzabili (dirci qualcosa della popolazione da cui il campione è stato tratto). Modernamente un corpus è implicitamente sempre informatizzato, perché si intende che possa essere accessibile elettronicamente e interrogabile con un computer; di fatto è costituito da una serie di documenti solitamente in formato testo (file.ext) raccolti in cartelle ( directory ). Le caratteristiche di un corpus pongono, però, una serie di problemi, ovvero autenticità, rappresentatività e campionamento, informatizzazione e rappresentazione dei dati linguistici.
Si definiscono “autentici” gli esempi d'uso linguistico attestato, scritto e orale, d'uso reale e non artificiosamente inventato dal linguista. Oggi è molto facile attingere a grandi quantità di dati linguistici autentici; in alcuni casi però l'acquisizione dei dati può essere problematica per una serie di limitazioni, come la difficoltà di acquisire dati orali, di trascriverli, ottenere i permessi per lo sfruttamento della proprietà intellettuale e i vincoli imposti dalla tutela della privacy; è per questo motivo che nella creazione di corpora si ricorre talvolta a metodi di raccolta dei dati che sembrerebbero metterne in discussione l'autenticità (per esempio, se un gruppo di parlanti è stato informato di un progetto per la raccolta di dati orali e ne vengono registrate le conversazioni, si può discutere quanto queste siano spontanee e "autentiche").
L’ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua, ma questo non è possibile per la natura stessa di una lingua, i cui confini non sono definiti. Il campionamento dei testi in corpus è dunque un'operazione necessaria, ma non basta: pure la selezione del materiale da includere nel campione deve avvenire secondo dei criteri adeguati alla popolazione che si intende studiare. La selezione dovrà tenere conto della: variazione diamesica : che individua le due varietà fondamentali dello scritto e del parlato
variazione diastratica : che è determinata da fattori di tipo sociale (età, istruzione, occupazione...) variazione diafasica : che individua le variazioni di genere e registro variazione diacronica : che è legato alla dimensione cronologica (sincronica o diacronica) variazione diatopica : che è determinata dalla dimensione geografica- spaziale L'utilizzo di qualsiasi corpus non può prescindere dalla conoscenza del modo in cui sono stati affrontati i problemi della variabilità della lingua e dell'esigenza di fornirne una rappresentazione bilanciata (è importante conoscere come un corpus è stato costruito).
Corpus of Contemporary American English (COCA)
Si pone il problema della rappresentazione dei dati testuali su un supporto digitale, vale a dire della codifica informatica dei testi. La macchina deve riconoscere i caratteri, l'uso delle maiuscole, i segni di punteggiatura, deve separare le parole, deve poter mantenere le partizioni strutturali (capitoli, paragrafi, battute o turni di un testo dialogico…) L’annotazione linguistica rende esplicita ed esplorabile la struttura linguistica del testo, tuttavia è preferibile che la codifica sia standardizzata per facilitare la
portabilità dei dati; se ci si attiene a schemi noti e condivisi dalla comunità scientifica, un corpus informatizzato può essere facilmente condivisibile.
L’etichettatura grammaticale è la più automatizzata: un esempio è il CLAWS (Constituent Likelihood Automatic Word-Tagging System), sviluppato dall’Università di Lancaster, che ha un’accuratezza non inferiore al 97% e che è stato utilizzato per annotare il BNC.
queries. Le informazioni sono strutturate in tabelle composte da un insieme di colonne, dette campi (per esempio film, regista, anno di uscita…) e le cui righe sono riempite dall’insieme dei record (per esempio Ocean’s Eleven, Steven Soderbergh, 2001). Uno dei maggiori vantaggi dell'uso di database consiste nella capacità di immagazzinare enormi quantità di dati e contemporaneamente di compilare automaticamente un secondo database in cui è registrata la posizione delle singole parole all'interno del corpus.
I diversi criteri che guidano la creazione di corpora, rispondono a domande di ricerca e, sulla base di tali criteri, i corpora possono essere classificati in tipologie: corpora generici e corpora specialistici corpora di parlato e corpora di scritto corpora di testi prodotti da nativi (L1) e corpora di testi prodotti da non nativi (L2) corpora monolingui e corpora multilingui corpora annotati e corpora non annotati Ciascun corpus può, ovviamente, combinare in più modi queste distinzioni.
Con questa ripartizione si indica la presenza o meno in un corpus di un qualche livello di annotazione linguistica (per esempio, il BNC e il COCA contengono un’annotazione per parti del discorso; l’etichettatura grammaticale permette di formulare interrogazioni più complesse). In sintesi, sono due i modelli sintattici:
2) FrameNet
un compromesso tra mantenimento e semplificazione della complessità descritta; in generale, quelle che sono puramente varianti ortografiche dovranno essere evitate ( all right / alright ) a meno che non siano portatrici di differenze semantiche e pragmatiche importanti (per esempio, le forme wanna , gotta ...)
Generalmente, questi sono ben più piccoli rispetto ai corpora di riferimento per via della specificità testuale che intendono rappresentare, con un ordine di grandezza variabile dalle centinaia di migliaia di parole a uno o due milioni (possono limitarsi anche a decine di migliaia di token). Alcuni esempi: o Michigan Corpus of Academic Spoken English (MICASE), che conta 1,8 milioni di parole di testi solo orali (200 ore di parlato) appartenenti alla varietà dell’inglese americano e che offre una rappresentazione della lingua in uso nei diversi contesti accademici dell’Università del Michigan o British Academic Spoken English (BASE), che conta 1,6 milioni di parole tra lezioni e seminari registrati alle Università di Warwick e Reading, suddivise in 4 macroaree (scienze umane, scienze della vita, scienze fisiche e scienze sociali); permette di osservare l’interazione tra codice verbale e visivo o British Academic Written English (BAWE), che conta 6,5 milioni di parole (tratte da 2500 composizioni scritte) e che ha lo scopo di studiare la produzione accademica scritta e di confrontarla con quella orale; contiene solo testi prodotti da studenti di livello avanzato e non da accademici di professione; copre gli stessi 4 settori del BASE ed è stato concepito come ausilio della didattica dell’inglese per scopi specifici e accademici o Corpus of Professional English (CPE), che conta 28 milioni di parole di inglese usato da professionisti nel campo della scienza, dell’ingegneria e della tecnologia; costituisce una risorsa per la formazione linguistica dei professionisti di settore (può essere utilizzato per sviluppare materiale didattico, dizionari specialistici e manuali)
La lingua scritta ha caratterizzato i primi corpora, invece i corpora di solo parlato sono molto più recenti.
Il più noto è il BROWN , considerato il primo corpus di inglese in senso moderno; non contiene testi interi, ma solo parti di testi di uguale lunghezza (2000 parole ciascuna), per un totale di 1 milione di parole di inglese americano scritto rispondenti a 15 categorie testuali (scienza o prosa accademica, fiction, stampa, religione, letteratura umoristica, tecnica e commercio); tuttavia è sincronicamente limitato a testi prodotti nel 1961, ma è servito da modello ad altri corpora (come il LOB).
Essi consentono l’osservazione della variazione diamesica all'interno di una stessa varietà geografica (per esempio, si potrà comparare l'uso dei connettivi testuali nella componente scritta e in quella orale del BNC). Tra i corpora di solo parlato citiamo: o il Michigan Corpus of Academic Spoken English (MICASE) per l’inglese americano o il British Academic Spoken English (BASE)per l'inglese britannico o il Pavia Corpus of Film Dialogue (PCFD) o il London-Lund Corpus, che contiene 500.000 parole (100 testi di 5000 parole) di inglese britannico orale trascritto e annotato prosodicamente con tratti prosodici e paralinguistici o il Cambridge and Nottingham Corpus of Discourse in English (CANCODE), che conta 5 milioni di parole e che raccoglie trascrizioni di parlato spontaneo in inglese britannico registrato in centinaia di location in Gran Bretagna e in situazioni disparate (conversazioni casuali, interazioni durante lo shopping, interazioni al lavoro, discussioni, richieste di informazioni...) o il Wellington Corpus, che conta 1 milione di parole appartenenti a testi compresi tra il 1990 e il 1994; si tratta di discorsi formali o monologhi (inclusi i dibattiti parlamentari), discorsi semi-formali o monologhi elicitati (incluse le interviste televisive e radiofoniche), conversazioni informali o dialoghi (dunque non vi sono testi interi); la varietà di parlato è quella neozelandese o il Lessico di frequenza dell’italiano parlato (LIP), compilato da un gruppo di linguisti diretto da Tullio de Mauro all’inizio degli anni novanta, che contiene 500.000 parole di trascrizioni di registrazioni effettuate a Milano , Firenze, Roma e Napoli per circa 57 ore di parlato tra conversazioni faccia-a-faccia e telefoniche, dibattiti e interviste tratte da trasmissioni radiofoniche e televisive, lezioni, conferenze, omelie...
Distinguiamo tra: corpus sincronico : offre uno spaccato di lingua o di una varietà di essa in un momento definito; di norma, quindi, l’arco temporale non è sufficientemente esteso da consentire l’osservazione di uno sviluppo in diacronia corpus diacronico : contiene testi di periodi diversi in una stessa lingua ed è viceversa adatto agli studi storico-linguistici.
Lo International Corpus of English (ICE) è un corpus redatto da più di 20 équipe di ricercatori in tutto il mondo e raccoglie dati linguistici delle diverse varietà nazionali e regionali dell’inglese nel mondo. Ogni sottoinsieme conta 1 milione di parole, tra scritto e parlato, prodotte dopo il 1989, etichettate grammaticalmente e semanticamente. Lo scopo principale dell’ICE è la comparazione delle varietà dell’inglese nel mondo. Alcune varietà regionali minori sono rappresentate da corpora decisamente più piccoli per dimensioni, ma che comunque rendono investigabili empiricamente fenomeni che possono essere distintivi di quella varietà.
Lo Helsinki Diachronic Corpus of English Texts è un corpus di testi scritti che copre i 3 grandi periodi della storia della lingua inglese dall’VIII secolo all’inizio del XVIII; contiene 1,5 milioni di parole provenienti da testi di generi diversi annotati secondo parametri sociolinguistici (età, status sociale dell’autore e distanza tra autore e destinatario); così, si può studiare l’evoluzione nel tempo delle preposizioni o della terza persona singolare dei tempi presenti. Un altro corpus importante è l’ARCHER (A Representative Corpus of Historical English Registers) , un corpus multigenere di inglese americano e britannico che contiene testi compresi tra il 1650 e il 1999; comprende 12 generi: teatro, fiction, sermoni, diari, resoconti di viaggio o di vita politica, medicina, legge, scienza, lettere, stampa, pubblicità e il genere denominato early prose (in continuo ampliamento). Un altro esempio è il Diachronic Corpus of Present-Day Spoken English (DCPSE) , compilato dallo University College of London; si tratta di una derivazione del London-Lund Corpus e dell’ICE-GB; contiene 460.000 parole di inglese orale annotate sintatticamente dell’uno e 420.000 parole dell’altro, in modo da comporre la dimensione diacronica dagli anni Sessanta agli anni Novanta.
I corpora di monitoraggio rappresentano un’altra categoria di corpora utilizzata per lo studio del cambiamento linguistico. Essa viene regolarmente aggiornata con materiale nuovo su base annuale, mensile e in alcuni casi anche quotidiana. I corpora di monitoraggio sono, perciò, tendenzialmente molto più grandi dei corpora a campione chiuso. Alcuni esempi sono: il Corpus of Contemporary American English (COCA), che viene aggiornato una o due volte all’anno mantenendo una rappresentazione dei dati bilanciata rispetto a 5 generi, equamente divisa tra parlato, fiction, riviste commerciali, giornali e riviste accademiche il Bank of English (BOE) , che conta 600 milioni di parole Connessi ai corpora di monitoraggio esistono i sistemi di filtraggio di termini nuovi come il sistema AVIATOR (Analysis of Verbal Interaction and Automated Text Retrieval), ACRONYM (Automated Collocational Retrieval of Nyms) e APRIL (Analysis and Prediction of Innovation in Text): tali sistemi sono stati sviluppati con lo scopo di osservare usi lessicali nuovi, usi creativi e pattern di formazione di parola su corpora di testate giornalistiche (“Times”, “Independent” e il “Guardian”).
Il più noto corpus di inglese L2 è l’ International Corpus of Learner English (ICLE) :