Riassunto Linguistica dei Corpora | Sintesi del corso di Traduzione

CAPITOLO 1-CARATTERISTICHE DEI CORPORA NELLA LINGUISTICA MODERNA

1.1 Che cos’è un corpus?

Nel corso degli anni, sono state fornite diverse definizioni della parola “corpus”: queste potrebbero essere

riassunte come un insieme di testi (o parti di testi) che si assume essere rappresentativo dello stato di una

lingua, o di una varietà di essa, al fine di ottenerne una descrizione complessiva. I corpora, dunque, non sono

altro che campioni di lingua estratti da una popolazione (in questo caso con popolazione ci riferiamo ad un

insieme di testi) più ampia, sui quali vengono condotti degli studi di tipo linguistico. Queste analisi

linguistiche vengono condotte in un ambiente “naturale”, ridotto e controllato, con l’obiettivo di inferire

informazioni anche sulla popolazione dalla quale è stato ricavato il campione; gli esiti, quindi, dovrebbero

essere generalizzabili.

In un primo periodo i corpora non erano informatizzati, e quindi anche la loro capacità di archiviazione dei

dati era limitata; ad oggi, però, i corpora sono sempre accessibili elettronicamente e quindi interrogabili

tramite computer. Il padre della linguistica computazionale (colui che ha dunque trasformato i corpora da

cartacei a digitali) è Padre Roberto Busa.

Dal punto di vista informatico, un corpus è solitamente costituito da dei documenti in formato testo raccolti

in delle cartelle (=directory).

1.2-1.3 Autenticità dei dati linguistici, rappresentatività e campionamento.

Essendo i corpora odierni costituiti da milioni, se non miliardi di parole bisogna fare riferimento ad alcune

loro problematiche:

1. Autenticità→con autenticità dei dati linguistici contenuti in un corpus, intendiamo che questi sono

naturali e non vengono prodotti in maniera artificiale dai linguisti. Grazie allo sviluppo di Internet e

alla sua diffusione, è diventato molto semplice accedere a questo tipo di dati, con però alcune

difficoltà riferite ai dati orali e in generale ai vincoli imposti dalla tutela della privacy. I metodi di

raccolta “tradizionali” (=su campo) vengono messi in discussione sotto questo aspetto perché,

ovviamente, se i parlanti vengono informati dello studio in atto si riduce notevolmente la loro

spontaneità (ad oggi vengono comunque accettati però);

2. Rappresentatività e campionamento→come sappiamo, una lingua è potenzialmente “infinita”, e per

questo motivo è necessario campionarla (ovviamente, il campione deve rifletterne le caratteristiche).

La lingua può essere osservata sulla base degli assi di variazione: diacronica (=vediamo come la

lingua varia nel tempo), diamesica (=osserviamo la lingua dal punto di vista del mezzo, e quindi in

particolare vedremo la contrapposizione tra scritto e orale), diafasica (=studio del registro, i cui due

poli opposti sono informale e formale), diastratica (=studio della lingua sulla base di fattori sociali e

demografici) e diatopica (=variazione della lingua in base al luogo). Questi parametri extralinguistici

ci permettono di condurre un’analisi quasi statistica, nella quale appunto si indaga se esiste una

relazione tra una variazione contestuale (=variabile indipendente) e un certo comportamento

linguistico (=variabile dipendente).

Ma quanti testi vanno inclusi? E in quale proporzione? Vanno inclusi testi interi o solo delle porzioni degli

stessi? Tutte le risposte a queste domande derivano dal corpus design, che stabilisce i criteri di costruzione

del corpus. L’ampiezza di un corpus corrisponde al numero di parole che contengono, e questi campioni di

parole devono provenire da un gran numero di testi differenti, in modo da fornire una rappresentazione

bilanciata delle tipologie testuali (=i generi) e delle variabili sociali. La decisione se includere testi interi o

solo porzioni, invece, dipende dal tipo di analisi linguistica.

Per consultare un corpus e avviare un’analisi linguistica a partire da questo, è fondamentale sapere come è

stato costruito; in caso contrario, ogni ipotesi formulata potrebbe rappresentare un rischio per l’attendibilità

dello studio.

Vediamo ora alcuni esempi di corpora fondamentali:

•BRITISH NATIONAL CORPUS (BNC), che comprende circa 100 milioni di parole in inglese scritto e

parlato. Fa riferimento all’inglese contemporaneo e il periodo di campionamento va dai primi anni ‘70

del ‘900 al 1993 (si tratta di un campione deperibile, perché fa riferimento ad un periodo linguistico

limitato. Probabilmente tra un decennio non sarà più attuale). Comprende il 90% di testi scritti e il 10%

di trascrizioni di testi orali, semplicemente per la difficoltà che si riscontra nel raccogliere dati orali. È

un corpus statico (=a campione chiuso, non viene più aggiornato);

•COCA (Corpus of Contemporary American English, compilato da Mark Davies), che comprende circa

450 milioni di parole in inglese scritto e parlato. Il periodo di campionamento va dal 1990 al 2012.

Riassunto Linguistica dei Corpora, Sintesi del corso di Traduzione

Documenti correlati

Anteprima parziale del testo

Scarica Riassunto Linguistica dei Corpora e più Sintesi del corso in PDF di Traduzione solo su Docsity!

CAPITOLO 1-CARATTERISTICHE DEI CORPORA NELLA LINGUISTICA MODERNA

• BRITISH NATIONAL CORPUS (BNC) , che comprende circa 100 milioni di parole in inglese scritto e

• COCA^ ( Corpus of Contemporary American English , compilato da Mark Davies), che comprende circa

• BROWN^ ( Brown University standard corpus of present-day american english ), che contiene circa un

• Mark-up →codifica di metadati contestuali ed oggettivi, relativi al testo, che si vogliono includere nel

• Annotazione →informazioni di tipo linguistico-interpretativo (soggettive), e quindi riferite ai vari livelli

• Studi corpus-based→basati sui corpora. Viene applicato un^ metodo deduttivo^ (ipotesi linguistica già

• Studi corpus-driven→guidati da corpora. Studi in cui il metodo è^ induttivo^ (si basa sull’esplorazione

• Grammatiche a struttura sintagmatica →analisi dei costituenti della frase, la quale viene segmentata in

• Grammatiche basate sulle relazioni di dipendenza→ in cui si specificano le relazioni gerarchiche tra il

• Corpora di riferimento/generali/generici →hanno come obiettivo quello di riscontrare il maggior

• Corpora specialistici →hanno come obiettivo quello di riscontrare il maggior numero di fenomeni

• Corpora di scritto^ (quelli che sono stati utilizzati fin dai primi corpora)→contengono testi scritti o

• Corpora di parlato^ (utilizzati solo recentemente, a causa della difficoltà nella raccolta dei dati

• C orpora sincronici →offre uno spaccato di una lingua o di una varietà di essa in un momento definito;

• Corpora diacronici →contiene testi di periodi diversi in una stessa lingua ed è adatto agli studi storico-