Scarica Che cosa sono i corpora e quali sono e più Appunti in PDF di Linguistica solo su Docsity! 4) CHE COSA SONO I CORPORA, QUALI SONO E I PIU FAMOSI Esistono varie definizioni corpora, una delle più famose è quella di Sinclair, che ha un ruolo fondamentale nella linguistica dei corpora, che dice che è una collezione di testi naturali, scelti per caratterizzare uno stato o una varietà di una lingua; quindi, a seconda del testo che viene scelto si prende in considerazione una specifica varietà di lingua. Bonelli, studiosa che in Italia ha lavorato molto sui corpora sottolinea il fatto che i testi devono essere rappresentativi e utilizzabili per una analisi linguistica. Le altre definizioni sottolineano il fatto che i testi devono essere esempi di linguaggio naturale, devono avere delle informazioni utile per l’analisi linguistica. C’è anche chi ritiene che siano solamente un insieme di testi conservati in un computer. Nell’enciclopedia dell’italiano della Treccani (ENCIT) I corpora vengono descritti come: collezioni per lo più di grandi dimensioni di testi orali e scritti prodotti in contesti comunicativi reali, conservati in formato elettronico e spesso corredati di strumenti di consultazione informatici. I corpora permettono di osservare l’uso effettivo di una lingua e di verificare tendenze generali su base statistica. Spina nel 2001 descrive i corpora come una raccolta strutturata di testi in formato elettronico, che si assumono rappresentativi di una data lingua o di un suo sottoinsieme, mirata ad analisi di tipo linguistico. Nelle attestazioni più recenti (2011) il corpus viene definito come una raccolta di testi (scritti, orali o multimediali) o parti di essi in numero finito in formato elettronico trattati in modo uniforme (Ossia tokenizzati) così da essere gestibili ed interrogabili informaticamente. Se le finalità sono linguistiche (ossia la descrizione di lingue naturali o della loro varietà) i testi sono perlopiù scelti in modo da essere autentici e rappresentativi: la rappresentatività riguarderà sempre un uso concreto della lingua, e quindi un insieme di produzioni che necessariamente presentano caratteri collettivi, sociali e storici. Ugualmente Baroni (2011) parla di corpora aggiungendo che sono odi grandi dimensioni, fino agli anni ’90 si stava sull’ordine di 1 milione di parole, i corpora oggi per essere giudicati rappresentativi si sta sul miliardo di parole, ciò è possibile grazie all’avvento dei web. Sempre secondo Baroni sono delle collezioni di grandi dimensioni, di testi orali e scritti prodotti in contesti comunicativi reali, conservati in formato elettronico e spesso corredati di strumenti di consultazione informatici, i corpora permettono di osservare l’uso effettivo di una lingua e di verificare tendenze generali su base statistica. Quindi ricapitolando le caratteristiche che ritroviamo presenti in ogni enunciato descrittivo dei corpus sono il fatto che sono una collezione di testi: selezionati, naturali, rappresentativi (mirano a rappresentare una realtà), principalmente in formato elettronico e strutturati per l’analisi linguistica. I corpora vengono distinti in generazioni in relazione al periodo di compilazione e al numero di parole che contengono, per questo motivo abbiamo i corpora di prima generazione, compilati tra gli anni Sessanta e ottanta e contengono milioni parole. Durante gli anni ’60 presso la Brown University negli stati uniti fu sviluppato il Brown corpus, considerato come il vero capostipite dei moderni corpora elettronici. L’intenzione dei suoi creatori era quella di produrre una risorsa standard per lo studio linguistico. Il Brown Corpus raccoglie 500 testi di circa 2.000 parole l’uno, per un totale di 1 milione di parole, testi appartenenti a 15 macrocategorie diverse (narrativa, settori scientifici, religiosi, saggi, bibliografie ecc.). il Brown corpus costituì per lungo tempo la risorsa di riferimento per gli studi sulla lingua inglese, ed è ad oggi il corpus più studiato ed analizzato del mondo. Il Brown corpus da luogo alla cosiddetta Brown family composta da: LOB corpus (contiene inglese britannico), dal FROWN corpus e dal FLOB corpus (raccolti entrambi negli anni ’90). La Brown family totalizza circa 6 milioni di parole ed è oggi disponibile su SketchEngine. Successivamente abbiamo il London-Lund corpus, il CIE, il Birmingham Collection of English texts. Nel frattempo, vengono prodotti i primi software per l’analisi linguistica e i primi personal computer. All’inizio degli anni ’90 ci furono due fattori propulsivi che portarono alla creazione di corpora di dimensioni maggiori: l’interesse delle case editrici britanniche per la creazione di opere lessicografiche e grammaticografie e lo sviluppo della linguistica computazionale. Questi favori la nascita dei corpora di seconda generazione dell’ordine di decine di milioni parole. Nel 1991 nacque il progetto del British National Corpus (BNC) realizzato da un consorzio guidato dalla oxford University. Il corpus fu pubblicato nel 1994 e aveva l’obbiettivo di rappresentare un nuovo standard per i corpora di riferimento, il BNC (per struttura e dimensione) ha costituito per decenni un riferimento stabile per la progettazione delle risorse linguistiche nel mondo. In quegli anni, in italia, sono stati realizzati il database TLIO (Tesoro della lingua italiana delle origini) e il corpus LIP (Lessico di frequenza dell’italiano parlato. Nello stesso anno in cui nasceva il progetto del BNC, Sinclair sviluppò la raccolta un nuovo progetto, la Bank of English. Questa risorsa fu concepita con l’idea di fornire un nuovo modello di riferimento per la compilazione delle risorse linguistiche, sia il Brown che il BCN erano infatti stati progettai come corpora statici invece la Bank of English si propone come una raccolta aperta in continuo aggiornamento e contiene testi completi. La risorsa contiene ad oggi circa 650 milioni di parole, prevalentemente di inglese scritto ma anche con una porzione orale. Durante gli anni ’90 si assiste ad una forte diffusione e sviluppo del web. La disponibilità di enormi quantità di testi in formato elettronico ad accesso libero come la rete era di forte interesse per chi si stava occupando di raccogliere e conservare dati linguistici. Il web rappresenta il più grande agglomerato di dati testuali ed è in continua espansione. L’interesse dei linguisti per il materiale pubblicato in rete si è gradualmente fatto più consistente, fino ad arrivare nei primi anni 2000 alla formulazione del concetto di web as corpus per cui la rete è considerata di per sé come uno sterminato corpus multilingue, interrogabile attraverso i motori di ricerca. Nascono così i corpora di terza (centinaia di milioni di token) e quarta generazione (miliardi di parole). Perciò i linguisti decidono di sfruttare il web, costruendo grandi corpora raccolti attraverso varie metodologie, i cosiddetti web corpora. Il gruppo di ricerca WaCKy ha creato in breve tempo 4 grandi corpora per alcune delle principali lingue europee, ognuno dei quali contiene all’incirca 2 miliari di parole grafiche. Il sistema Sketch Engine permette l’interrogazione online di grandi risorse linguistiche ai fini lessicografici di ricerca. In Sketch Engine attualmente sono interrogabili 87 corpora di 53 lingue diverse, tra cui il Brown corpus, il CNC e alcuni corpora WaCKy. Il gruppo di ricerca dello Sketch Engine sta inoltre sviluppando i TenTen corpora, ossia una serie di risorse linguistiche multilingui derivate dal web che si pongono l’obbiettivo di raggiungere la grandezza di 10 miliardi di parole. Corpora di parlato: - London-Lund corpus - Sezione del parlato del BNC - CANCODE: The Cambridge and Nottingham Corpus of Discourse in English (CANCODE) is a five- million-word corpus of spoken interaction - LCIE