CORPUS: con questo termine si fa riferimento ad una raccolta di dati che è stata digitalizzata in formato elettronico. In
sociolinguistica è infatti prassi ormai consolidata condurre ricerche sulla base dei CORPORA LINGUISTICI, generalmente accessibili
via internet.
Conservare dati in formato elettronico presenta diversi vantaggi, tra cui:
1. Accessibilità
2. Velocità
3. Accuratezza
Tra i principali corpora dell’italiano si possono menzionare, per quanto riguarda LO SCRITTO:
1. CoLFIS: testi tratti dai quotidiani La Repubblica, La Stampa, Il Corriere della Sera, raccolti nel periodo 1992 – 1994
2. CORIS/CODIS: testi di narrativa, prosa giornalistica, accademica e giuridico – amministrativa raccolti negli anni ’80 e ’90
del ‘900 (CORIS) e in anni più recenti (CODIS)
3. Corpus La Repubblica: gli articoli pubblicati nel periodo 1985 - 2000
4. itWaC: testi estratti dal web
5. NUNC: conversazioni tratte da gruppi di discussione telematica (news group ) su vari temi: argomenti di politica, religione,
storia…
Per quanto riguarda IL PARLATO:
1. LIP: dialoghi e monologhi, sia in presenza del destinatario sia a distanza, raccolti in quattro città italiane nel 1990 – 1992;
suddivisi in quattro tipi di testi, differenti tra di loro anche rispetto all’opposizione tra formalità e informalità. È il corpus
da cui è stato tratto il primo dizionario di frequenza dell’italiano parlato: De Mauro/Mancini/Vedovelli/Voghera
2. Corpus LABLITA: testi dialogici e monologici di parlato spontaneo, prodotti da adulti e bambini in situazioni comunicative
diverse, e di parlato radiotelevisivo, raccolti a partire dal 1965
3. CLIPS: testi di parlato dialogico semi – spontaneo, parlato radiotelevisivo e telefonico, e lettura di frasi, raccolti in 15 città
italiane tra la fine degli anni ’90 e l’inizio degli anni 2000
4. LIR: testi di parlato radiofonico provenienti dalle principali emittenti nazionali
5. LIT 2006: testi di parlato televisivo provenienti dalle reti RAI e Mediaset, raccolti nell’anno 2006
Anche per L’INGLESE CONTEMPORANEO abbiamo dei corpora:
1. BNC e COBUILD: due corpora di testi scritti e parlati in inglese britannico, il primo di 100 milioni di parole, il secondo di
oltre 650 milioni di parole
2. COCA: un corpus di testi scritti e parlati in inglese americano raccolti nel periodo 1990 – 2012, per un totale di 450 milioni
di parole
3. GloWbE: un corpus di testi estratti dalle pagine web di 20 paesi di lingua inglese, di quasi 2 miliardi di parole
INTERROGAZIONE DI UN CORPUS: avviene attraverso una maschera predisposta per questa operazione. La maschera consente di
formulare la richiesta di estrazione, della qwery, o servendosi di pulsanti e campi precompilati o cercando una stringa di un
linguaggio o interrogazione.
Una qwery, inoltre, da in risposta il numero complessivo di occorrenze dell’elemento cercato. L’uso dei corpora si presenta ad
ANALISI QUANTITATIVE.
ANALISI MULTIVARIATA: analizzazione del rapporto di co – variazione fra una variabile dipendente e più variabili indipendenti
concorrenti. La VARIABILE DIPENDENTE è generalmente binaria, ossia a 2 valori, e consiste nella realizzazione o non di un
fenomeno linguistico; le VARIABILI INDIPENDENTI sono invece rappresentate dai fattori del contesto linguistico ed extralinguistico
che entrano in gioco. Il programma di analisi multivariata più usato è VARBRUL, nato negli anni ì70 e rielaborato in versioni
successive, l’ultima delle quali è GoldVarb X. Ad oggi il programma più usato è Rbrul.
CORPUS LINGUISTICS:
Mc Enery e Wilson (1997)
La corpus linguistics studia quindi la lingua nel modo in cui essa viene utilizzata dai parlanti concreti in reali situazioni comunicative.
La sociolinguistica variazionista adotta metodologie che rientrano nel dominio della linguistica dei corpora, per cui si può parlare di
corpus – based variationist linguistics per tutti quegli studi sociolinguistici che mirano ad investigare la variazione sui corpora di dati
reali.
NON SOLO QUANTO SPESSO I PARLANTI USANO UNA VARIANTE, MA PERCHE’.
Molti studi di sociolinguistica sui corpora sono stati rivolti alla lingua per riferirsi agli uomini e alle donne.
Caldas – Coulthard and Moom (1999)
Per le donne uso degli aggettivi legati al loro aspetto fisico (beautiful, pretty…), per gli uomini i modificatori riguardano l’importanza
(key, big, great…)
Hunston (1999)
Studio dell’aggettivo “right” come modificatore “the right man for the job” vs. “the right woman for this man”.
Xiao e Tao (2006)
Ma anche alle scelte linguistiche che emergono dal comportamento linguistico di uomini e donne. Uno studio sociolinguistico
corpus – based sull’uso degli intensificatori “very, so, absolutely and totally” come manifestazione di genered language. Nella lingua
scritta le donne utilizzano maggiormente questi aggettivi intensificatori.
Baker (2010)
Analisi diacronica condotta utilizzando il brown corpus. Negli anni ’60 si nota un aumento dei pronomi femminili nella forma di
sdoppiamento delle forme he/she/her o di parole inclusive person < man che evidenzia un cambiamento culturale in atto e una
crescita in termini di consapevolezza sociolinguistica.