Corpus Linguistics: Analisi Linguistica Basata sui Dati Reali | Appunti di Sociolinguistica

CORPUS: con questo termine si fa riferimento ad una raccolta di dati che è stata digitalizzata in formato elettronico. In

sociolinguistica è infatti prassi ormai consolidata condurre ricerche sulla base dei CORPORA LINGUISTICI, generalmente accessibili

via internet.

Conservare dati in formato elettronico presenta diversi vantaggi, tra cui:

1. Accessibilità

2. Velocità

3. Accuratezza

Tra i principali corpora dell’italiano si possono menzionare, per quanto riguarda LO SCRITTO:

1. CoLFIS: testi tratti dai quotidiani La Repubblica, La Stampa, Il Corriere della Sera, raccolti nel periodo 1992 – 1994

2. CORIS/CODIS: testi di narrativa, prosa giornalistica, accademica e giuridico – amministrativa raccolti negli anni ’80 e ’90

del ‘900 (CORIS) e in anni più recenti (CODIS)

3. Corpus La Repubblica: gli articoli pubblicati nel periodo 1985 - 2000

4. itWaC: testi estratti dal web

5. NUNC: conversazioni tratte da gruppi di discussione telematica (news group ) su vari temi: argomenti di politica, religione,

storia…

Per quanto riguarda IL PARLATO:

1. LIP: dialoghi e monologhi, sia in presenza del destinatario sia a distanza, raccolti in quattro città italiane nel 1990 – 1992;

suddivisi in quattro tipi di testi, differenti tra di loro anche rispetto all’opposizione tra formalità e informalità. È il corpus

da cui è stato tratto il primo dizionario di frequenza dell’italiano parlato: De Mauro/Mancini/Vedovelli/Voghera

2. Corpus LABLITA: testi dialogici e monologici di parlato spontaneo, prodotti da adulti e bambini in situazioni comunicative

diverse, e di parlato radiotelevisivo, raccolti a partire dal 1965

3. CLIPS: testi di parlato dialogico semi – spontaneo, parlato radiotelevisivo e telefonico, e lettura di frasi, raccolti in 15 città

italiane tra la fine degli anni ’90 e l’inizio degli anni 2000

4. LIR: testi di parlato radiofonico provenienti dalle principali emittenti nazionali

5. LIT 2006: testi di parlato televisivo provenienti dalle reti RAI e Mediaset, raccolti nell’anno 2006

Anche per L’INGLESE CONTEMPORANEO abbiamo dei corpora:

1. BNC e COBUILD: due corpora di testi scritti e parlati in inglese britannico, il primo di 100 milioni di parole, il secondo di

oltre 650 milioni di parole

2. COCA: un corpus di testi scritti e parlati in inglese americano raccolti nel periodo 1990 – 2012, per un totale di 450 milioni

di parole

3. GloWbE: un corpus di testi estratti dalle pagine web di 20 paesi di lingua inglese, di quasi 2 miliardi di parole

INTERROGAZIONE DI UN CORPUS: avviene attraverso una maschera predisposta per questa operazione. La maschera consente di

formulare la richiesta di estrazione, della qwery, o servendosi di pulsanti e campi precompilati o cercando una stringa di un

linguaggio o interrogazione.

Una qwery, inoltre, da in risposta il numero complessivo di occorrenze dell’elemento cercato. L’uso dei corpora si presenta ad

ANALISI QUANTITATIVE.

ANALISI MULTIVARIATA: analizzazione del rapporto di co – variazione fra una variabile dipendente e più variabili indipendenti

concorrenti. La VARIABILE DIPENDENTE è generalmente binaria, ossia a 2 valori, e consiste nella realizzazione o non di un

fenomeno linguistico; le VARIABILI INDIPENDENTI sono invece rappresentate dai fattori del contesto linguistico ed extralinguistico

che entrano in gioco. Il programma di analisi multivariata più usato è VARBRUL, nato negli anni ì70 e rielaborato in versioni

successive, l’ultima delle quali è GoldVarb X. Ad oggi il programma più usato è Rbrul.

CORPUS LINGUISTICS:

Mc Enery e Wilson (1997)

La corpus linguistics studia quindi la lingua nel modo in cui essa viene utilizzata dai parlanti concreti in reali situazioni comunicative.

La sociolinguistica variazionista adotta metodologie che rientrano nel dominio della linguistica dei corpora, per cui si può parlare di

corpus – based variationist linguistics per tutti quegli studi sociolinguistici che mirano ad investigare la variazione sui corpora di dati

reali.

NON SOLO QUANTO SPESSO I PARLANTI USANO UNA VARIANTE, MA PERCHE’.

Molti studi di sociolinguistica sui corpora sono stati rivolti alla lingua per riferirsi agli uomini e alle donne.

Caldas – Coulthard and Moom (1999)

Per le donne uso degli aggettivi legati al loro aspetto fisico (beautiful, pretty…), per gli uomini i modificatori riguardano l’importanza

(key, big, great…)

Hunston (1999)

Studio dell’aggettivo “right” come modificatore “the right man for the job” vs. “the right woman for this man”.

Xiao e Tao (2006)

Ma anche alle scelte linguistiche che emergono dal comportamento linguistico di uomini e donne. Uno studio sociolinguistico

corpus – based sull’uso degli intensificatori “very, so, absolutely and totally” come manifestazione di genered language. Nella lingua

scritta le donne utilizzano maggiormente questi aggettivi intensificatori.

Baker (2010)

Analisi diacronica condotta utilizzando il brown corpus. Negli anni ’60 si nota un aumento dei pronomi femminili nella forma di

sdoppiamento delle forme he/she/her o di parole inclusive person < man che evidenzia un cambiamento culturale in atto e una

crescita in termini di consapevolezza sociolinguistica.

Anteprima parziale del testo

Scarica Corpus Linguistics: Analisi Linguistica Basata sui Dati Reali e più Appunti in PDF di Sociolinguistica solo su Docsity!

CORPUS: con questo termine si fa riferimento ad una raccolta di dati che è stata digitalizzata in formato elettronico. In sociolinguistica è infatti prassi ormai consolidata condurre ricerche sulla base dei CORPORA LINGUISTICI , generalmente accessibili via internet. Conservare dati in formato elettronico presenta diversi vantaggi, tra cui:

Accessibilità
Velocità
Accuratezza Tra i principali corpora dell’italiano si possono menzionare, per quanto riguarda LO SCRITTO :
CoLFIS : testi tratti dai quotidiani La Repubblica, La Stampa, Il Corriere della Sera, raccolti nel periodo 1992 – 1994
CORIS/CODIS : testi di narrativa, prosa giornalistica, accademica e giuridico – amministrativa raccolti negli anni ’80 e ’ del ‘900 (CORIS) e in anni più recenti (CODIS)
Corpus La Repubblica : gli articoli pubblicati nel periodo 1985 - 2000
itWaC : testi estratti dal web
NUNC : conversazioni tratte da gruppi di discussione telematica ( news group ) su vari temi: argomenti di politica, religione, storia… Per quanto riguarda IL PARLATO :
LIP : dialoghi e monologhi, sia in presenza del destinatario sia a distanza, raccolti in quattro città italiane nel 1990 – 1992; suddivisi in quattro tipi di testi, differenti tra di loro anche rispetto all’opposizione tra formalità e informalità. È il corpus da cui è stato tratto il primo dizionario di frequenza dell’italiano parlato: De Mauro/Mancini/Vedovelli/Voghera
Corpus LABLITA : testi dialogici e monologici di parlato spontaneo, prodotti da adulti e bambini in situazioni comunicative diverse, e di parlato radiotelevisivo, raccolti a partire dal 1965
CLIPS : testi di parlato dialogico semi – spontaneo, parlato radiotelevisivo e telefonico, e lettura di frasi, raccolti in 15 città italiane tra la fine degli anni ’90 e l’inizio degli anni 2000
LIR : testi di parlato radiofonico provenienti dalle principali emittenti nazionali
LIT 2006 : testi di parlato televisivo provenienti dalle reti RAI e Mediaset, raccolti nell’anno 2006 Anche per L’INGLESE CONTEMPORANEO abbiamo dei corpora:
BNC e COBUILD : due corpora di testi scritti e parlati in inglese britannico, il primo di 100 milioni di parole, il secondo di oltre 650 milioni di parole
COCA : un corpus di testi scritti e parlati in inglese americano raccolti nel periodo 1990 – 2012, per un totale di 450 milioni di parole
GloWbE : un corpus di testi estratti dalle pagine web di 20 paesi di lingua inglese, di quasi 2 miliardi di parole INTERROGAZIONE DI UN CORPUS: avviene attraverso una maschera predisposta per questa operazione. La maschera consente di formulare la richiesta di estrazione, della qwery, o servendosi di pulsanti e campi precompilati o cercando una stringa di un linguaggio o interrogazione. Una qwery, inoltre, da in risposta il numero complessivo di occorrenze dell’elemento cercato. L’uso dei corpora si presenta ad ANALISI QUANTITATIVE. ANALISI MULTIVARIATA : analizzazione del rapporto di co – variazione fra una variabile dipendente e più variabili indipendenti concorrenti. La VARIABILE DIPENDENTE è generalmente binaria, ossia a 2 valori, e consiste nella realizzazione o non di un fenomeno linguistico; le VARIABILI INDIPENDENTI sono invece rappresentate dai fattori del contesto linguistico ed extralinguistico che entrano in gioco. Il programma di analisi multivariata più usato è VARBRUL, nato negli anni ì70 e rielaborato in versioni successive, l’ultima delle quali è GoldVarb X. Ad oggi il programma più usato è Rbrul. CORPUS LINGUISTICS: Mc Enery e Wilson (1997) La corpus linguistics studia quindi la lingua nel modo in cui essa viene utilizzata dai parlanti concreti in reali situazioni comunicative. La sociolinguistica variazionista adotta metodologie che rientrano nel dominio della linguistica dei corpora, per cui si può parlare di corpus – based variationist linguistics per tutti quegli studi sociolinguistici che mirano ad investigare la variazione sui corpora di dati reali. NON SOLO QUANTO SPESSO I PARLANTI USANO UNA VARIANTE, MA PERCHE’. Molti studi di sociolinguistica sui corpora sono stati rivolti alla lingua per riferirsi agli uomini e alle donne. Caldas – Coulthard and Moom (1999) Per le donne uso degli aggettivi legati al loro aspetto fisico (beautiful, pretty…), per gli uomini i modificatori riguardano l’importanza (key, big, great…) Hunston (1999) Studio dell’aggettivo “right” come modificatore “the right man for the job” vs. “the right woman for this man”. Xiao e Tao (2006) Ma anche alle scelte linguistiche che emergono dal comportamento linguistico di uomini e donne. Uno studio sociolinguistico corpus – based sull’uso degli intensificatori “very, so, absolutely and totally” come manifestazione di genered language. Nella lingua scritta le donne utilizzano maggiormente questi aggettivi intensificatori. Baker (2010) Analisi diacronica condotta utilizzando il brown corpus. Negli anni ’60 si nota un aumento dei pronomi femminili nella forma di sdoppiamento delle forme he/she/her o di parole inclusive person < man che evidenzia un cambiamento culturale in atto e una crescita in termini di consapevolezza sociolinguistica.

Corpus Linguistics: Analisi Linguistica Basata sui Dati Reali, Appunti di Sociolinguistica

Documenti correlati

Anteprima parziale del testo

Scarica Corpus Linguistics: Analisi Linguistica Basata sui Dati Reali e più Appunti in PDF di Sociolinguistica solo su Docsity!