Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Corpus Linguistics: Analisi Linguistica Basata sui Dati Reali, Appunti di Sociolinguistica

Appunti lezione di sociolinguistica

Tipologia: Appunti

2018/2019

Caricato il 18/12/2019

alessiabombi
alessiabombi 🇮🇹

4.4

(23)

58 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CORPUS: con questo termine si fa riferimento ad una raccolta di dati che è stata digitalizzata in formato elettronico. In
sociolinguistica è infatti prassi ormai consolidata condurre ricerche sulla base dei CORPORA LINGUISTICI, generalmente accessibili
via internet.
Conservare dati in formato elettronico presenta diversi vantaggi, tra cui:
1. Accessibilità
2. Velocità
3. Accuratezza
Tra i principali corpora dell’italiano si possono menzionare, per quanto riguarda LO SCRITTO:
1. CoLFIS: testi tratti dai quotidiani La Repubblica, La Stampa, Il Corriere della Sera, raccolti nel periodo 1992 – 1994
2. CORIS/CODIS: testi di narrativa, prosa giornalistica, accademica e giuridico – amministrativa raccolti negli anni ’80 e ’90
del ‘900 (CORIS) e in anni più recenti (CODIS)
3. Corpus La Repubblica: gli articoli pubblicati nel periodo 1985 - 2000
4. itWaC: testi estratti dal web
5. NUNC: conversazioni tratte da gruppi di discussione telematica (news group ) su vari temi: argomenti di politica, religione,
storia…
Per quanto riguarda IL PARLATO:
1. LIP: dialoghi e monologhi, sia in presenza del destinatario sia a distanza, raccolti in quattro città italiane nel 1990 – 1992;
suddivisi in quattro tipi di testi, differenti tra di loro anche rispetto all’opposizione tra formalità e informalità. È il corpus
da cui è stato tratto il primo dizionario di frequenza dell’italiano parlato: De Mauro/Mancini/Vedovelli/Voghera
2. Corpus LABLITA: testi dialogici e monologici di parlato spontaneo, prodotti da adulti e bambini in situazioni comunicative
diverse, e di parlato radiotelevisivo, raccolti a partire dal 1965
3. CLIPS: testi di parlato dialogico semi – spontaneo, parlato radiotelevisivo e telefonico, e lettura di frasi, raccolti in 15 città
italiane tra la fine degli anni ’90 e l’inizio degli anni 2000
4. LIR: testi di parlato radiofonico provenienti dalle principali emittenti nazionali
5. LIT 2006: testi di parlato televisivo provenienti dalle reti RAI e Mediaset, raccolti nell’anno 2006
Anche per L’INGLESE CONTEMPORANEO abbiamo dei corpora:
1. BNC e COBUILD: due corpora di testi scritti e parlati in inglese britannico, il primo di 100 milioni di parole, il secondo di
oltre 650 milioni di parole
2. COCA: un corpus di testi scritti e parlati in inglese americano raccolti nel periodo 1990 – 2012, per un totale di 450 milioni
di parole
3. GloWbE: un corpus di testi estratti dalle pagine web di 20 paesi di lingua inglese, di quasi 2 miliardi di parole
INTERROGAZIONE DI UN CORPUS: avviene attraverso una maschera predisposta per questa operazione. La maschera consente di
formulare la richiesta di estrazione, della qwery, o servendosi di pulsanti e campi precompilati o cercando una stringa di un
linguaggio o interrogazione.
Una qwery, inoltre, da in risposta il numero complessivo di occorrenze dell’elemento cercato. L’uso dei corpora si presenta ad
ANALISI QUANTITATIVE.
ANALISI MULTIVARIATA: analizzazione del rapporto di co – variazione fra una variabile dipendente e più variabili indipendenti
concorrenti. La VARIABILE DIPENDENTE è generalmente binaria, ossia a 2 valori, e consiste nella realizzazione o non di un
fenomeno linguistico; le VARIABILI INDIPENDENTI sono invece rappresentate dai fattori del contesto linguistico ed extralinguistico
che entrano in gioco. Il programma di analisi multivariata più usato è VARBRUL, nato negli anni ì70 e rielaborato in versioni
successive, l’ultima delle quali è GoldVarb X. Ad oggi il programma più usato è Rbrul.
CORPUS LINGUISTICS:
Mc Enery e Wilson (1997)
La corpus linguistics studia quindi la lingua nel modo in cui essa viene utilizzata dai parlanti concreti in reali situazioni comunicative.
La sociolinguistica variazionista adotta metodologie che rientrano nel dominio della linguistica dei corpora, per cui si può parlare di
corpus – based variationist linguistics per tutti quegli studi sociolinguistici che mirano ad investigare la variazione sui corpora di dati
reali.
NON SOLO QUANTO SPESSO I PARLANTI USANO UNA VARIANTE, MA PERCHE’.
Molti studi di sociolinguistica sui corpora sono stati rivolti alla lingua per riferirsi agli uomini e alle donne.
Caldas – Coulthard and Moom (1999)
Per le donne uso degli aggettivi legati al loro aspetto fisico (beautiful, pretty…), per gli uomini i modificatori riguardano l’importanza
(key, big, great…)
Hunston (1999)
Studio dell’aggettivo “right” come modificatore “the right man for the job” vs. “the right woman for this man”.
Xiao e Tao (2006)
Ma anche alle scelte linguistiche che emergono dal comportamento linguistico di uomini e donne. Uno studio sociolinguistico
corpus – based sull’uso degli intensificatori “very, so, absolutely and totally” come manifestazione di genered language. Nella lingua
scritta le donne utilizzano maggiormente questi aggettivi intensificatori.
Baker (2010)
Analisi diacronica condotta utilizzando il brown corpus. Negli anni ’60 si nota un aumento dei pronomi femminili nella forma di
sdoppiamento delle forme he/she/her o di parole inclusive person < man che evidenzia un cambiamento culturale in atto e una
crescita in termini di consapevolezza sociolinguistica.
pf2

Anteprima parziale del testo

Scarica Corpus Linguistics: Analisi Linguistica Basata sui Dati Reali e più Appunti in PDF di Sociolinguistica solo su Docsity!

CORPUS: con questo termine si fa riferimento ad una raccolta di dati che è stata digitalizzata in formato elettronico. In sociolinguistica è infatti prassi ormai consolidata condurre ricerche sulla base dei CORPORA LINGUISTICI , generalmente accessibili via internet. Conservare dati in formato elettronico presenta diversi vantaggi, tra cui:

  1. Accessibilità
  2. Velocità
  3. Accuratezza Tra i principali corpora dell’italiano si possono menzionare, per quanto riguarda LO SCRITTO :
  4. CoLFIS : testi tratti dai quotidiani La Repubblica, La Stampa, Il Corriere della Sera, raccolti nel periodo 1992 – 1994
  5. CORIS/CODIS : testi di narrativa, prosa giornalistica, accademica e giuridico – amministrativa raccolti negli anni ’80 e ’ del ‘900 (CORIS) e in anni più recenti (CODIS)
  6. Corpus La Repubblica : gli articoli pubblicati nel periodo 1985 - 2000
  7. itWaC : testi estratti dal web
  8. NUNC : conversazioni tratte da gruppi di discussione telematica ( news group ) su vari temi: argomenti di politica, religione, storia… Per quanto riguarda IL PARLATO :
  9. LIP : dialoghi e monologhi, sia in presenza del destinatario sia a distanza, raccolti in quattro città italiane nel 1990 – 1992; suddivisi in quattro tipi di testi, differenti tra di loro anche rispetto all’opposizione tra formalità e informalità. È il corpus da cui è stato tratto il primo dizionario di frequenza dell’italiano parlato: De Mauro/Mancini/Vedovelli/Voghera
  10. Corpus LABLITA : testi dialogici e monologici di parlato spontaneo, prodotti da adulti e bambini in situazioni comunicative diverse, e di parlato radiotelevisivo, raccolti a partire dal 1965
  11. CLIPS : testi di parlato dialogico semi – spontaneo, parlato radiotelevisivo e telefonico, e lettura di frasi, raccolti in 15 città italiane tra la fine degli anni ’90 e l’inizio degli anni 2000
  12. LIR : testi di parlato radiofonico provenienti dalle principali emittenti nazionali
  13. LIT 2006 : testi di parlato televisivo provenienti dalle reti RAI e Mediaset, raccolti nell’anno 2006 Anche per L’INGLESE CONTEMPORANEO abbiamo dei corpora:
  14. BNC e COBUILD : due corpora di testi scritti e parlati in inglese britannico, il primo di 100 milioni di parole, il secondo di oltre 650 milioni di parole
  15. COCA : un corpus di testi scritti e parlati in inglese americano raccolti nel periodo 1990 – 2012, per un totale di 450 milioni di parole
  16. GloWbE : un corpus di testi estratti dalle pagine web di 20 paesi di lingua inglese, di quasi 2 miliardi di parole INTERROGAZIONE DI UN CORPUS: avviene attraverso una maschera predisposta per questa operazione. La maschera consente di formulare la richiesta di estrazione, della qwery, o servendosi di pulsanti e campi precompilati o cercando una stringa di un linguaggio o interrogazione. Una qwery, inoltre, da in risposta il numero complessivo di occorrenze dell’elemento cercato. L’uso dei corpora si presenta ad ANALISI QUANTITATIVE. ANALISI MULTIVARIATA : analizzazione del rapporto di co – variazione fra una variabile dipendente e più variabili indipendenti concorrenti. La VARIABILE DIPENDENTE è generalmente binaria, ossia a 2 valori, e consiste nella realizzazione o non di un fenomeno linguistico; le VARIABILI INDIPENDENTI sono invece rappresentate dai fattori del contesto linguistico ed extralinguistico che entrano in gioco. Il programma di analisi multivariata più usato è VARBRUL, nato negli anni ì70 e rielaborato in versioni successive, l’ultima delle quali è GoldVarb X. Ad oggi il programma più usato è Rbrul. CORPUS LINGUISTICS: Mc Enery e Wilson (1997) La corpus linguistics studia quindi la lingua nel modo in cui essa viene utilizzata dai parlanti concreti in reali situazioni comunicative. La sociolinguistica variazionista adotta metodologie che rientrano nel dominio della linguistica dei corpora, per cui si può parlare di corpus – based variationist linguistics per tutti quegli studi sociolinguistici che mirano ad investigare la variazione sui corpora di dati reali. NON SOLO QUANTO SPESSO I PARLANTI USANO UNA VARIANTE, MA PERCHE’. Molti studi di sociolinguistica sui corpora sono stati rivolti alla lingua per riferirsi agli uomini e alle donne. Caldas – Coulthard and Moom (1999) Per le donne uso degli aggettivi legati al loro aspetto fisico (beautiful, pretty…), per gli uomini i modificatori riguardano l’importanza (key, big, great…) Hunston (1999) Studio dell’aggettivo “right” come modificatore “the right man for the job” vs. “the right woman for this man”. Xiao e Tao (2006) Ma anche alle scelte linguistiche che emergono dal comportamento linguistico di uomini e donne. Uno studio sociolinguistico corpus – based sull’uso degli intensificatori “very, so, absolutely and totally” come manifestazione di genered language. Nella lingua scritta le donne utilizzano maggiormente questi aggettivi intensificatori. Baker (2010) Analisi diacronica condotta utilizzando il brown corpus. Negli anni ’60 si nota un aumento dei pronomi femminili nella forma di sdoppiamento delle forme he/she/her o di parole inclusive person < man che evidenzia un cambiamento culturale in atto e una crescita in termini di consapevolezza sociolinguistica.