Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Lingua Digitale: Corpora e Tratti Definitori - Prof. Ghezzi, Slide di Linguistica

Una introduzione alla lingua digitale, con un focus sui corpora e i tratti definitori. Della rappresentatività e del campionamento dei corpora, dell'importanza della codifica e della rappresentazione dei dati linguistici, e dell'analisi di frequenza e approccio probabilistico. Vengono inoltre introdotti concetti come colligazione, preferenza semantica, e lettura di concordanze e collocati.

Tipologia: Slide

2022/2023

Caricato il 14/01/2024

Claudia.Losa
Claudia.Losa 🇮🇹

4.5

(4)

45 documenti

1 / 121

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
MODULO 1 FONDAMENTI DI
LINGUISTICA DEI CORPORA Da Freddi, M. Linguistica dei
corpora
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Lingua Digitale: Corpora e Tratti Definitori - Prof. Ghezzi e più Slide in PDF di Linguistica solo su Docsity!

MODULO 1 – FONDAMENTI DI

LINGUISTICA DEI CORPORA

Da Freddi, M. Linguistica dei corpora

MODULO 1 – FONDAMENTI DI

LINGUISTICA DEI CORPORA

1.1. Caratteristiche dei corpora

Grammaticalità vs Accettabilità La prima deriva dall’osservanza delle regole della grammatica, nella costruzione di una frase: Incolori verdi idee dormono furiosamente La seconda deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarle in contesti appropriati: Dovremmo riparare la sedia infelice Domani ti messaggio

1.1. CHOMSKY: LINGUISTICA INTERNA ED ESTERNA

Grammaticalità vs Probabilità

La frase:

Ho visto un’esile balena

Per quanto sia improbabile nella ordinaria

comunicazione linguistica, è perfettamente grammaticale

1.1. CHOMSKY: LINGUISTICA INTERNA ED ESTERNA

Parallelamente, ed in polemica con la GGT, si sviluppa un

approccio nel quale i dati sono il prodotto dell’attività

linguistica dei parlanti.

Herdan reinterpreta la dicotomia langue/parole in termini

di popolazione statistica/campione statistico

1.1. CHOMSKY: LINGUISTICA INTERNA ED ESTERNA

Dati naturalistici Aspetto positivo: naturalezza del contesto. Aspetto negativo: difficoltà di controllo delle variabili pertinenti. Dati controllati sperimentalmente Aspetto positivo: astrazione ed idealizzazione. Aspetto negativo: interferenza dello sperimentatore. La linguistica computazionale ha bisogno di entrambe le procedure di raccolta dei dati.

1.1. TIPI DI DATI LINGUISTICI

1.1. CORPORA E TRATTI DEFINITORI

Campione estratto da una popolazione più ampia selezionato per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero consentirci di inferire qualcosa anche della popolazione da cui il campione è stato tratto , dovrebbero cioè essere generalizzabili (1,2,6) Scarto esistente tra la concezione attuale di corpus e un'epoca in cui la ricerca linguistica, benché empiricamente fondata e orientata a indagini su esempi di uso naturale, non era ancora supportata dal computer (3,4) Definizioni scherzosa che allude al fatto che i corpora oggi hanno superato i 500 milioni di parole di testo costituendo veri e propri magazzini testuali (5)

1.1. CORPORA E TRATTI DEFINITORI

un corpus in linguistica

un insieme di testi che si assume essere rappresentativo

dello stato di una lingua, o di una varietà di essa, al

fine di ottenere una descrizione complessiva

Dimensione del campione [possibilità offerte dalla tecnologia-corpora dinamici] Metodo di campionamento [bilanciamento (campioni stratificati)] PROBLEMA: Campionamento da una popolazione infinita o, quantomeno, non delimitabile

1.1. I CORPORA (2)

La tipologia di un corpus è determinata da:

Generalità [specialistico/generale]

Modalità [lingua scritta/lingua parlata/misto]

Cronologia [sincronico/diacronico]

Lingua [monolingue/multilingue]

1.1. I CORPORA (3)

1.1.1 AUTENTICITÀ (DEI DATI LINGUISTICI)

Dati linguistici sono autentici > di uso reale. La tecnologia offre grandi quantità di dati linguistici autentici. MA l’acquisizione di dati orali è complessa processi di trascrizione permessi per lo sfruttamento delle proprietà intellettuali e i vincoli imposti dalla tutela della privacy. Informanti sono informati, le conversazioni sono spontanee?

1.1.2 RAPPRESENTATIVITÀ E CAMPIONAMENTO

In linea teorica, per una ricerca linguistica empiricamente orientata, l’ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua. Il campionamento dei testi in corpus è dunque un’operazione necessaria, ma non sufficiente perché la selezione dei testi da includere nel campione deve avvenire secondo dei criteri adeguati alla popolazione che si intende studiare.

1.1.2 RAPPRESENTATIVITÀ E CAMPIONAMENTO

(b) In diacronia: studio della variazione nell’uso della parola cioè negli ultimi 40 anni.

1.1.2 RAPPRESENTATIVITÀ E CAMPIONAMENTO

Il campionamento è fondamentale: tenere in considerazione questi parametri, esterni all’uso linguistico, permette di fissare le molteplici dimensioni di variabilità intrinseca alla popolazione di cui il corpus intende fornire una rappresentazione. la variazione linguistica in termini statistici : esiste una relazione tra uno dei parametri contestuali ( variabile indipendente ) con un certo tipo di comportamento linguistico osservato ( variabile dipendente )