linguistica digitale | Appunti di Linguistica

LINGUISTICA DIGITALE

“La linguistica dei corpora” maria freddi

Lezione 1 – 19 aprile 2023

La linguistica è una disciplina empirica. Le sue generalizzazioni traggono fondamento da dati empirici, i principi

teorici rendono conto dei fatti di lingua.

Chomsky -> padre della grammatica generativa (si occupa di studiare la grammatica delle lingue. Dice che la

grammatica viene generata attraverso parametri e valori, ci sono cose che valgono per tutte le lingue e altre che

valgono solo per una).

Divide la grammaticalità (una frase ben costruita dal punto di vista della grammatica. Deriva dall’osservanza delle

regole della grammatica nella costruzione di una frase -> incolori verdi idee dormono furiosamente: frase

grammaticalmente corretta ma priva di senso) e l’accettabilità (il fatto che qualcuno riconosca quella frase come

portatrice di un senso. Deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarle in contesti

appropriati -> dovremmo riparare la sedia infelice / domani ti messaggio).

Grammaticalità e probabilità -> frasi grammaticalmente perfette ma poco probabili da trovare nell’ordinaria

comunicazione linguistica -> ho visto un’esile balena: per quanto sia improbabile nell’ordinaria comunicazione

linguistica vedere un’esile balena, la frase è perfettamente corretta dal punto di vista grammaticale.

I dati linguistici sono soprattutto i giudizi di grammaticalità.

linguistica computazionale: parte di linguistica che a partire dai dati numericamente molto consistenti crea la

grammatica.

Secondo Chomsky la linguistica interna riguarda lo studio della competenza (grammatica generativa), mentre la

linguistica esterna quello dell’esecuzione (il modo in cui i parlanti usano le regole della grammatica).

La grammatica è pertinente fino ad un certo punto, perché a noi interessa più quello che i parlanti fanno con essa.

Herdan reinterpreta la dicotomia langue-parole in termini di popolazione statistica/campione statistico. Vedere

come si configura la popolazione con la statistica da cui togliamo un campione usato come punto di riferimento.

Dati naturalistici: quello che davvero trovo su internet senza chiedere a nessuno

Aspetto positivo: naturalezza del contesto

Aspetto negativo: difficoltà di controllo

Dati controllati sperimentalmente

Aspetto positivo: astrazione e idealizzazione

Aspetto negativo: interferenza dello sperimentatore

la linguistica computazionale ha bisogno di entrambe le procedure di raccolta dei dati.

Corpus (pl. Corpora) = raccolte di dati linguistici di diverso tipo a seconda dell’obiettivo. Collezione di testi raccolti e

organizzati per rispondere alle esigenze dell’analisi linguistica. È un sottoinsieme di tutte le possibili produzioni

linguistiche.

Esistono diverse definizioni di corpus:

1. Testo che raccoglie occorrenze di lingua in uso, scelte per caratterizzare uno stato o una varietà linguistica

(Sinclair 1991: 171)

2. Una raccolta di testi che si assume essere rappresentativa per una determinata lingua, messa insieme per

essere usata ai fini di un’analisi linguistica (Tognini – Bonelli 2001: 2)

3. Una raccolta di esempi di occorrenze di lingua in uso, che consistono di qualsiasi cosa che vada da poche

frasi sino a un insieme di testi scritti o registrazioni, che sono stati raccolti per lo studio linguistico. Più

recentemente, raccolte di testi memorizzati a cui si accede elettronicamente (Hunston 2002: 2)

4. Una raccolta di testi o parti di testi su cui si può condurre una qualche analisi linguistica generale. In tempi

recenti, si è arrivati a considerare un corpus come un insieme di testi reso disponibile in forma

computerizzata per scopi di analisi linguistica (Meyer 2002)

5. Un sacco di testo, memorizzato su un computer (Leech 1992: 106)

6. Una raccolta di parti di lingua selezionate e ordinate secondo espliciti criteri linguistici per essere usate come

campioni della lingua (Eagles 1996)

linguistica digitale, Appunti di Linguistica

Documenti correlati

Anteprima parziale del testo

Scarica linguistica digitale e più Appunti in PDF di Linguistica solo su Docsity!

“La linguistica dei corpora” maria freddi

TRATTI DEFINITORI:

DISTRIBUZIONI DI FREQUENZA E APPROCCIO PROBABILISTICO

TABELLA

DIVERSITA’ DI STRATEGIE TRA

SCRITTO E PARLATO