Corpora dell'italiano | Appunti di Linguistica

CAP 4

I corpora sono strumenti fondamentali per l'analisi di una lingua per due

ragioni:

la prima è che le risorse testuali permettono di analizzare i fenomeni dal

punto di vista della produzione concreta in contesti reali (la ricerca dei

contesti è data dalle concordanze PUNTO 3).

La seconda è che un corpus permette di accedere ai valori numerici relativi a

frequenza (PUNTO 1) e distribuzione (PUNTO 2).

I corpora sono molto importanti per essere comparati e determinare lo studio

della variazione che si riscontra tra le diverse situazioni.

PUNTO 1: gli strumenti fondamentali per l'analisi della composizione e la

distribuzione del lessico sono le liste di frequenza.

Dato un qualsiasi corpus, infatti, si compiono una serie di operazioni:

–tokenizzazione

–compilare la lista delle forme di parola

–ogni forma di parola viene associata al numero delle occorrenze a cui

corrisponde, e nelle liste viene di solito riportato anche il rango delle

singole entrate: la parola di rango 1 è quella che conta più occorrenze.

PUNTO 2:

Distribuzione lo studioso che ha iniziato gli studi sulla distribuzione è

l'americano Zipf che formulò una legge matematica in grado di mettere in

relazione il rango di una parola di una lista con la sua frequenza assoluta.

Quindi, in qualsiasi corpus, le parole che occupano i primi ranghi della lista

avranno un numero molto alto di occorrenze, mentre man mano che si

scende di rango le frequenze diminuiscono fino a arrivare agli hapax ovvero

le forme con frequenza pari a uno; un altro modo di osservare l'andamento

della distribuzione lessicale è dato dal calcolo della frequenza cumulativa, in

cui le occorrenze di ogni singola parola vengono sommate man mano che si

procede dal rango uno a quelli successivi: il rapporto tra forme forme e

occorrenze è un rapporto che va da zero a uno, e corrisponde a uno quando

un testo contiene solo hapax, ovvero parole che occorrono una sola volta nel

testo, mentre corrisponde a zero se fosse costituito da un numero infinito di

occorrenze. Questo rapporto può essere chiamato anche type/token ratio.

CLASSI APERTE E CLASSI CHIUSE:

esistono le parole lessicalmente piene ovvero i verbi, i nomi, gli aggettivi e gli

avverbi, e quelle lessicalmente vuote che sono i pronomi, le proposizioni, gli

articoli, le congiunzione; le prime appartengono alla categoria delle classi

aperte, le seconde alla categoria delle classi chiuse.

Le parole di classe chiusa in una lista di frequenza si ripetono molto più

frequentemente delle altre, perché sono numericamente più limitate.

PUNTO 3: concordanze:strumento classico per l'analisi dei testi.

Esistono in formato non elettronico: hanno la forma di indice in cui vengono

elencate alfabeticamente le parole presenti in una o più opere di autore

insieme all'indicazione dei punti in cui compaiono.

Anteprima parziale del testo

Scarica Corpora dell'italiano e più Appunti in PDF di Linguistica solo su Docsity!

CAP 4

I corpora sono strumenti fondamentali per l'analisi di una lingua per due ragioni: la prima è che le risorse testuali permettono di analizzare i fenomeni dal punto di vista della produzione concreta in contesti reali (la ricerca dei contesti è data dalle concordanze PUNTO 3). La seconda è che un corpus permette di accedere ai valori numerici relativi a frequenza (PUNTO 1) e distribuzione (PUNTO 2). I corpora sono molto importanti per essere comparati e determinare lo studio della variazione che si riscontra tra le diverse situazioni. PUNTO 1: gli strumenti fondamentali per l'analisi della composizione e la distribuzione del lessico sono le liste di frequenza. Dato un qualsiasi corpus, infatti, si compiono una serie di operazioni:

tokenizzazione
compilare la lista delle forme di parola
ogni forma di parola viene associata al numero delle occorrenze a cui corrisponde, e nelle liste viene di solito riportato anche il rango delle singole entrate: la parola di rango 1 è quella che conta più occorrenze. PUNTO 2: Distribuzione lo studioso che ha iniziato gli studi sulla distribuzione è l'americano Zipf che formulò una legge matematica in grado di mettere in relazione il rango di una parola di una lista con la sua frequenza assoluta. Quindi, in qualsiasi corpus, le parole che occupano i primi ranghi della lista avranno un numero molto alto di occorrenze, mentre man mano che si scende di rango le frequenze diminuiscono fino a arrivare agli hapax ovvero le forme con frequenza pari a uno; un altro modo di osservare l'andamento della distribuzione lessicale è dato dal calcolo della frequenza cumulativa, in cui le occorrenze di ogni singola parola vengono sommate man mano che si procede dal rango uno a quelli successivi: il rapporto tra forme forme e occorrenze è un rapporto che va da zero a uno, e corrisponde a uno quando un testo contiene solo hapax, ovvero parole che occorrono una sola volta nel testo, mentre corrisponde a zero se fosse costituito da un numero infinito di occorrenze. Questo rapporto può essere chiamato anche type/token ratio. CLASSI APERTE E CLASSI CHIUSE: esistono le parole lessicalmente piene ovvero i verbi, i nomi, gli aggettivi e gli avverbi, e quelle lessicalmente vuote che sono i pronomi, le proposizioni, gli articoli, le congiunzione; le prime appartengono alla categoria delle classi aperte, le seconde alla categoria delle classi chiuse. Le parole di classe chiusa in una lista di frequenza si ripetono molto più frequentemente delle altre, perché sono numericamente più limitate. PUNTO 3: concordanze:strumento classico per l'analisi dei testi. Esistono in formato non elettronico: hanno la forma di indice in cui vengono elencate alfabeticamente le parole presenti in una o più opere di autore insieme all'indicazione dei punti in cui compaiono.

Formato elettronico: le concordanze sono prodotte dai programmi software che indicizzano i dati in formato elettronico. Il formato standard di presentazione è chiamato KWIC (key word in context) dove ogni occorrenza cercata viene posta al centro e ai suoi lati vengono riportati le porzioni del contesto. (destro e sinistro). Grazie alle concordanze è possibile verificare e esemplificare la variazione di significato di una parola nei vari contesti d'uso. In questo modo il corpus osserva la variazione, la descrive e precisa le proporzioni di tale variazione. Anche in un numero basso di occorrenze si può contenere una certa grandezza di variazione d'uso (parola 'taglio' 23 occorrenze). I programmi per le concordanze forniscono di solito una serie di opzioni di visualizzazione che permettono di rendere più raffinati i risultati: -ampiezza del contesto -ordinamento alfabetico delle concordanze (vedi tabella 4.9) i moderni concordancer permettono di sfruttare i corpora soprattutto quelli annotati, per effettuare ricerche che vanno oltre la singola parola o frequenza fissa. Uno di questi è il linguaggio CQL che permette di impostare ricerche con l'uso di espressioni regolari, una codifica standard che permette di definire con decisione classi di stringhe (sequenze di caratteri o elementi) molto complesse. Gli elementi base di un CQL sono la coppia attributo/valore, scritta tra parentesi quadre. collocazioni=guarda slide.

Corpora dell'italiano, Appunti di Linguistica

Documenti correlati

Anteprima parziale del testo

Scarica Corpora dell'italiano e più Appunti in PDF di Linguistica solo su Docsity!

CAP 4