Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Corpora dell'italiano, Appunti di Linguistica

Appunti sui corpora dell'italiano, professor Panunzi.

Tipologia: Appunti

2017/2018

Caricato il 03/04/2018

giulia_zisi
giulia_zisi 🇮🇹

4.7

(24)

30 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAP 4
I corpora sono strumenti fondamentali per l'analisi di una lingua per due
ragioni:
la prima è che le risorse testuali permettono di analizzare i fenomeni dal
punto di vista della produzione concreta in contesti reali (la ricerca dei
contesti è data dalle concordanze PUNTO 3).
La seconda è che un corpus permette di accedere ai valori numerici relativi a
frequenza (PUNTO 1) e distribuzione (PUNTO 2).
I corpora sono molto importanti per essere comparati e determinare lo studio
della variazione che si riscontra tra le diverse situazioni.
PUNTO 1: gli strumenti fondamentali per l'analisi della composizione e la
distribuzione del lessico sono le liste di frequenza.
Dato un qualsiasi corpus, infatti, si compiono una serie di operazioni:
tokenizzazione
compilare la lista delle forme di parola
ogni forma di parola viene associata al numero delle occorrenze a cui
corrisponde, e nelle liste viene di solito riportato anche il rango delle
singole entrate: la parola di rango 1 è quella che conta più occorrenze.
PUNTO 2:
Distribuzione lo studioso che ha iniziato gli studi sulla distribuzione è
l'americano Zipf che formulò una legge matematica in grado di mettere in
relazione il rango di una parola di una lista con la sua frequenza assoluta.
Quindi, in qualsiasi corpus, le parole che occupano i primi ranghi della lista
avranno un numero molto alto di occorrenze, mentre man mano che si
scende di rango le frequenze diminuiscono fino a arrivare agli hapax ovvero
le forme con frequenza pari a uno; un altro modo di osservare l'andamento
della distribuzione lessicale è dato dal calcolo della frequenza cumulativa, in
cui le occorrenze di ogni singola parola vengono sommate man mano che si
procede dal rango uno a quelli successivi: il rapporto tra forme forme e
occorrenze è un rapporto che va da zero a uno, e corrisponde a uno quando
un testo contiene solo hapax, ovvero parole che occorrono una sola volta nel
testo, mentre corrisponde a zero se fosse costituito da un numero infinito di
occorrenze. Questo rapporto può essere chiamato anche type/token ratio.
CLASSI APERTE E CLASSI CHIUSE:
esistono le parole lessicalmente piene ovvero i verbi, i nomi, gli aggettivi e gli
avverbi, e quelle lessicalmente vuote che sono i pronomi, le proposizioni, gli
articoli, le congiunzione; le prime appartengono alla categoria delle classi
aperte, le seconde alla categoria delle classi chiuse.
Le parole di classe chiusa in una lista di frequenza si ripetono molto più
frequentemente delle altre, perché sono numericamente più limitate.
PUNTO 3: concordanze:strumento classico per l'analisi dei testi.
Esistono in formato non elettronico: hanno la forma di indice in cui vengono
elencate alfabeticamente le parole presenti in una o più opere di autore
insieme all'indicazione dei punti in cui compaiono.
pf2

Anteprima parziale del testo

Scarica Corpora dell'italiano e più Appunti in PDF di Linguistica solo su Docsity!

CAP 4

I corpora sono strumenti fondamentali per l'analisi di una lingua per due ragioni: la prima è che le risorse testuali permettono di analizzare i fenomeni dal punto di vista della produzione concreta in contesti reali (la ricerca dei contesti è data dalle concordanze PUNTO 3). La seconda è che un corpus permette di accedere ai valori numerici relativi a frequenza (PUNTO 1) e distribuzione (PUNTO 2). I corpora sono molto importanti per essere comparati e determinare lo studio della variazione che si riscontra tra le diverse situazioni. PUNTO 1: gli strumenti fondamentali per l'analisi della composizione e la distribuzione del lessico sono le liste di frequenza. Dato un qualsiasi corpus, infatti, si compiono una serie di operazioni:

  • tokenizzazione
  • compilare la lista delle forme di parola
  • ogni forma di parola viene associata al numero delle occorrenze a cui corrisponde, e nelle liste viene di solito riportato anche il rango delle singole entrate: la parola di rango 1 è quella che conta più occorrenze. PUNTO 2: Distribuzione lo studioso che ha iniziato gli studi sulla distribuzione è l'americano Zipf che formulò una legge matematica in grado di mettere in relazione il rango di una parola di una lista con la sua frequenza assoluta. Quindi, in qualsiasi corpus, le parole che occupano i primi ranghi della lista avranno un numero molto alto di occorrenze, mentre man mano che si scende di rango le frequenze diminuiscono fino a arrivare agli hapax ovvero le forme con frequenza pari a uno; un altro modo di osservare l'andamento della distribuzione lessicale è dato dal calcolo della frequenza cumulativa, in cui le occorrenze di ogni singola parola vengono sommate man mano che si procede dal rango uno a quelli successivi: il rapporto tra forme forme e occorrenze è un rapporto che va da zero a uno, e corrisponde a uno quando un testo contiene solo hapax, ovvero parole che occorrono una sola volta nel testo, mentre corrisponde a zero se fosse costituito da un numero infinito di occorrenze. Questo rapporto può essere chiamato anche type/token ratio. CLASSI APERTE E CLASSI CHIUSE: esistono le parole lessicalmente piene ovvero i verbi, i nomi, gli aggettivi e gli avverbi, e quelle lessicalmente vuote che sono i pronomi, le proposizioni, gli articoli, le congiunzione; le prime appartengono alla categoria delle classi aperte, le seconde alla categoria delle classi chiuse. Le parole di classe chiusa in una lista di frequenza si ripetono molto più frequentemente delle altre, perché sono numericamente più limitate. PUNTO 3: concordanze:strumento classico per l'analisi dei testi. Esistono in formato non elettronico: hanno la forma di indice in cui vengono elencate alfabeticamente le parole presenti in una o più opere di autore insieme all'indicazione dei punti in cui compaiono.

Formato elettronico: le concordanze sono prodotte dai programmi software che indicizzano i dati in formato elettronico. Il formato standard di presentazione è chiamato KWIC (key word in context) dove ogni occorrenza cercata viene posta al centro e ai suoi lati vengono riportati le porzioni del contesto. (destro e sinistro). Grazie alle concordanze è possibile verificare e esemplificare la variazione di significato di una parola nei vari contesti d'uso. In questo modo il corpus osserva la variazione, la descrive e precisa le proporzioni di tale variazione. Anche in un numero basso di occorrenze si può contenere una certa grandezza di variazione d'uso (parola 'taglio' 23 occorrenze). I programmi per le concordanze forniscono di solito una serie di opzioni di visualizzazione che permettono di rendere più raffinati i risultati: -ampiezza del contesto -ordinamento alfabetico delle concordanze (vedi tabella 4.9) i moderni concordancer permettono di sfruttare i corpora soprattutto quelli annotati, per effettuare ricerche che vanno oltre la singola parola o frequenza fissa. Uno di questi è il linguaggio CQL che permette di impostare ricerche con l'uso di espressioni regolari, una codifica standard che permette di definire con decisione classi di stringhe (sequenze di caratteri o elementi) molto complesse. Gli elementi base di un CQL sono la coppia attributo/valore, scritta tra parentesi quadre. collocazioni=guarda slide.