




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla lingua digitale, con un focus sui corpora e i tratti definitori. Della rappresentatività e del campionamento dei corpora, dell'importanza della codifica e della rappresentazione dei dati linguistici, e dell'analisi di frequenza e approccio probabilistico. Vengono inoltre introdotti concetti come colligazione, preferenza semantica, e lettura di concordanze e collocati.
Tipologia: Slide
1 / 121
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Da Freddi, M. Linguistica dei corpora
1.1. Caratteristiche dei corpora
Grammaticalità vs Accettabilità La prima deriva dall’osservanza delle regole della grammatica, nella costruzione di una frase: Incolori verdi idee dormono furiosamente La seconda deriva dalla capacità dei parlanti di attribuire un senso alle frasi e di utilizzarle in contesti appropriati: Dovremmo riparare la sedia infelice Domani ti messaggio
Dati naturalistici Aspetto positivo: naturalezza del contesto. Aspetto negativo: difficoltà di controllo delle variabili pertinenti. Dati controllati sperimentalmente Aspetto positivo: astrazione ed idealizzazione. Aspetto negativo: interferenza dello sperimentatore. La linguistica computazionale ha bisogno di entrambe le procedure di raccolta dei dati.
Campione estratto da una popolazione più ampia selezionato per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero consentirci di inferire qualcosa anche della popolazione da cui il campione è stato tratto , dovrebbero cioè essere generalizzabili (1,2,6) Scarto esistente tra la concezione attuale di corpus e un'epoca in cui la ricerca linguistica, benché empiricamente fondata e orientata a indagini su esempi di uso naturale, non era ancora supportata dal computer (3,4) Definizioni scherzosa che allude al fatto che i corpora oggi hanno superato i 500 milioni di parole di testo costituendo veri e propri magazzini testuali (5)
Dimensione del campione [possibilità offerte dalla tecnologia-corpora dinamici] Metodo di campionamento [bilanciamento (campioni stratificati)] PROBLEMA: Campionamento da una popolazione infinita o, quantomeno, non delimitabile
Dati linguistici sono autentici > di uso reale. La tecnologia offre grandi quantità di dati linguistici autentici. MA l’acquisizione di dati orali è complessa processi di trascrizione permessi per lo sfruttamento delle proprietà intellettuali e i vincoli imposti dalla tutela della privacy. Informanti sono informati, le conversazioni sono spontanee?
In linea teorica, per una ricerca linguistica empiricamente orientata, l’ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua. Il campionamento dei testi in corpus è dunque un’operazione necessaria, ma non sufficiente perché la selezione dei testi da includere nel campione deve avvenire secondo dei criteri adeguati alla popolazione che si intende studiare.
(b) In diacronia: studio della variazione nell’uso della parola cioè negli ultimi 40 anni.
Il campionamento è fondamentale: tenere in considerazione questi parametri, esterni all’uso linguistico, permette di fissare le molteplici dimensioni di variabilità intrinseca alla popolazione di cui il corpus intende fornire una rappresentazione. la variazione linguistica in termini statistici : esiste una relazione tra uno dei parametri contestuali ( variabile indipendente ) con un certo tipo di comportamento linguistico osservato ( variabile dipendente )