





















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
La linguistica dei corpora, focalizzandosi sull'analisi delle regolarità linguistiche attraverso strumenti quantitativi e statistici. Vengono discussi diversi approcci alla raccolta di dati, inclusi corpora sincronici e diacronici, e l'importanza della tokenizzazione e della codifica dei dati. Anche l'uso di strumenti come sketch engine per l'analisi di corpora e le sfide legate alla selezione e all'interpretazione dei dati linguistici. Approfondisce concetti come concordanze, msu e collocazioni, evidenziando come questi strumenti rivelino pattern ricorrenti e unità di significato all'interno dei corpora. L'obiettivo è fornire una panoramica completa delle metodologie e degli strumenti utilizzati nella linguistica dei corpora per l'analisi del linguaggio.
Tipologia: Appunti
1 / 61
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















































Esame di quattro domande aperte o chiuse da 8 punti l’uno (orale).
La linguistica è una disciplina scientifica che studia le lingue attraverso l’uso di un metodo scientifico , ciò vuol dire che, come le scienze biologiche, ha lo scopo di osservare e classificare fenomeni naturali (ex. frasi, testi, classificare le parole). Di conseguenza, il metodo scientifico della linguistica consiste nell’osservare un fenomeno naturale, poi si sviluppa una produzione linguistica (scritta o orale) e in base a questo si formula l’ipotesi, che potrà essere confermata o smentita. Se l’ipotesi verrà smentita quest’ultima aiuterà comunque nello sviluppo di una teoria futura. La linguistica ha una pluralità di interessi e impostazioni metodologiche , perché nel corso degli anni si sono sviluppate correnti diverse. L’opposizione principale risiede nelle correnti:
scienza empirica perché studia fenomeni empirici osservabili, sia che si tratti di eventi sonori (parlato) sia che si tratti di eventi grafici (scritti), ma vengono prodotti e recepiti come eventi semiotici, ovvero dotati di significato. L’osservazione è l’organizzazione interna del fatto linguistico e della sua funzione. Le ipotesi che si fanno nell’osservazione hanno carattere predittivo per poter spiegare i fenomeni ed arrivare alla teoria. LA LINGUISTICA COMPUTAZIONALE O ACQUISIZIONALE La linguistica computazionale ha due definizioni fondamentali:
La differenza tra la teoria linguistica e la linguistica computazionale è che: la prima rappresenta la struttura e il funzionamento delle lingue, mentre la seconda simula abilità linguistiche umane allo scopo di effettuare specifici compiti in modo automatico. Quest’ultima però non ci parla del funzionamento della lingua in modo diretto, dobbiamo interpretarli in maniera autonoma. 20/02/ NASCITA LINGUISTICA COMPUTAZIONALE La linguistica computazionale nasce come una disciplina di frontiera rispetto al mondo umanistico e rispetto alle applicazioni più centrali delle scienze dell’informazione. Nacque negli anni 1950-1960 con padre Roberto Busa (Centro per l’automazione dell’analisi linguistica di Gallarate), le prime applicazioni avvennero sullo studio dei testi filosofici e letterari. Roberto Busa desiderava studiare le opere di Tommaso D’Acquino e ottenne finanziamenti per un calcolatore dal direttore dell’IBM. Inoltre, creò un programma per l’esplorazione dei testi attraverso concordanze. I primi risultati della linguistica computazionale portarono:
una scienza, perché la scienza deve fare esperimenti e, secondo lui, queste due non lo fanno. Parallelamente al diffondersi della grammatica generativa, in ambito anglosassone, si sviluppa una traduzione di ricerca linguistica ancorata ad una metodologia di derivazione empiristica , che si occupa di indagine linguistica sulla raccolta e l’ analisi di corpora. NB: BUSA = NASCITA LINGUISTICA COMPUTAZIONALE. BROWN = NASCITA LINGUISTICA DEI CORPORA. In realtà, sul piano metodologico, la prima applicazione del metodo della linguistica dei corpora risale al linguista danese Otto Jespersen , “ A Modern English Grammar on Historical Principles” (1909-1949). Quest’opera è una grande grammatica di sette volumi che tratta la grammatica inglese basandosi su autentici testi letterari e di cui aveva codificato i fenomeni linguistici. Questo tipo di indagine ha fortemente beneficiato della capacità dei computer di gestire ed elaborare quantità di dati sempre più estese. Nel 1964 , nasce ufficialmente la linguistica computazionale grazie al “ Corpus Brown ” (lungo circa 1 milione di parole), realizzato da W. Nelson Francis e Henry Kucera (Brown University) e che rappresenta la prima raccolta di dati elettronici inglesi per l’analisi linguistica , nonché il primo corpus machine-readable. Successivamente, divenne il modello principale per lo sviluppo di altre risorse. LA LINGUISTICA DEI CORPORA Ci sono due modi di fare linguistica:
- Origine: Attestati (reali o autentici): che occorrono naturalmente (si tratta ancora di dati autentici) o che siano stati trascritti (resi in forma digitale. Possono essere anche dati scritti manualmente che vengono trascritti sui PC) senza l’intervento di un ricercatore (Stubbs 2001: xiv). Modificati: a volte la linguistica dei corpora si è servita dei corpora paralleli, in particolare di un corpus parallelo chiamato Europarl. Questo è un corpus di dibattiti parlamentari all’interno del Parlamento Europeo. Affinché tutti possano seguire il dibattito, ci sono traduttori che fanno la traduzione istantanea, ma anche autori che trascrivono i dibattiti e li traducono in tutte le lingue ufficiali dell’UE. Queste trascrizioni sono quasi sempre semplificate, ovvero sono modificate da chi fa le trascrizioni. Per esempio, se ci sono cambiamenti di programma, esitazioni, lapsus, … questi vengono omessi dal trascrittore. Quindi, si tratta di dati attestati ma che sono stati in un qualche modo modificati/manipolati (semplificati) con lo scopo di escludere aspetti che sono estranei (Stubbs 2001: xiv). Sono dati naturali, ma che sono stati modificati. La struttura sintattica non viene modificata, a meno che non ci siano cambi di programma (ex. Inizio una frase e poi la rinizio cambiando qualcosa). Intuitivi (introspettivi): basati su esempi della vita reale. Non sono stati prodotti naturalmente per comunicare qualcosa, ma sono stati inventati dai linguisti per illustrare un particolare concetto linguistico (Stubbs 2001: xiv). Di questo tipo di dati si è servita la grammatica generativa, che in epoca più recente ha deciso di controllare ciò che esiste dalla realtà e non esempi inventati. Sono, quindi, basati sulla propria introspezione e competenza. NB: COSA SONO I DATI? Dal lato linguistico, sono una qualsiasi manifestazione linguistica della lingua e sono dati naturali e spontanei. Nel caso della linguistica dei corpora e computazionale, i dati sono i testi contenuti nei corpora e le concordanze (una determinata parola o sequenza di caratteri che cerchiamo, circondata a destra e a sinistra dal testo che precede o che segue), collocazioni (le combinazioni frequenti di una parola con altre parole. Ex. “Acquifero” tipicamente concorre con “falda”), frequenze (dati quantitativi) o statistiche estratte tramite le piattaforme o i software.
Presi questi testi in formato TF unico ???? sorgerebbero dei problemi, ovvero quelli circondati dai rettangoli. Apriamo Emptcopic ???? (non verrà usato molto ma serve), caricando il primo testo ci dice che è un unico file. Un testo piccolo perché in Tokens (le cose registrate comprese le interpunzioni, ovvero i singoli elementi che costituiscono il corpus) sono
b. Canale (o modalità): Di lingua scritta come La Repubblica , Brown Corpus e OVI (Vocabolario italiano dalla fine del 1200 al 1400 circa). o Brown: il primo corpus computerizzato di inglese americano, pubblicato negli anni ’60. Tutti quelli successivi seguono lo stesso modello di costruzione (sono tutti di lingua scritta), tutti di una dimensione all’epoca considerata enorme (1M di tokens) e oggi è un numero molto piccolo. Pubblicato con l’obiettivo di registrare l’uso linguistico per costruire una grammatica che descrivesse l’uso linguistico secondo un canone dello scrivere in modo corretto. Nell’immagine trovi la composizione del Brown Corpus. Di ogni testo sono state selezionate 2000 parole. COSA MANCHEREBBE OGGI? Sicuramente i social media ( CNC Comunicazione mediata dei computer),
fumetti, manuali d’uso e etichette di prodotti, pubblicità, scritture private (diari, lettere, e-mail), la religione sarebbe meno presente attualmente. o LOB (Lancaster-Oslo-Bergen): è il corrispondente britannico del Brown. o Frown: il corrispondente del Brown a distanza di 35 anni. o FLOB: pubblicato nel 1998, è il corrispondente del LOB a distanza di 20 anni. o Kolhapur: inglese scritto in india 30 anni dopo la fine della colonizzazione (1978) o ACE: corrispondente australiano (1986), noto come Macquarie Corpus. Di lingua parlata: testi spontanei ( LIP , corpus di italiano parlato raccolto negli anni ’80), sia conversazioni di tutti i giorni ( Childes , comparabile e comprende conversazioni con bambini che imparano le lingue materne). o SEU (Survey of English Usage): possiede 1M di parole e non è computerizzato. È composto da una parte parlata in cui ci sono dialoghi, conversazioni faccia a faccia divise in: raccolte senza che i parlanti fossero consapevoli dell’essere registrati (oggi non è più possibile, perché le persone iniziano ad essere sempre più consapevoli di essere registrati) e quelle in cui i parlanti erano consapevoli della registrazione. Inoltre, vi sono anche dei monologhi, sia spontanei che preparati (per essere resi oralmente, come le lezioni universitarie o la dettatura di lettere). o LLC (London Lund Corpus): pubblicato nel 1990, conta circa 500k di parole. Questo corpus si tratta di un tipo di parlanti molto specifico, studenti, docenti o personale dell’University College di Londra. Quindi, il corpus è sbilanciato verso un livello di competenza elevato, perché sono persone che parlano di argomenti generali e accademici. Inoltre, contiene anche
o HKCSE (Hong Kong Corpus of Spoken English): conta 907k parole, è un insieme di inglese accademico, conversazioni e discorsi pubblici. Misti: sia scritta che parlata BNC (British National Corpus) un corpus più moderno e accessibile online. È un corpus misto, sia parlato che scritto, in percentuali disomogenee (10% parlato e 90% scritto su 100 milioni di Tokens). Ci sono 24 generi e cliccando su “description of codes” si ha una descrizione più dettagliata. Ad esempio, lezioni universitarie con il tema economia, politica, diritto, … e la descrizione come “interazioni in classe non universitarie”, “dibattiti o presentazioni di tipo giuridico legale”, “consultazioni mediche e legali”, …. Abbiamo: o The Bank of English: viene sovvenzionato dalle case editrici, in questo caso la Collins. Questo perché la produzione di grammatiche, dizionari e materiale didattico per l’insegnamento di una lingua beneficia dall’avere un corpus di riferimento. o The British National Corpus: sovvenzionato dalla Oxford University Press e dalla Longman. o The American National Corpus o The Brigham Young University Alcuni di questi corpora sono liberamente consultabili, mentre altri sono disponibili o disponibili a pagamento/accesso limitato. Corpora audio (o speech databases) MapTask Corpus (convenzioni “semicontrollate”, ovvero non create spontaneamente) e CLIPS (stratificato dal punto di vista diafasico e diatopico). EX. Parlando di lingua parlata abbiamo anche informazioni come quelle rappresentate nella figura. Come si osserva abbiamo la produzione di 5 parole, con una descrizione delle componenti delle sillabe e informazioni fonetiche, che rendono la trascrizione estremamente dettagliata. La parte superiore dove abbiamo nella prima riga la “forma d’onda” e nella seconda riga lo “spettrogramma” o “sonogramma”, i cui dati si riferiscono
all’acustica: il primo codifica info relative ai volt e ai segnali elettrici, mentre il secondo rappresenta frequenza e intensità lungo la dimensione temporale (asse delle ascisse, orizzontale). Corpus multimodale (o corpus audio-visivo) registrazioni audio- video di scambi comunicativi. La nascita di questo tipo di corpora si deve alla lingua dei segni. ELAN Trascrizione con allineamento a video/audio c. Generalità: possiamo distinguere i corpus in: Specialistici/verticali: riguardano una stessa varietà di lingua, permettono di compilare opere didattiche per apprendere varietà di una lingua come l’inglese accademico. Alcuni esempi sono EuroParl, Childes, The Michigan Corpus of Academic Spoken English (MICASE), The International Corpus of Learner English (ICLE), Uppsala Student English Corpus (USE). Ci sono anche corpus per chi sta apprendendo le lingue per ogni corpus sono specificate le lingue materne degli apprendenti e ne mostrano anche gli errori. Generali/plurifunzionali: come BNC (British National Corpus) che includono parlanti con diversi livelli di istruzione ed età. Sono adeguati a investigare un qualsiasi fenomeno linguistico. Reference corpora: guidati da uno scopo normativo, quindi si scelgono parlanti con un alto livello di istruzione perché devono seguire la norma standard. Vengono usati per scrivere le grammatiche della lingua. Di solito i corpora generali e i corpora di riferimento sono più grandi rispetto ai corpora specialistici. Questi ultimi hanno una funzionalità importante nella creazione di opere didattiche a fini specialistici (come l’inglese come lingua franca per la pubblicazione di articoli scientifici). d. Asse temporale: possiamo distinguere:
Corpora di prima generazione (1960-1970): avevano la misura standard di circa 1 milione di parole, come il Brown Corpus (primo corpus elettronico progettato come riferimento per lo studio di una lingua). Corpora di nuova generazione (1990): hanno una dimensione di circa 100 milioni di parole, come il BNC. Quelli tratti dal web hanno dimensioni ancora maggiori, come anche 1 o 2 miliardi di tokens. La dimensione tipica di un corpus è rappresentata da 100 milioni di tokens (ex. BNC), dato su cui la maggior parte di linguisti concordano. Tendenzialmente si distinguono: Corpora generali: sempre più grandi. Sono composti circa da milioni/miliardi di parole. Per indagare le caratteristiche grammaticali rare, sono necessarie almeno 100 milioni di parole. Per studiare la formazione delle parole e la fraseologia, sono necessarie 500 milioni di parole. Infine, per la lessicografia, sono necessarie più di un milione di parole (più della metà delle parole ricorrerà una sola volta e molte di queste possono essere polisemiche). Corpora specilistici: di minori dimensioni, come articoli che riguardano l’architettura da interni (riviste divulgative, articoli critici su opere, progetti, …). Ad esempio, il Micase, un corpora di inglese americano parlato in contesto universitario. Sono utili anche per esplorare fenomeni strutturali (grammaticali): per studiare la prosodia, 100 mila parole di parlato sono considerate adeguate. Infine, per studiare la morfologia delle forme verbali, sono necessari almeno mezzo milione di parole. Il LIP sono 60 ore di parlato, quindi 100 mila sono circa 12 ore. Le dimensioni ideali del corpus dipendono anche dallo scopo dello studio: se si studiano fenomeni come l’accordo della morfologia in italiano, bastano corpora più piccoli. Inoltre, può anche dipendere da quanto la macchina può fare automaticamente e quanto è necessario l’intervento del ricercatore.
4. Presenza di strumenti per l’indagine linguistica: in Antconc ci sono corpora già caricati di inglese britannico e americano, sul quale è possibile caricare anche i propri corpora. Le cose di base come la word list o le concordanze sono strumenti comuni sia in Sketch Engine che in Antconc. la differenza tra i due è che Antconc è un software che si scarica, mentre Sketch Engine si trova online e ci permette di analizzare i corpora. Poi ci sono corpora dotati di sistema di interrogazione interno, come Paisà. Successivamente, ci sono piattaforme che contengono corpora, come **Skecth Engine.
Corpora grezzi: archivi testuali, come il Project Guthenberg, che hanno formato .txt. Testo semplice non formattato. Non vengono nemmeno chiamati corpora, ma archivi testuali. Ex. Inizio promessi sposi IMMAGINE Corpora codificati: possiedono informazioni aggiuntive, che possono essere di diverso tipo: o Fascia dei parlanti o Livello di istruzione o Prima lingua o Quale accento viene identificato (categoria non particolarmente affidabile) o … Riguardano caratteristiche socio-biografiche del parlante (varietà linguistica di inglese che usa, istruzione, età, …), ma ci possono essere anche altri tipi di codifiche, ovvero annotazioni , che riguardano la struttura linguistica (info specifiche a livello morfo-sintattico, sintattico, …). Ex. Corpus annotato Catene anaforiche frammento di testo. Sono state indicate tramite diversi colori le menzioni degli stessi referenti “i nostri viaggiatori” in
Possiamo ricondurre i tipi di annotazione a tre categorie più generali: Informazione categoriale (o locale): riguarda la singola occorrenza , o il gruppo di parole (sintagma). L’annotazione per parte di discorso è un’annotazione categoriale. Anche associare un elemento a un lemma è un riferimento categoriale, come classe semantica posso indicare verbo di movimento (camminare, venire, …), posso indicare il tipo di sintagma e funzione sintattica (soggetto, verbo, …). Informazione strutturale: posso analizzare la struttura della parola e riconoscere i morfemi derivazionali che sono contenuti in una parola, o i morfemi lessicale o flessivi. Dare un’informazione dal pov strutturale di un sintagma posso indicare la costituzione dello stesso (sintagma nominale, preposizionale, …). Informazioni relazionali: qui dobbiamo tenere conto delle dipendenze , ovvero metto in relazione due elementi, i ruoli semantici e la coindicizzazione , ovvero si possono anche fornire le anafore (rimandi a ciò che è stato citato precedentemente nel testo) e catafore (rimandi a ciò che sarà citato successivamente nel testo).
Ex. Se segnalo che Maria è un soggetto di legge, in tal caso classifico le dipendenze, quindi, è un’annotazione di tipo relazionale. Se segno che Maria è un soggetto, l’informazione è categoriale. Se dico che Maria è l’agente di leggere, anche qui l’informazione è relazionale. Ci sono anche altri tipi di annotazione: annotazioni sintattiche, semantiche e pragmatiche (per indicare per esempio quali atti linguistici vengono compiuti in un particolare enunciato); per categorie di errore (mancanza di accordo, tempo verbale non corretto, ordine di parole sbagliato, …) e per catene anaforiche (rinvii per le catene anaforiche). indicato il tipo di dipendenza