Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Linguistica dei Corpora: Metodi e Analisi - Prof. Valentini, Appunti di Linguistica

La linguistica dei corpora, focalizzandosi sull'analisi delle regolarità linguistiche attraverso strumenti quantitativi e statistici. Vengono discussi diversi approcci alla raccolta di dati, inclusi corpora sincronici e diacronici, e l'importanza della tokenizzazione e della codifica dei dati. Anche l'uso di strumenti come sketch engine per l'analisi di corpora e le sfide legate alla selezione e all'interpretazione dei dati linguistici. Approfondisce concetti come concordanze, msu e collocazioni, evidenziando come questi strumenti rivelino pattern ricorrenti e unità di significato all'interno dei corpora. L'obiettivo è fornire una panoramica completa delle metodologie e degli strumenti utilizzati nella linguistica dei corpora per l'analisi del linguaggio.

Tipologia: Appunti

2024/2025

In vendita dal 22/07/2025

nicole-gambirasio
nicole-gambirasio 🇮🇹

4.1

(8)

25 documenti

1 / 61

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LINGUISTICA DEI CORPORA
2024/2025
18/02/2025
APPUNTI
Esame di quattro domande aperte o chiuse da 8 punti l’uno (orale).
INTRODUZIONE: LA LINGUISTICA
La linguistica è una disciplina scientifica che studia le lingue attraverso l’uso di un
metodo scientifico, ciò vuol dire che, come le scienze biologiche, ha lo scopo di
osservare e classificare fenomeni naturali (ex. frasi, testi, classificare le parole). Di
conseguenza, il metodo scientifico della linguistica consiste nell’osservare un
fenomeno naturale, poi si sviluppa una produzione linguistica (scritta o orale) e in
base a questo si formula l’ipotesi, che potrà essere confermata o smentita. Se l’ipotesi
verrà smentita quest’ultima aiuterà comunque nello sviluppo di una teoria futura.
La linguistica ha una pluralità di interessi e impostazioni metodologiche, perché nel
corso degli anni si sono sviluppate correnti diverse. L’opposizione principale risiede
nelle correnti:
-Funzionaliste: sostengono che il linguaggio serve allo scopo della comunicazione,
obbedisce a scopi comunicativi. Secondo questa prospettiva, la struttura linguistica
è influenzata principalmente dalle funzioni che il linguaggio deve svolgere, come
la comunicazione delle intenzioni, l'espressione di significati, e l'interazione sociale.
-Formaliste: riconoscono nel sistema umano un meccanismo deputato
esclusivamente all’apprendimento linguistico della grammatica universale o
grammatica generale, nella quale ci sono principi molto astratti e una serie di
parametri che danno lo spazio di variazione nelle lingue.
Le lingue servono a comunicare, ma non sono gli unici strumenti che aderiscono a
questo scopo: la mimica, le espressioni facciali, la postura. La linguistica si occupa
solo del linguaggio umano; serve a identificare le proprietà comuni a tutte le
lingue o ad alcuni gruppi e differenziarle da altri sistemi di comunicazione (ex.
Animale). I linguisti lavorano in modo comparativo e monolingue. L’approccio
usato è descrittivo e non prescrittivo, ovvero non serve a definire ciò che è corretto
o non corretto, ma osserva quelli che comunemente vengono chiamati errori non
considerandoli errori, ma manifestazioni di una variabilità linguistica dovuta al
variare di un contesto socio-culturale. La linguistica si occupa sia di strutture
grammaticali (sulla base di variabili sociolinguistiche. Ex. Se lo sapevo, non ci
venivo = se l’avessi saputo, non ci sarei venuto) che di strutture agrammaticali
(sulla base della struttura della lingua. Ex. So io non = io non so). La linguistica è una
Nicole Gambirasio
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d

Anteprima parziale del testo

Scarica Linguistica dei Corpora: Metodi e Analisi - Prof. Valentini e più Appunti in PDF di Linguistica solo su Docsity!

APPUNTI

Esame di quattro domande aperte o chiuse da 8 punti l’uno (orale).

INTRODUZIONE: LA LINGUISTICA

La linguistica è una disciplina scientifica che studia le lingue attraverso l’uso di un metodo scientifico , ciò vuol dire che, come le scienze biologiche, ha lo scopo di osservare e classificare fenomeni naturali (ex. frasi, testi, classificare le parole). Di conseguenza, il metodo scientifico della linguistica consiste nell’osservare un fenomeno naturale, poi si sviluppa una produzione linguistica (scritta o orale) e in base a questo si formula l’ipotesi, che potrà essere confermata o smentita. Se l’ipotesi verrà smentita quest’ultima aiuterà comunque nello sviluppo di una teoria futura. La linguistica ha una pluralità di interessi e impostazioni metodologiche , perché nel corso degli anni si sono sviluppate correnti diverse. L’opposizione principale risiede nelle correnti:

  • Funzionaliste: sostengono che il linguaggio serve allo scopo della comunicazione, obbedisce a scopi comunicativi. Secondo questa prospettiva, la struttura linguistica è influenzata principalmente dalle funzioni che il linguaggio deve svolgere , come la comunicazione delle intenzioni, l'espressione di significati, e l'interazione sociale.
  • Formaliste: riconoscono nel sistema umano un meccanismo deputato esclusivamente all’apprendimento linguistico della grammatica universale o grammatica generale , nella quale ci sono principi molto astratti e una serie di parametri che danno lo spazio di variazione nelle lingue. Le lingue servono a comunicare, ma non sono gli unici strumenti che aderiscono a questo scopo: la mimica, le espressioni facciali, la postura. La linguistica si occupa solo del linguaggio umano ; serve a identificare le proprietà comuni a tutte le lingue o ad alcuni gruppi e differenziarle da altri sistemi di comunicazione (ex. Animale). I linguisti lavorano in modo comparativo e monolingue. L’approccio usato è descrittivo e non prescrittivo, ovvero non serve a definire ciò che è corretto o non corretto, ma osserva quelli che comunemente vengono chiamati errori non considerandoli errori, ma manifestazioni di una variabilità linguistica dovuta al variare di un contesto socio-culturale. La linguistica si occupa sia di strutture grammaticali (sulla base di variabili sociolinguistiche. Ex. Se lo sapevo, non ci venivo = se l’avessi saputo, non ci sarei venuto) che di strutture agrammaticali (sulla base della struttura della lingua. Ex. So io non = io non so). La linguistica è una

scienza empirica perché studia fenomeni empirici osservabili, sia che si tratti di eventi sonori (parlato) sia che si tratti di eventi grafici (scritti), ma vengono prodotti e recepiti come eventi semiotici, ovvero dotati di significato. L’osservazione è l’organizzazione interna del fatto linguistico e della sua funzione. Le ipotesi che si fanno nell’osservazione hanno carattere predittivo per poter spiegare i fenomeni ed arrivare alla teoria. LA LINGUISTICA COMPUTAZIONALE O ACQUISIZIONALE La linguistica computazionale ha due definizioni fondamentali:

  1. Bender [2016: 645]: computational linguistics is the term used to describe research interested in answering linguistic questions using computational methodologies.
  2. Allen (1994): la linguistica computazionale si occupa dello sviluppo di una teoria computazionale del linguaggio, sfruttando le nozioni di algoritmi e strutture dati provenienti dall’informatica. La linguistica computazionale è un campo interdisciplinare che si occupa dell’applicazione di tecniche e metodi informatici per analizzare e comprendere il linguaggio naturale umano. Per carattere interdisciplinare si intende:
  • Informatica, sia teorica che applicata
  • Ingegneria (ex. Ingegneria delle lingue e del linguaggio)
  • Linguistica, scienze cognitive, psicologia e filosofia. Si usano metodologie sulla base del computer sfruttando le funzioni degli algoritmi (descrizione di procedure che dato un input d’ingresso producono un output). L’input in questo caso è il testo o i dati linguistici da analizzare , successivamente il computer viene istruito per capire i testi attraverso degli algoritmi e l’ output sarà un’ elaborazione di testi o di dati analizzati automaticamente. La linguistica computazionale è un campo interdisciplinare che unisce la linguistica e l’informatica per analizzare ed elaborare il linguaggio umano. Si parla dunque di NLP  comprendere il Linguaggio Naturale umano. La linguistica computazionale offre qualcosa all’informatica, perché permette di espandere le capacità del computer, rendendolo capace di comprendere la struttura e il contenuto dei testi, interagire con il mondo esterno con la naturalezza e immediatezza del linguaggio naturale (ex. ChatGpt, AI) e simulare il comportamento linguistico umano. Affinché questo sia possibile, dobbiamo insegnare alle macchine a riconoscere (decodificare/codificare) i suoni della lingua, riconoscere le parole e combinare tra loro le parole di una lingua (ordine delle parole).

NB: I MODELLI LINGUISTICI COMPUTAZIONALI NON CI POSSONO DIRE

DIRETTAMENTE QUALCOSA SUL FUNZIONAMENTO DEL LINGUAGGIO NATURALE.

TEORIA LINGUISTICA VS LINGUISTICA COMPUTAZIONALE

La differenza tra la teoria linguistica e la linguistica computazionale è che: la prima rappresenta la struttura e il funzionamento delle lingue, mentre la seconda simula abilità linguistiche umane allo scopo di effettuare specifici compiti in modo automatico. Quest’ultima però non ci parla del funzionamento della lingua in modo diretto, dobbiamo interpretarli in maniera autonoma. 20/02/ NASCITA LINGUISTICA COMPUTAZIONALE La linguistica computazionale nasce come una disciplina di frontiera rispetto al mondo umanistico e rispetto alle applicazioni più centrali delle scienze dell’informazione. Nacque negli anni 1950-1960 con padre Roberto Busa (Centro per l’automazione dell’analisi linguistica di Gallarate), le prime applicazioni avvennero sullo studio dei testi filosofici e letterari. Roberto Busa desiderava studiare le opere di Tommaso D’Acquino e ottenne finanziamenti per un calcolatore dal direttore dell’IBM. Inoltre, creò un programma per l’esplorazione dei testi attraverso concordanze. I primi risultati della linguistica computazionale portarono:

  • Allo sviluppo di programmi per lo spoglio elettronico dei testi;
  • Al calcolo della frequenza delle parole;
  • Alla compilazione di indici e concordanze ;
  • Alla creazione di repertori lessicali elettronici. C’è anche un secondo paradigma di riferimento, che consiste nell’applicazione di metodi formali all’analisi del linguaggio. Negli anni ’50 nasce la grammatica generativa di Noam Chomsky con la sua opera principale, “Syntactic Structures” (1957). Chomsky iniziò un’intensa attività di indagine sulle proprietà del linguaggio naturale e delle ricerche nel settore dell’IA. Dalla sua opera nacque una scuola di indirizzo generativo che si basa su principi invarianti delle lingue del mondo e su parametri che determinano la differenza importante tra le lingue del mondo. Anche la linguistica generativa dà il proprio contributo alla linguistica dei corpora, negli anni ’ il trattamento formale del linguaggio si basa sul trattamento formale della grammatica generativa. Si svilupparono così i primi programmi per l’analisi sintattica e l’interpretazione semantica automatica , chiamati Parser. Inoltre, si svilupparono le prime traduzioni automatiche e interfacce uomo-macchina in linguaggio naturale. Chomsky non riconosce alla linguistica dei corpora e quella computazionale

una scienza, perché la scienza deve fare esperimenti e, secondo lui, queste due non lo fanno. Parallelamente al diffondersi della grammatica generativa, in ambito anglosassone, si sviluppa una traduzione di ricerca linguistica ancorata ad una metodologia di derivazione empiristica , che si occupa di indagine linguistica sulla raccolta e l’ analisi di corpora. NB: BUSA = NASCITA LINGUISTICA COMPUTAZIONALE. BROWN = NASCITA LINGUISTICA DEI CORPORA. In realtà, sul piano metodologico, la prima applicazione del metodo della linguistica dei corpora risale al linguista danese Otto Jespersen , “ A Modern English Grammar on Historical Principles” (1909-1949). Quest’opera è una grande grammatica di sette volumi che tratta la grammatica inglese basandosi su autentici testi letterari e di cui aveva codificato i fenomeni linguistici. Questo tipo di indagine ha fortemente beneficiato della capacità dei computer di gestire ed elaborare quantità di dati sempre più estese. Nel 1964 , nasce ufficialmente la linguistica computazionale grazie al “ Corpus Brown ” (lungo circa 1 milione di parole), realizzato da W. Nelson Francis e Henry Kucera (Brown University) e che rappresenta la prima raccolta di dati elettronici inglesi per l’analisi linguistica , nonché il primo corpus machine-readable. Successivamente, divenne il modello principale per lo sviluppo di altre risorse. LA LINGUISTICA DEI CORPORA Ci sono due modi di fare linguistica:

  1. Corpus linguistics: ha un’attenzione riservata all’estrazione di dati da testi digitalizzati, svolta con l’ausilio dei corpora e di altri strumenti computazionali, al fine di estrarre rapidamente e in grandi quantità le informazioni e la conoscenza che essi contengono.
  2. Armchair linguistics : è una disciplina che basa il suo lavoro sulla lingua sull’introspezione, ovvero il linguista pensa come parlante competente e nativo a esempi grammaticali e agrammaticali e sulla base delle sue intuizioni sviluppa la sua teoria. Secondo Fillmore questi due linguisti non comunicano tra di loro, perché il primo dice che l’atro non dimostra fatti linguistici reali, mentre l’altro risponde che non può convincersi che ciò che dice l’altro sia interessante. La linguistica dei corpora (corpus linguistics) è una disciplina la cui indagine si basa sulla raccolta e l’analisi di corpora. In pratica usa strumenti di analisi quantistica e

- Origine:Attestati (reali o autentici): che occorrono naturalmente (si tratta ancora di dati autentici) o che siano stati trascritti (resi in forma digitale. Possono essere anche dati scritti manualmente che vengono trascritti sui PC) senza l’intervento di un ricercatore (Stubbs 2001: xiv).  Modificati: a volte la linguistica dei corpora si è servita dei corpora paralleli, in particolare di un corpus parallelo chiamato Europarl. Questo è un corpus di dibattiti parlamentari all’interno del Parlamento Europeo. Affinché tutti possano seguire il dibattito, ci sono traduttori che fanno la traduzione istantanea, ma anche autori che trascrivono i dibattiti e li traducono in tutte le lingue ufficiali dell’UE. Queste trascrizioni sono quasi sempre semplificate, ovvero sono modificate da chi fa le trascrizioni. Per esempio, se ci sono cambiamenti di programma, esitazioni, lapsus, … questi vengono omessi dal trascrittore. Quindi, si tratta di dati attestati ma che sono stati in un qualche modo modificati/manipolati (semplificati) con lo scopo di escludere aspetti che sono estranei (Stubbs 2001: xiv). Sono dati naturali, ma che sono stati modificati. La struttura sintattica non viene modificata, a meno che non ci siano cambi di programma (ex. Inizio una frase e poi la rinizio cambiando qualcosa).  Intuitivi (introspettivi): basati su esempi della vita reale. Non sono stati prodotti naturalmente per comunicare qualcosa, ma sono stati inventati dai linguisti per illustrare un particolare concetto linguistico (Stubbs 2001: xiv). Di questo tipo di dati si è servita la grammatica generativa, che in epoca più recente ha deciso di controllare ciò che esiste dalla realtà e non esempi inventati. Sono, quindi, basati sulla propria introspezione e competenza. NB: COSA SONO I DATI? Dal lato linguistico, sono una qualsiasi manifestazione linguistica della lingua e sono dati naturali e spontanei. Nel caso della linguistica dei corpora e computazionale, i dati sono i testi contenuti nei corpora e le concordanze (una determinata parola o sequenza di caratteri che cerchiamo, circondata a destra e a sinistra dal testo che precede o che segue), collocazioni (le combinazioni frequenti di una parola con altre parole. Ex. “Acquifero” tipicamente concorre con “falda”), frequenze (dati quantitativi) o statistiche estratte tramite le piattaforme o i software.

  • Tipo di varietà che rappresentano: i testi possono diversificarsi in base al canale (orale o scritto, di comunicazione del computer), il genere, il registro e il tipo testuale.

ATT. 1

Presi questi testi in formato TF unico ???? sorgerebbero dei problemi, ovvero quelli circondati dai rettangoli. Apriamo Emptcopic ???? (non verrà usato molto ma serve), caricando il primo testo ci dice che è un unico file. Un testo piccolo perché in Tokens (le cose registrate comprese le interpunzioni, ovvero i singoli elementi che costituiscono il corpus) sono

  1. Da questo posso ricavare una lista di parole in forma di sequenza e possiamo vedere la frequenza, il rango (una serie di numeri che vengono assegnati a ciascuna sequenza di caratteri, a seconda della frequenza. Quella che ha frequenza maggiore è rango 1, e così via). - Formato:Plain text (testo semplice): i testi che hanno come estensione .txt o che non hanno estensione. Non hanno una formattazione base, sono solo testi che possibilmente hanno anche interruzioni di riga.  Web formats (formati web): tutti i testi che hanno come estensione . htm(l) (HTML) o .xml (XML). Sono testi semplici con l’aggiunta di informazioni contenenti dei tags e una resa che non si basa sul layout della pagina ma sulle istruzioni contenute nei tags (ex. , , , …), possibilmente connessi ad uno specifico style sheet (stile del foglio).  “graphical” /page description formats (formati di pagina descrittiva) : sono tutti file che hanno come estensione .pdf (Portable Document Format) o .ps (.gz) (Postscript).  Proprietary formats (formati proprietario): sono tutti quei file che hanno estensione .doc, .docx (MS Word), .wpd (WordPerfect), …. Sono tutti quei file di proprietà, come word, excel, ppt, …

b. Canale (o modalità):Di lingua scritta  come La Repubblica , Brown Corpus e OVI (Vocabolario italiano dalla fine del 1200 al 1400 circa). o Brown: il primo corpus computerizzato di inglese americano, pubblicato negli anni ’60. Tutti quelli successivi seguono lo stesso modello di costruzione (sono tutti di lingua scritta), tutti di una dimensione all’epoca considerata enorme (1M di tokens) e oggi è un numero molto piccolo. Pubblicato con l’obiettivo di registrare l’uso linguistico per costruire una grammatica che descrivesse l’uso linguistico secondo un canone dello scrivere in modo corretto. Nell’immagine trovi la composizione del Brown Corpus. Di ogni testo sono state selezionate 2000 parole. COSA MANCHEREBBE OGGI? Sicuramente i social media ( CNC  Comunicazione mediata dei computer),

EXAMPLES

OF EARLY

WRITTEN

CORPORA

fumetti, manuali d’uso e etichette di prodotti, pubblicità, scritture private (diari, lettere, e-mail), la religione sarebbe meno presente attualmente. o LOB (Lancaster-Oslo-Bergen): è il corrispondente britannico del Brown. o Frown: il corrispondente del Brown a distanza di 35 anni. o FLOB: pubblicato nel 1998, è il corrispondente del LOB a distanza di 20 anni. o Kolhapur: inglese scritto in india 30 anni dopo la fine della colonizzazione (1978) o ACE: corrispondente australiano (1986), noto come Macquarie Corpus.  Di lingua parlata: testi spontanei ( LIP , corpus di italiano parlato raccolto negli anni ’80), sia conversazioni di tutti i giorni ( Childes , comparabile e comprende conversazioni con bambini che imparano le lingue materne). o SEU (Survey of English Usage): possiede 1M di parole e non è computerizzato. È composto da una parte parlata in cui ci sono dialoghi, conversazioni faccia a faccia divise in: raccolte senza che i parlanti fossero consapevoli dell’essere registrati (oggi non è più possibile, perché le persone iniziano ad essere sempre più consapevoli di essere registrati) e quelle in cui i parlanti erano consapevoli della registrazione. Inoltre, vi sono anche dei monologhi, sia spontanei che preparati (per essere resi oralmente, come le lezioni universitarie o la dettatura di lettere). o LLC (London Lund Corpus): pubblicato nel 1990, conta circa 500k di parole. Questo corpus si tratta di un tipo di parlanti molto specifico, studenti, docenti o personale dell’University College di Londra. Quindi, il corpus è sbilanciato verso un livello di competenza elevato, perché sono persone che parlano di argomenti generali e accademici. Inoltre, contiene anche

EXAMPLES

OF EARLY

SPOKEN

CORPORA

o HKCSE (Hong Kong Corpus of Spoken English): conta 907k parole, è un insieme di inglese accademico, conversazioni e discorsi pubblici.  Misti: sia scritta che parlata  BNC (British National Corpus)  un corpus più moderno e accessibile online. È un corpus misto, sia parlato che scritto, in percentuali disomogenee (10% parlato e 90% scritto su 100 milioni di Tokens). Ci sono 24 generi e cliccando su “description of codes” si ha una descrizione più dettagliata. Ad esempio, lezioni universitarie con il tema economia, politica, diritto, … e la descrizione come “interazioni in classe non universitarie”, “dibattiti o presentazioni di tipo giuridico legale”, “consultazioni mediche e legali”, …. Abbiamo: o The Bank of English: viene sovvenzionato dalle case editrici, in questo caso la Collins. Questo perché la produzione di grammatiche, dizionari e materiale didattico per l’insegnamento di una lingua beneficia dall’avere un corpus di riferimento. o The British National Corpus: sovvenzionato dalla Oxford University Press e dalla Longman. o The American National Corpus o The Brigham Young University Alcuni di questi corpora sono liberamente consultabili, mentre altri sono disponibili o disponibili a pagamento/accesso limitato.  Corpora audio (o speech databases)  MapTask Corpus (convenzioni “semicontrollate”, ovvero non create spontaneamente) e CLIPS (stratificato dal punto di vista diafasico e diatopico). EX. Parlando di lingua parlata abbiamo anche informazioni come quelle rappresentate nella figura. Come si osserva abbiamo la produzione di 5 parole, con una descrizione delle componenti delle sillabe e informazioni fonetiche, che rendono la trascrizione estremamente dettagliata. La parte superiore dove abbiamo nella prima riga la “forma d’onda” e nella seconda riga lo “spettrogramma” o “sonogramma”, i cui dati si riferiscono

all’acustica: il primo codifica info relative ai volt e ai segnali elettrici, mentre il secondo rappresenta frequenza e intensità lungo la dimensione temporale (asse delle ascisse, orizzontale).  Corpus multimodale (o corpus audio-visivo)  registrazioni audio- video di scambi comunicativi. La nascita di questo tipo di corpora si deve alla lingua dei segni. ELAN  Trascrizione con allineamento a video/audio c. Generalità: possiamo distinguere i corpus in:  Specialistici/verticali: riguardano una stessa varietà di lingua, permettono di compilare opere didattiche per apprendere varietà di una lingua come l’inglese accademico. Alcuni esempi sono EuroParl, Childes, The Michigan Corpus of Academic Spoken English (MICASE), The International Corpus of Learner English (ICLE), Uppsala Student English Corpus (USE). Ci sono anche corpus per chi sta apprendendo le lingue  per ogni corpus sono specificate le lingue materne degli apprendenti e ne mostrano anche gli errori.  Generali/plurifunzionali: come BNC (British National Corpus) che includono parlanti con diversi livelli di istruzione ed età. Sono adeguati a investigare un qualsiasi fenomeno linguistico.  Reference corpora: guidati da uno scopo normativo, quindi si scelgono parlanti con un alto livello di istruzione perché devono seguire la norma standard. Vengono usati per scrivere le grammatiche della lingua. Di solito i corpora generali e i corpora di riferimento sono più grandi rispetto ai corpora specialistici. Questi ultimi hanno una funzionalità importante nella creazione di opere didattiche a fini specialistici (come l’inglese come lingua franca per la pubblicazione di articoli scientifici). d. Asse temporale: possiamo distinguere:

Corpora di prima generazione (1960-1970): avevano la misura standard di circa 1 milione di parole, come il Brown Corpus (primo corpus elettronico progettato come riferimento per lo studio di una lingua).  Corpora di nuova generazione (1990): hanno una dimensione di circa 100 milioni di parole, come il BNC. Quelli tratti dal web hanno dimensioni ancora maggiori, come anche 1 o 2 miliardi di tokens. La dimensione tipica di un corpus è rappresentata da 100 milioni di tokens (ex. BNC), dato su cui la maggior parte di linguisti concordano. Tendenzialmente si distinguono:  Corpora generali: sempre più grandi. Sono composti circa da milioni/miliardi di parole. Per indagare le caratteristiche grammaticali rare, sono necessarie almeno 100 milioni di parole. Per studiare la formazione delle parole e la fraseologia, sono necessarie 500 milioni di parole. Infine, per la lessicografia, sono necessarie più di un milione di parole (più della metà delle parole ricorrerà una sola volta e molte di queste possono essere polisemiche).  Corpora specilistici: di minori dimensioni, come articoli che riguardano l’architettura da interni (riviste divulgative, articoli critici su opere, progetti, …). Ad esempio, il Micase, un corpora di inglese americano parlato in contesto universitario. Sono utili anche per esplorare fenomeni strutturali (grammaticali): per studiare la prosodia, 100 mila parole di parlato sono considerate adeguate. Infine, per studiare la morfologia delle forme verbali, sono necessari almeno mezzo milione di parole. Il LIP sono 60 ore di parlato, quindi 100 mila sono circa 12 ore. Le dimensioni ideali del corpus dipendono anche dallo scopo dello studio: se si studiano fenomeni come l’accordo della morfologia in italiano, bastano corpora più piccoli. Inoltre, può anche dipendere da quanto la macchina può fare automaticamente e quanto è necessario l’intervento del ricercatore.

4. Presenza di strumenti per l’indagine linguistica: in Antconc ci sono corpora già caricati di inglese britannico e americano, sul quale è possibile caricare anche i propri corpora. Le cose di base come la word list o le concordanze sono strumenti comuni sia in Sketch Engine che in Antconc. la differenza tra i due è che Antconc è un software che si scarica, mentre Sketch Engine si trova online e ci permette di analizzare i corpora. Poi ci sono corpora dotati di sistema di interrogazione interno, come Paisà. Successivamente, ci sono piattaforme che contengono corpora, come **Skecth Engine.

  1. Informazioni aggiuntive sui dati: i corpora si dicvisono in:**

Corpora grezzi: archivi testuali, come il Project Guthenberg, che hanno formato .txt. Testo semplice non formattato. Non vengono nemmeno chiamati corpora, ma archivi testuali. Ex. Inizio promessi sposi  IMMAGINE  Corpora codificati: possiedono informazioni aggiuntive, che possono essere di diverso tipo: o Fascia dei parlanti o Livello di istruzione o Prima lingua o Quale accento viene identificato (categoria non particolarmente affidabile) o … Riguardano caratteristiche socio-biografiche del parlante (varietà linguistica di inglese che usa, istruzione, età, …), ma ci possono essere anche altri tipi di codifiche, ovvero annotazioni , che riguardano la struttura linguistica (info specifiche a livello morfo-sintattico, sintattico, …). Ex. Corpus annotato  Catene anaforiche  frammento di testo. Sono state indicate tramite diversi colori le menzioni degli stessi referenti  “i nostri viaggiatori” in

Possiamo ricondurre i tipi di annotazione a tre categorie più generali:  Informazione categoriale (o locale): riguarda la singola occorrenza , o il gruppo di parole (sintagma). L’annotazione per parte di discorso è un’annotazione categoriale. Anche associare un elemento a un lemma è un riferimento categoriale, come classe semantica posso indicare verbo di movimento (camminare, venire, …), posso indicare il tipo di sintagma e funzione sintattica (soggetto, verbo, …).  Informazione strutturale: posso analizzare la struttura della parola e riconoscere i morfemi derivazionali che sono contenuti in una parola, o i morfemi lessicale o flessivi. Dare un’informazione dal pov strutturale di un sintagma posso indicare la costituzione dello stesso (sintagma nominale, preposizionale, …).  Informazioni relazionali: qui dobbiamo tenere conto delle dipendenze , ovvero metto in relazione due elementi, i ruoli semantici e la coindicizzazione , ovvero si possono anche fornire le anafore (rimandi a ciò che è stato citato precedentemente nel testo) e catafore (rimandi a ciò che sarà citato successivamente nel testo).

Ex. Se segnalo che Maria è un soggetto di legge, in tal caso classifico le dipendenze, quindi, è un’annotazione di tipo relazionale. Se segno che Maria è un soggetto, l’informazione è categoriale. Se dico che Maria è l’agente di leggere, anche qui l’informazione è relazionale. Ci sono anche altri tipi di annotazione: annotazioni sintattiche, semantiche e pragmatiche (per indicare per esempio quali atti linguistici vengono compiuti in un particolare enunciato); per categorie di errore (mancanza di accordo, tempo verbale non corretto, ordine di parole sbagliato, …) e per catene anaforiche (rinvii per le catene anaforiche).  indicato il tipo di dipendenza