





Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
primo capitolo, linguistica computazionale
Tipologia: Schemi e mappe concettuali
1 / 9
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






Linguista computazionale deve:
Dato linguistico = i prodotti del linguaggio che sono oggetto di un processo di analisi e che formano l’evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche.
Parole, frasi, enunciati.
Come individuare le fonti dalle quali attingere i dati necessari alle proprie analisi = uno dei problemi più importanti.
Esistono sue fonti principali:
elaborato o trascritto come una sequenza di caratteri. Questi prodotti sono intesi nel senso più ampio possibile dai testi fortemente strutturati come articoli scientifici a trascrizioni di conversazioni spontanee; Questi sono dati linguistici ecologici dove il testo è l’habitat naturale dei dati linguistici
certo compito linguistico. Il linguista prepara dei test ad hoc per lo studio di un particolare fenomeno e il somministra a un gruppo predefinito di parlanti (questionari o esperimenti eseguiti in un contesto controllato di laboratorio). le risposte dei parlanti costituiscono i dati oggetto di indagine linguistica. Questi sono dati linguistici controllati (ottenuti somministrando test), dove è più facile fare astrazione da circostanze di contorno a discapito della naturalezza. Astrazione e idealizzazione sono momenti normali della metodologia scientifica perché permettono di controllare le variabili rilevanti in un dato processo.
Per la LC si dovrebbe combinare in modo equilibrato i dati linguistici naturali con il ricorso a
dati linguistici controllati
Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. I corpora testuali sono la principale fonte di dati in LC.
Lo sviluppo della tecnologia informatica ha promosso la creazione e l’uso di corpora.
Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis[1]^ , al Corpus Inscriptionum Latinarum [2]^ e a molti altri che sono andati sviluppandosi nel tempo.
I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano "La Repubblica"). Il computer permette di:
Che consentono di superare i limiti derivanti dalla natura
Il settore della linguistica in cui vengono usati i corpora è noto pure come Linguistica dei corpora.
La linguistica dei corpora La linguistica dei corpora rappresenta una disciplina scientifica ormai giunta alla sua compiutezza; in cinquant'anni di attività, grazie alla moltitudine dei gruppi di ricerca in essa operanti, è riuscita a conquistarsi una posizione di centralità indiscussa nel panorama scientifico nazionale e internazionale.
Servendosi di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio.
L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano traducibili in programmi che possano essere eseguiti da calcolatore elettronico; in tal modo, esso può acquisire le competenze necessarie per comunicare direttamente nella nostra lingua.
Si tratta di un àmbito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato, per qualificare le attività rivolte allo sviluppo di applicativi basati sulle tecnologie del linguaggio, essa si intreccia con l' informatica e l'ingegneria; dall'altro lato, invece, dialoga con la linguistica, le scienze cognitive, la psicologia , la filosofia e le scienze umane in generale, con le quali condivide appunto l'obiettivo di indagare la struttura, il funzionamento e l'uso del linguaggio, nonché il suo rapporto con le altre facoltà cognitive dell'uomo.
Storia La linguistica dei corpora nasce nella seconda metà del Novecento come disciplina di frontiera rispetto sia al mondo umanistico che alle applicazioni più centrali delle scienze dell'informazione.
Tra i primi risultati della disciplina troviamo lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze [3], come pure la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici.
Negli anni Cinquanta e Sessanta, Roberto Busa S. J. realizza il primo corpus elettronico delle opere di Tommaso d'Aquino presso il Centro per l'Automazione dell'Analisi Linguisticadi Gallarate: si tratta di un corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo.
Nel 1957, parallelamente al diffondersi della grammatica generativa, in area anglosassone continua a svilupparsi una tradizione di ricerca linguistica ancorata a una metodologia di derivazione empirista, la quale fonda l'indagine linguistica sulla raccolta e analisi di corpora.
Successivamente, nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il Brown Corpus: lungo circa un milione di parole, è il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea (nel caso specifico, l'inglese americano degli anni Sessanta).
In seguito, la dimensione dei corpora è andata sempre più crescendo, e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL [4]. Al tempo stesso, la crescita del web – con la sua grande quantità di materiale testuale multiforme, e in continua evoluzione – ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio.
La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici [5]^ necessari per un uso intensivo dei metodi statistici. Inoltre, i primi linguaggi standard di marcatura del testo (come l'XML) hanno migliorato il processo di creazione, uso e interscambio dei corpora: di fatto, oggi il computerpermette di immagazzinare quantità di dati testuali prima inimmaginabili, e di interrogare in maniera avanzata il contenuto del corpus. Al contempo, tali linguaggi hanno reso possibile l'annotazione linguistica [6]^ del testo su ampia scala, la quale consente di rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso, offrendo
Integrità I corpora possono contenere:
Codifica digitale dei testi Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.
Estensione = aspetto cruciale per l’usabilità e la conformazione del corpus. L’estensione è costituita dal numero d parole unità (token) che contiene. Nei corpora audio o di parlato si considera la lunghezza della registrazione
I corpora sono realtà chiuse ci restituiscono una sorta di fotografia di una lingua ma non seguono i suoi mutamenti e le sue evoluzioni tipici della sua natura dinamica
Sinclair ha proposto il corpus di monitoraggio collezione aperta di testi che muta nel tempo per monitorare il lessico di una lingua e utilizzabile per mantenere aggiornati i dizionari Es: bank of English ideato da Sinclair nel 1981. Nel 2002 conteneva 450 milioni di parole. In italia vi è il Coris e il America l’ American National Corpus.
La facilità di elaborazione e memorizzazione dei dati da parte del computer, lo sviluppo di metodi avanzati per il trattamento die testi digitali e la presenza crescente di testi in formato digitale hanno portato a un ampliamento quantitativo e a una grande evoluzione qualitativa dei corpora
Il corpus come campione Il grado di adeguatezza di un corpus come fonte di dati dipende dalla :
Dimensione quantitativa Dimensione qualitativa
Un corpus è un campione di una lingua o di una sua varietà, intesto come sottoinsieme di unità di una popolazione oggetto di studio, selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento.
Rappresentatività = concetto chiave per qualificare una collezione di testi come corpus. Il campione deve essere il più possibile simile alla popolazione e rappresentare un modelle fedele in scala ridotta.
La rappresentatività agisce come vincolo quantitativo e qualitativo affinché un corpus sia un modello in scala ridotta delle proprietà di una lingua o delle sue varietà.
È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di una lingua.
Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all'intera popolazione [7]^. Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.
La linguistica dei corpora ha sottolineato l’importanza di adottare criteri di selezione dei testi che accrescano la rappresentatività del campione. La complessità dell’operazione di selezione dipende dalla trasversalità o generalità della lingua che il corpus deve rappresentare.
Ovvero la grandezza del corpus
Ovvero la composizione e organizzazione del corpus; i
Disciplina che si fatta portavoce della necessità di potenziare i corpora per la selezione dei testi, non solo legati agli aspetti quantitativi. Leech: più grande non significa migliore.
Nella LC esiste un forte interesse a elaborare strumenti per controllare la variabilità dei corpora.
Se il corpus perfettamente rappresentativo non esiste, la LC è sempre più consapevole dell’importanza di metodi e strategie che permettano di controllare e limitare gli effetti dei possibili sbilanciamenti dei corpora.
Il corpus come benchmark La scelta di un corpus come fonte di evidenza dipende anche da come costituisce uno standard di riferimento per una particolare applicazione linguistica. Il tipo di corpus scelto e la sua composizione influenzano fortemente i risultati che otteniamo, quindi alcuni corpora hanno progressivamente assunto il ruolo di standard de facto per una certa comunità come dati di confronto (benchmark) nella valutazioni.
Il BNC (corpus generale) = standard riconosciuto per molti tipi di analisi computazioni sulla lingua inglese.
Qualità del corpus, facile disponibilità e la conoscenza dei suoi limiti e la sua composizione = fattori che contribuiscono a rendere un corpus uno standard di riferimento.
La scelta di un corpus è guidata da
Livello di rappresentativi tà per una comunità di ricerca (per
Il suo grado di rappresentativi tà verso una lingua
I corpora specialistici
Corpora di addestramento
World Wide Web = miniera di testi elettronici, materiale testuale in formato elettronico
Per concludere: