Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


testo e computer, libro di linguistica computazionale, Schemi e mappe concettuali di Linguistica

primo capitolo, linguistica computazionale

Tipologia: Schemi e mappe concettuali

2017/2018

Caricato il 10/06/2018

roberta-prestipino
roberta-prestipino 🇮🇹

4.2

(22)

4 documenti

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1
Linguista computazionale deve:
1. Saper selezionare e raccogliere i dati linguistici più appropriati per i propri scopi;
2. Conoscere i metodi formali per l’analisi di questi dati;
3. Saper utilizzare tecniche informatiche per condurre le proprie analisi.
Dato linguistico = i prodotti del linguaggio che sono oggetto di un processo di analisi e che formano
l’evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche.
Parole, frasi, enunciati.
Come individuare le fonti dalle quali attingere i dati necessari alle proprie analisi = uno dei problemi più
importanti.
Esistono sue fonti principali:
1. I testi dei parlanti di una lingua cioè qualsiasi prodotto dell’attività linguistica dei parlanti
elaborato o trascritto come una sequenza di caratteri. Questi prodotti sono intesi nel senso più ampio
possibile dai testi fortemente strutturati come articoli scientifici a trascrizioni di conversazioni
spontanee;
Questi sono dati linguistici ecologici dove il testo è l’habitat naturale dei dati linguistici
2. I parlanti stessi viene assunto come evidenza empirica la capacità di un soggetto di svolgere un
certo compito linguistico. Il linguista prepara dei test ad hoc per lo studio di un particolare fenomeno
e il somministra a un gruppo predefinito di parlanti (questionari o esperimenti eseguiti in un contesto
controllato di laboratorio). le risposte dei parlanti costituiscono i dati oggetto di indagine linguistica.
Questi sono dati linguistici controllati (ottenuti somministrando test), dove è più facile fare
astrazione da circostanze di contorno a discapito della naturalezza.
Astrazione e idealizzazione sono momenti normali della metodologia scientifica perché permettono
di controllare le variabili rilevanti in un dato processo.
Per la LC si dovrebbe combinare in modo equilibrato i dati linguistici naturali con il ricorso a
dati linguistici controllati
Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. I corpora
testuali sono la principale fonte di dati in LC.
Lo sviluppo della tecnologia informatica ha promosso la creazione e l’uso di corpora.
Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis[1],
al Corpus Inscriptionum Latinarum[2] e a molti altri che sono andati sviluppandosi nel tempo.
I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso
dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo
di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano "La
Repubblica"). Il computer permette di:
Che
consentono di
superare i
limiti derivanti
dalla natura
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica testo e computer, libro di linguistica computazionale e più Schemi e mappe concettuali in PDF di Linguistica solo su Docsity!

CAPITOLO 1

Linguista computazionale deve:

1. Saper selezionare e raccogliere i dati linguistici più appropriati per i propri scopi;

2. Conoscere i metodi formali per l’analisi di questi dati;

3. Saper utilizzare tecniche informatiche per condurre le proprie analisi.

Dato linguistico = i prodotti del linguaggio che sono oggetto di un processo di analisi e che formano l’evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche.

Parole, frasi, enunciati.

Come individuare le fonti dalle quali attingere i dati necessari alle proprie analisi = uno dei problemi più importanti.

Esistono sue fonti principali:

1. I testi dei parlanti di una lingua cioè qualsiasi prodotto dell’attività linguistica dei parlanti

elaborato o trascritto come una sequenza di caratteri. Questi prodotti sono intesi nel senso più ampio possibile dai testi fortemente strutturati come articoli scientifici a trascrizioni di conversazioni spontanee; Questi sono dati linguistici ecologici dove il testo è l’habitat naturale dei dati linguistici

2. I parlanti stessi viene assunto come evidenza empirica la capacità di un soggetto di svolgere un

certo compito linguistico. Il linguista prepara dei test ad hoc per lo studio di un particolare fenomeno e il somministra a un gruppo predefinito di parlanti (questionari o esperimenti eseguiti in un contesto controllato di laboratorio). le risposte dei parlanti costituiscono i dati oggetto di indagine linguistica. Questi sono dati linguistici controllati (ottenuti somministrando test), dove è più facile fare astrazione da circostanze di contorno a discapito della naturalezza. Astrazione e idealizzazione sono momenti normali della metodologia scientifica perché permettono di controllare le variabili rilevanti in un dato processo.

Per la LC si dovrebbe combinare in modo equilibrato i dati linguistici naturali con il ricorso a

dati linguistici controllati

Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. I corpora testuali sono la principale fonte di dati in LC.

Lo sviluppo della tecnologia informatica ha promosso la creazione e l’uso di corpora.

Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis[1]^ , al Corpus Inscriptionum Latinarum [2]^ e a molti altri che sono andati sviluppandosi nel tempo.

I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano "La Repubblica"). Il computer permette di:

Che consentono di superare i limiti derivanti dalla natura

1. Immagazzinare una grande quantità di dati;

2. Facilitare la loro esplorazione;

3. Sviluppare modelli computazionali della lingua

Il settore della linguistica in cui vengono usati i corpora è noto pure come Linguistica dei corpora.

La linguistica dei corpora La linguistica dei corpora rappresenta una disciplina scientifica ormai giunta alla sua compiutezza; in cinquant'anni di attività, grazie alla moltitudine dei gruppi di ricerca in essa operanti, è riuscita a conquistarsi una posizione di centralità indiscussa nel panorama scientifico nazionale e internazionale.

Servendosi di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio.

L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano traducibili in programmi che possano essere eseguiti da calcolatore elettronico; in tal modo, esso può acquisire le competenze necessarie per comunicare direttamente nella nostra lingua.

Si tratta di un àmbito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato, per qualificare le attività rivolte allo sviluppo di applicativi basati sulle tecnologie del linguaggio, essa si intreccia con l' informatica e l'ingegneria; dall'altro lato, invece, dialoga con la linguistica, le scienze cognitive, la psicologia , la filosofia e le scienze umane in generale, con le quali condivide appunto l'obiettivo di indagare la struttura, il funzionamento e l'uso del linguaggio, nonché il suo rapporto con le altre facoltà cognitive dell'uomo.

Storia La linguistica dei corpora nasce nella seconda metà del Novecento come disciplina di frontiera rispetto sia al mondo umanistico che alle applicazioni più centrali delle scienze dell'informazione.

Tra i primi risultati della disciplina troviamo lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze [3], come pure la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici.

Negli anni Cinquanta e Sessanta, Roberto Busa S. J. realizza il primo corpus elettronico delle opere di Tommaso d'Aquino presso il Centro per l'Automazione dell'Analisi Linguisticadi Gallarate: si tratta di un corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo.

Nel 1957, parallelamente al diffondersi della grammatica generativa, in area anglosassone continua a svilupparsi una tradizione di ricerca linguistica ancorata a una metodologia di derivazione empirista, la quale fonda l'indagine linguistica sulla raccolta e analisi di corpora.

Successivamente, nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il Brown Corpus: lungo circa un milione di parole, è il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea (nel caso specifico, l'inglese americano degli anni Sessanta).

In seguito, la dimensione dei corpora è andata sempre più crescendo, e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL [4]. Al tempo stesso, la crescita del web – con la sua grande quantità di materiale testuale multiforme, e in continua evoluzione – ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio.

La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici [5]^ necessari per un uso intensivo dei metodi statistici. Inoltre, i primi linguaggi standard di marcatura del testo (come l'XML) hanno migliorato il processo di creazione, uso e interscambio dei corpora: di fatto, oggi il computerpermette di immagazzinare quantità di dati testuali prima inimmaginabili, e di interrogare in maniera avanzata il contenuto del corpus. Al contempo, tali linguaggi hanno reso possibile l'annotazione linguistica [6]^ del testo su ampia scala, la quale consente di rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso, offrendo

  • I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in un'altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono esplicitamente collegate alle unità linguistiche nei testi in traduzione in un'altra lingua che ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l'unità tipica di allineamento è la frase.
  • I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che talvolta conseguono dall'opera di traduzione (Parole 12 lingue europee)

Integrità I corpora possono contenere:

  • testi interi;
  • porzioni di testi di lunghezza prefissata. Es: il Brown Corpus include campioni di 2000 parole, mentre i testi in "Parole" e in "Coris" sono integrali.

Codifica digitale dei testi Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.

Estensione = aspetto cruciale per l’usabilità e la conformazione del corpus. L’estensione è costituita dal numero d parole unità (token) che contiene. Nei corpora audio o di parlato si considera la lunghezza della registrazione

  • Anni ’60-’70: lunghezza tipica un milione di parole (Brown Corpus 1964 primo corpus elettronico usato come riferimento per lo studio di una lingua);
  • Anni ’80: da decine a centinai di milioni di parole (BNC 100 milioni)

I corpora sono realtà chiuse ci restituiscono una sorta di fotografia di una lingua ma non seguono i suoi mutamenti e le sue evoluzioni tipici della sua natura dinamica

Sinclair ha proposto il corpus di monitoraggio collezione aperta di testi che muta nel tempo per monitorare il lessico di una lingua e utilizzabile per mantenere aggiornati i dizionari Es: bank of English ideato da Sinclair nel 1981. Nel 2002 conteneva 450 milioni di parole. In italia vi è il Coris e il America l’ American National Corpus.

  • I prodotti di prima generazione sono non misti;
  • I corposa generali recenti hanno proporzioni variabili di parlato trascritto (10%);
  • Numero crescente di corpora audio e corpora multilingui;
  • Sempre più lingue per le quali esistono corpora;
  • Si preferisce includere testi interi per una maggior naturalezza dei dati;
  • I testi sono riccamente codificati attraverso linguaggi di marcatura e schemi di codifica standardizzati;
  • I corpora sono sempre più annotti;
  • Grazie a strumenti informatici sofisticati si esplora efficacemente grandi corpora di riferimento.

La facilità di elaborazione e memorizzazione dei dati da parte del computer, lo sviluppo di metodi avanzati per il trattamento die testi digitali e la presenza crescente di testi in formato digitale hanno portato a un ampliamento quantitativo e a una grande evoluzione qualitativa dei corpora

Il corpus come campione Il grado di adeguatezza di un corpus come fonte di dati dipende dalla :

Dimensione quantitativa Dimensione qualitativa

Un corpus è un campione di una lingua o di una sua varietà, intesto come sottoinsieme di unità di una popolazione oggetto di studio, selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento.

Rappresentatività = concetto chiave per qualificare una collezione di testi come corpus. Il campione deve essere il più possibile simile alla popolazione e rappresentare un modelle fedele in scala ridotta.

La rappresentatività agisce come vincolo quantitativo e qualitativo affinché un corpus sia un modello in scala ridotta delle proprietà di una lingua o delle sue varietà.

È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di una lingua.

Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all'intera popolazione [7]^. Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.

La linguistica dei corpora ha sottolineato l’importanza di adottare criteri di selezione dei testi che accrescano la rappresentatività del campione. La complessità dell’operazione di selezione dipende dalla trasversalità o generalità della lingua che il corpus deve rappresentare.

Ovvero la grandezza del corpus

Ovvero la composizione e organizzazione del corpus; i

Disciplina che si fatta portavoce della necessità di potenziare i corpora per la selezione dei testi, non solo legati agli aspetti quantitativi. Leech: più grande non significa migliore.

  • Applicando rigorose metodologie statistiche il corpus dovrebbe essere il più possibile rappresentativo di una popolazione più ampia.
  • Per la linguistica dei corpora il controllo degli aspetti qualitativi di un corpus è lo strumento fondamentale per migliorare la rappresentatività cioè risorse estese di materiali testuali trasversali rispetto alle diverse varietà di una lingua e ottenute attraverso accurate opere di selezione.
  • Ogni corpus è il risultato dell’applicazione di metodologie di campionamento rigorose miste a soluzioni pragmatiche e all’intuizione del progettista del corpus
  • La selezione dei testi dipende anche dalla loro effettiva disponibilità.
  • Alcuni corpora nascono con una vocazione opportunistica materiale scelto solo per la sua abbondante disponibilità in formato digitale (la Repubblica, collezioni di alcune annate dell’omonimo quotidiano).
  • Altra critica chomskiana: la rappresentatività statistica non è in grado di dare una risposta soddisfacente la composizione di un corpus è sempre dipendente dalla particolare prospettiva con cui organizziamo e raggruppiamo i testi.
  • Più che la nozione di bilanciamento, ciò che conta è sapere che il corpus è sbilanciato. Cioè, in altre parole, il controllo dei criteri qualitativi di scelta dei testi per migliorare la rappresentatività del corpus deve sempre accompagnarsi alla consapevolezza dei limiti di questo processo.
  • I criteri di campionamento di un corpus devono essere resi il più possibile espliciti e ben documentati.
  • Il corpus è una fonte che deve essere usata con cautela e con la consapevolezza di dove risieda lo sbilanciamento

Nella LC esiste un forte interesse a elaborare strumenti per controllare la variabilità dei corpora.

Se il corpus perfettamente rappresentativo non esiste, la LC è sempre più consapevole dell’importanza di metodi e strategie che permettano di controllare e limitare gli effetti dei possibili sbilanciamenti dei corpora.

Il corpus come benchmark La scelta di un corpus come fonte di evidenza dipende anche da come costituisce uno standard di riferimento per una particolare applicazione linguistica. Il tipo di corpus scelto e la sua composizione influenzano fortemente i risultati che otteniamo, quindi alcuni corpora hanno progressivamente assunto il ruolo di standard de facto per una certa comunità come dati di confronto (benchmark) nella valutazioni.

Il BNC (corpus generale) = standard riconosciuto per molti tipi di analisi computazioni sulla lingua inglese.

Qualità del corpus, facile disponibilità e la conoscenza dei suoi limiti e la sua composizione = fattori che contribuiscono a rendere un corpus uno standard di riferimento.

La scelta di un corpus è guidata da

Livello di rappresentativi tà per una comunità di ricerca (per

Il suo grado di rappresentativi tà verso una lingua

I corpora specialistici

  • Utili per lo sviluppo di sistemi fortemente adattati a un particolare tipo di linguaggio;
  • Corpora focalizzati su un particolare dominio di interesse utili al linguista computazionale;
  • Problema: l’evidenza linguistica che forniscono è spesso generalizzabile solo in maniera limitata, a causa dei tratti fortemente idiosincratici (influenza solo una particolare varietà) della loro popolazione di riferimento.
  • Grazie a questi corpora cambia il modo in cui affrontare l’analisi computazionale della lingua perché si possono sviluppare modelli e strumenti che operano su ambiti linguistici ristretti ma che si possono estendere a nuove varietà della lingua.
  • Infatti la competenza generale di una lingua è inteso come il risultato di un processo di estensione a partire dalle competenze settoriali, le quali vengono generalizzate e ampliate;
  • Quindi, invece di sviluppare sistemi dotati di conoscenze linguistiche generali, si preferisce spesso sviluppare sistemi e modelli “specializzati” su domini linguistici locali (cioè dai provenienti da corpora verticali), dotando questi sistemi di capacità di adattamento linguistico sempre più sofisticate.

Corpora di addestramento

  • È un corpus all’interno del quale vengono osservati degli eventi per costruire modelli di un determinato fenomeno linguistico;
  • Gli eventi osservati possono essere parole del corpus, i loro significati o categorie sintattiche, espressioni e strutture complesse come sequenze di parole, sintagmi, frasi etc.
  • In un corpus di addestramento si possono raccogliere dati quantitativi sull’occorrenza di determinati fenomeni linguistici.
  • Grazie ai metodi statistici infatti, le regolarità rilevate nei dati vengono trasformate in modelli con cui effettuare previsioni su un dato fenomeno linguistico.
  • I modelli ottenuti vengono utilizzati per l’analisi computazionale del linguaggio;
  • L’affidabilità e la generalità dei modelli statistici dipendono da:
  1. Quali espressioni sono attestate nel nostro corpus;
  2. Quante volte sono attestate.
  • Ovviamente esisono eventi linguistici che non siamo in grado di osservare perché comunque il corpus rappresenta una porzione limitata di una popolazione linguistica;
  • Anche riguardo glie eventi attestati, in un corpus esiste sempre una grande quantità di eventi linguistici rari, cioè che ricorrono pochissime volte quindi è estremamente difficile ricavare da essi modelli statistici affidabili.
  • Per questo motivo la fonte di dati migliore è semplicemente quella con l’estensione maggiore perché aumenta la probabilità di osservare gli eventi rilevanti ai fini dei modelli linguistici da costruire

World Wide Web = miniera di testi elettronici, materiale testuale in formato elettronico

  • 1999: 6 terabyte di pagine di testo accessibile;
  • 2003: 20 terabyte 2.000 miliardi di parole.
  • Il Web è una risorsa di informazione testuale multilingue ma 75% in inglese, seguito dal giapponese. L’italiano è fermo allo 0,9%.
  • Grazie al web multilingue è possibile facilitare la raccolta di corpora paralleli o lo sviluppo di risorse testuali per le lingue minoritarie;
  • Il web è anarchico e dinamico;
  • Il mezzo elettronico ha determinato la nascita della lingua del web , con un suo lessico;
  • Esso affiancherà i corpora tradizionali (ma non li sostituisce)

Per concludere:

  • I corpora offrono l’opportunità al linguista computazionale di sviluppare modelli sulla base di dati linguistici ecologici, estratti dal loro habitat naturale;
  • I parametri che determinano la sua conformazione sono la quantità e la qualità.