Linguistica computazionale | Appunti di Linguistica

Il testo affronta due strumenti fondamentali della linguistica computazionale e dell’elaborazione

automatica del linguaggio naturale: i corpora e i dizionari elettronici. Entrambi svolgono un ruolo

essenziale nello studio della lingua e nella realizzazione di sistemi informatici capaci di

comprendere, analizzare e utilizzare il linguaggio umano. I corpora forniscono i dati linguistici su

cui lavorare, mentre i dizionari elettronici organizzano e descrivono in modo strutturato le

informazioni relative alle parole.

La prima parte del testo è dedicata ai corpora. Un corpus (al plurale corpora) è una raccolta

organizzata di testi utilizzata per studiare il linguaggio. Si tratta di una sorta di archivio linguistico

che contiene grandi quantità di materiale autentico prodotto dai parlanti di una lingua. I corpora

permettono di osservare come le parole e le strutture grammaticali vengono realmente utilizzate

nelle situazioni comunicative quotidiane. Grazie a essi, linguisti e informatici possono analizzare la

lingua in modo sistematico, sia manualmente sia attraverso strumenti automatici.

I corpora possono contenere testi scritti di natura molto diversa. Possono includere articoli di

giornale, opere letterarie, testi scientifici, documenti giuridici, saggi accademici, manuali tecnici e

molte altre tipologie di documenti. In questo modo è possibile studiare l’uso della lingua in contesti

differenti e confrontare registri linguistici diversi.

Oltre ai testi scritti, esistono corpora costituiti da testi parlati. In questi casi vengono raccolte e

trascritte conversazioni spontanee, interviste, programmi televisivi, trasmissioni radiofoniche,

dialoghi telefonici e altre forme di comunicazione orale. Questi corpora sono particolarmente

importanti perché permettono di studiare caratteristiche del linguaggio parlato che spesso non

compaiono nella lingua scritta, come esitazioni, interruzioni, ripetizioni e particolari strutture

conversazionali.

Con la diffusione di Internet sono nati anche corpora costruiti a partire da contenuti online. Essi

raccolgono testi provenienti da chat, forum, blog, social network e siti web. Questo tipo di materiale

è molto utile per osservare le forme linguistiche più recenti e informali, oltre a monitorare

l’evoluzione della lingua nel mondo digitale.

I corpora possono essere classificati secondo diversi criteri. Una prima distinzione riguarda il

numero di lingue presenti al loro interno. Esistono corpora monolingui, che contengono testi

appartenenti a una sola lingua; corpora bilingui, che raccolgono testi in due lingue diverse; e

corpora multilingui, che comprendono più lingue contemporaneamente. Questi ultimi sono

particolarmente utili per gli studi di traduzione automatica e per il confronto tra sistemi linguistici

differenti.

Un’altra classificazione riguarda la dimensione temporale. I corpora sincronici rappresentano una

fotografia della lingua in un determinato momento storico. Essi consentono di descrivere come una

lingua viene utilizzata in un preciso periodo. I corpora diacronici, invece, raccolgono testi

appartenenti a epoche diverse e permettono di osservare i cambiamenti linguistici nel corso del

tempo. Grazie a essi è possibile studiare l’evoluzione del lessico, della grammatica e delle forme

espressive.

Esiste poi una distinzione tra corpora aperti e corpora chiusi. I corpora aperti vengono

continuamente aggiornati con nuovi testi e crescono nel tempo, seguendo l’evoluzione della lingua.

I corpora chiusi, invece, vengono definiti una volta per tutte e non ricevono ulteriori aggiunte.

Entrambe le tipologie presentano vantaggi specifici: i corpora aperti sono più adatti a monitorare i

cambiamenti linguistici, mentre quelli chiusi consentono analisi più stabili e controllate.

L’importanza dei corpora deriva dal fatto che essi permettono di osservare la lingua reale e non una

versione teorica o idealizzata di essa. Attraverso l’analisi dei corpora è possibile individuare nuove

parole, studiare la frequenza dei termini, osservare i cambiamenti del lessico e comprendere come

determinate espressioni vengano utilizzate nei diversi contesti comunicativi. Questo aspetto è

Anteprima parziale del testo

Scarica Linguistica computazionale e più Appunti in PDF di Linguistica solo su Docsity!

Il testo affronta due strumenti fondamentali della linguistica computazionale e dell’elaborazione automatica del linguaggio naturale: i corpora e i dizionari elettronici. Entrambi svolgono un ruolo essenziale nello studio della lingua e nella realizzazione di sistemi informatici capaci di comprendere, analizzare e utilizzare il linguaggio umano. I corpora forniscono i dati linguistici su cui lavorare, mentre i dizionari elettronici organizzano e descrivono in modo strutturato le informazioni relative alle parole. La prima parte del testo è dedicata ai corpora. Un corpus (al plurale corpora) è una raccolta organizzata di testi utilizzata per studiare il linguaggio. Si tratta di una sorta di archivio linguistico che contiene grandi quantità di materiale autentico prodotto dai parlanti di una lingua. I corpora permettono di osservare come le parole e le strutture grammaticali vengono realmente utilizzate nelle situazioni comunicative quotidiane. Grazie a essi, linguisti e informatici possono analizzare la lingua in modo sistematico, sia manualmente sia attraverso strumenti automatici. I corpora possono contenere testi scritti di natura molto diversa. Possono includere articoli di giornale, opere letterarie, testi scientifici, documenti giuridici, saggi accademici, manuali tecnici e molte altre tipologie di documenti. In questo modo è possibile studiare l’uso della lingua in contesti differenti e confrontare registri linguistici diversi. Oltre ai testi scritti, esistono corpora costituiti da testi parlati. In questi casi vengono raccolte e trascritte conversazioni spontanee, interviste, programmi televisivi, trasmissioni radiofoniche, dialoghi telefonici e altre forme di comunicazione orale. Questi corpora sono particolarmente importanti perché permettono di studiare caratteristiche del linguaggio parlato che spesso non compaiono nella lingua scritta, come esitazioni, interruzioni, ripetizioni e particolari strutture conversazionali. Con la diffusione di Internet sono nati anche corpora costruiti a partire da contenuti online. Essi raccolgono testi provenienti da chat, forum, blog, social network e siti web. Questo tipo di materiale è molto utile per osservare le forme linguistiche più recenti e informali, oltre a monitorare l’evoluzione della lingua nel mondo digitale. I corpora possono essere classificati secondo diversi criteri. Una prima distinzione riguarda il numero di lingue presenti al loro interno. Esistono corpora monolingui, che contengono testi appartenenti a una sola lingua; corpora bilingui, che raccolgono testi in due lingue diverse; e corpora multilingui, che comprendono più lingue contemporaneamente. Questi ultimi sono particolarmente utili per gli studi di traduzione automatica e per il confronto tra sistemi linguistici differenti. Un’altra classificazione riguarda la dimensione temporale. I corpora sincronici rappresentano una fotografia della lingua in un determinato momento storico. Essi consentono di descrivere come una lingua viene utilizzata in un preciso periodo. I corpora diacronici, invece, raccolgono testi appartenenti a epoche diverse e permettono di osservare i cambiamenti linguistici nel corso del tempo. Grazie a essi è possibile studiare l’evoluzione del lessico, della grammatica e delle forme espressive. Esiste poi una distinzione tra corpora aperti e corpora chiusi. I corpora aperti vengono continuamente aggiornati con nuovi testi e crescono nel tempo, seguendo l’evoluzione della lingua. I corpora chiusi, invece, vengono definiti una volta per tutte e non ricevono ulteriori aggiunte. Entrambe le tipologie presentano vantaggi specifici: i corpora aperti sono più adatti a monitorare i cambiamenti linguistici, mentre quelli chiusi consentono analisi più stabili e controllate. L’importanza dei corpora deriva dal fatto che essi permettono di osservare la lingua reale e non una versione teorica o idealizzata di essa. Attraverso l’analisi dei corpora è possibile individuare nuove parole, studiare la frequenza dei termini, osservare i cambiamenti del lessico e comprendere come determinate espressioni vengano utilizzate nei diversi contesti comunicativi. Questo aspetto è

particolarmente importante nei settori scientifici e tecnologici, dove vengono continuamente introdotti nuovi termini e nuove espressioni. Per la lingua italiana esistono numerosi corpora di riferimento. Tra i più importanti vi è il CoLFIS, che raccoglie testi scritti utilizzati per studiare la frequenza delle parole nell’italiano contemporaneo. Un’altra risorsa significativa è il LIP, dedicato allo studio della lingua parlata. Vi è poi il CORIS, che contiene una vasta raccolta di testi scritti appartenenti a generi diversi. Accanto a questi esistono corpora derivati dal web, come PAISÀ e ItWaC, costruiti utilizzando materiali reperiti online. La seconda parte del testo si concentra sui dizionari elettronici. Questi strumenti rappresentano una delle risorse più importanti per i sistemi di elaborazione automatica del linguaggio. A differenza dei dizionari tradizionali utilizzati dalle persone per consultare il significato delle parole, i dizionari elettronici sono progettati specificamente per essere utilizzati dai computer. Un dizionario elettronico può essere definito come una banca dati contenente informazioni linguistiche organizzate in modo strutturato e formalizzato. Tali informazioni vengono utilizzate da applicazioni come traduttori automatici, assistenti vocali, motori di ricerca, correttori ortografici e sistemi di analisi linguistica. La principale differenza rispetto ai dizionari tradizionali riguarda il livello di dettaglio richiesto. Un essere umano è in grado di interpretare molte informazioni implicite e di utilizzare il proprio bagaglio di conoscenze per comprendere una definizione. Un computer, invece, necessita di istruzioni estremamente precise e complete. Per questo motivo un dizionario elettronico deve essere innanzitutto completo. Nessuna informazione importante può essere lasciata sottintesa, poiché la macchina non è in grado di dedurre autonomamente ciò che non è stato esplicitamente specificato. In secondo luogo, tutte le informazioni devono essere esplicite. Ogni caratteristica di una parola deve essere descritta in modo chiaro e non ambiguo. Occorre indicare la categoria grammaticale, le forme flesse, i significati, le proprietà sintattiche e le relazioni semantiche. Infine, i dati devono essere codificati secondo formati leggibili dai software. Le informazioni linguistiche devono essere rappresentate attraverso strutture formali che consentano ai programmi di elaborarle automaticamente. Per queste ragioni i dizionari elettronici sono generalmente molto più grandi e complessi dei dizionari cartacei. Devono infatti registrare tutte le forme possibili delle parole, le loro varianti grammaticali, i diversi significati, le relazioni con altre parole e numerose informazioni aggiuntive necessarie ai sistemi automatici. Il testo cita poi alcune importanti risorse lessicali disponibili online. Una delle più famose è WordNet, sviluppata per la lingua inglese. WordNet organizza le parole in gruppi di sinonimi chiamati synset, collegati tra loro attraverso relazioni semantiche come sinonimia, iperonimia e meronimia. Questo permette di rappresentare in modo strutturato il significato delle parole. Per l’italiano è disponibile MultiWordNet, che adatta lo stesso modello alla lingua italiana e ad altre lingue. Grazie a questa risorsa è possibile stabilire collegamenti tra parole appartenenti a sistemi linguistici differenti. Un altro progetto molto importante è BabelNet, che integra informazioni provenienti da diverse fonti linguistiche e collega concetti espressi in molte lingue diverse. BabelNet rappresenta uno dei più grandi sistemi semantici multilingui esistenti e viene ampiamente utilizzato nelle applicazioni di elaborazione del linguaggio naturale. Il testo cita inoltre Lexit, una banca dati che studia il comportamento delle parole italiane nei diversi contesti d’uso. Questo tipo di risorsa permette di comprendere meglio le sfumature semantiche e pragmatiche del lessico italiano.

Un altro importante strumento è il Cdic_it, che raccoglie oltre 127.000 nomi composti. Questo dizionario non si limita a registrare le parole, ma fornisce anche informazioni sul settore di appartenenza dei termini, distinguendo ad esempio tra ambiti come medicina, informatica, economia o altri campi specialistici. Oltre a questi esistono altri dizionari complementari che includono categorie particolari di parole, come acronimi, forme alterate, nomi propri e toponimi. Questa varietà permette di coprire in modo molto completo l’intero sistema lessicale della lingua italiana, includendo sia parole comuni sia termini specialistici o meno frequenti. Questi dizionari elettronici sono stati inizialmente sviluppati per il software INTEX e successivamente adattati a NooJ, un sistema più flessibile che consente di gestire in modo avanzato le proprietà linguistiche delle parole e di utilizzarle in applicazioni di analisi automatica del testo. Un ulteriore componente fondamentale del lavoro del DISPC è il dizionario delle forme flesse. Questo dizionario contiene oltre un milione di forme diverse delle parole italiane, cioè tutte le varianti con cui una parola può comparire nei testi reali. Ogni forma flessa è collegata al lemma di base e include informazioni grammaticali dettagliate, come il genere, il numero, il tempo verbale e il modo. Ad esempio, vengono specificate caratteristiche come “singolare maschile” oppure “congiuntivo presente”, permettendo così una rappresentazione estremamente precisa della morfologia della lingua italiana. Il testo sottolinea poi l’importanza dei corpora e dei dizionari elettronici come strumenti complementari. I corpora forniscono grandi quantità di testi autentici su cui osservare l’uso reale della lingua, mentre i dizionari elettronici organizzano in modo strutturato le conoscenze linguistiche necessarie per l’elaborazione automatica. Insieme, questi strumenti costituiscono la base per lo sviluppo di software intelligenti in grado di comprendere e utilizzare il linguaggio umano in modo sempre più avanzato, come motori di ricerca, traduttori automatici e sistemi di analisi linguistica. Il testo dedica poi particolare attenzione al problema delle parole composte, chiamate anche polirematiche. Le polirematiche sono unità linguistiche formate da due o più parole che, pur essendo separate graficamente, esprimono un unico significato complessivo. Un esempio è “donna cannone”, che non va interpretato letteralmente come una donna e un cannone, ma come un’espressione che indica un concetto unico e specifico. Queste unità rappresentano una sfida importante per l’elaborazione automatica del linguaggio, perché il loro significato non è sempre deducibile dalla semplice somma dei significati delle singole parole. Per questo motivo è necessario inserirle nei dizionari elettronici come unità autonome. Il testo distingue tra due tipi principali di parole composte. Le prime sono le composte verbali e non verbali. Le forme verbali e non verbali includono espressioni come “vecchia volpe”, dove il significato complessivo è metaforico e non letterale. Le seconde sono le espressioni non verbali idiomatiche, che presentano caratteristiche specifiche. In particolare si distinguono per tre proprietà fondamentali. La prima è la non composizionalità, cioè il fatto che il significato dell’espressione non deriva dalla semplice somma dei significati delle singole parole. La seconda è la distribuzione fissa, che indica che le parole dell’espressione tendono a comparire sempre nello stesso ordine senza variazioni. La terza è la presenza di restrizioni sintattiche, che impediscono modifiche libere alla struttura dell’espressione. Più un’espressione presenta queste caratteristiche, più essa è considerata idiomatica, cioè legata a un uso convenzionale e stabile, e meno è trasparente dal punto di vista del significato. Questo rende particolarmente difficile il suo riconoscimento da parte dei sistemi automatici. Nel dizionario Cdic_it ogni parola composta è descritta attraverso una serie di codici specifici. Viene indicata innanzitutto la categoria grammaticale, ad esempio nome. Viene poi rappresentata la

struttura interna dell’espressione, come NPN, che indica la sequenza nome–preposizione–nome. Inoltre viene specificato l’ambito semantico, ad esempio figurato, per indicare che il significato non è letterale. Infine viene incluso un codice flessivo che consente di generare le possibili varianti grammaticali dell’espressione. Questa struttura dettagliata permette ai sistemi informatici di riconoscere, analizzare e utilizzare correttamente anche le espressioni complesse della lingua italiana, migliorando la qualità di strumenti come motori di ricerca, traduttori automatici e software di analisi linguistica. In conclusione, il testo mostra come il lavoro del DISPC abbia contribuito in modo significativo allo sviluppo della linguistica computazionale, creando risorse lessicali estremamente dettagliate e strutturate. L’integrazione tra dizionari elettronici, corpora e sistemi di codifica avanzata consente oggi di rappresentare la lingua italiana in modo molto più preciso rispetto al passato e di rendere possibile una comprensione sempre più sofisticata del linguaggio da parte delle macchine, soprattutto nei contesti tecnici e scientifici. Il testo descrive alcune importanti risorse lessicali e metodologie della linguistica computazionale, concentrandosi in particolare sulla classificazione dei nomi concreti e astratti , sui sistemi di annotazione semantica e sul formato standard CoNLL , utilizzato per rappresentare i dati linguistici in modo strutturato e leggibile dai computer. La prima parte è dedicata al dizionario dei nomi concreti italiani , una risorsa molto ampia che contiene oltre 20.000 parole. Questo dizionario non si limita a fornire il significato delle parole, ma le descrive attraverso due proprietà fondamentali che permettono una classificazione molto più fine e utile per l’elaborazione automatica del linguaggio: il Sem e il Trait. Il Sem indica il contesto semantico e distribuzionale in cui un nome viene utilizzato. In altre parole, specifica in quale “area di significato” e in quali contesti linguistici una parola tende a comparire. Questa classificazione consente di raggruppare i nomi in grandi categorie concettuali. Il Trait , invece, fornisce un livello di dettaglio ancora più profondo, descrivendo i tratti semantici specifici della parola. Serve a identificare caratteristiche come il fatto che un nome indichi un oggetto, un animale, un essere umano o altre entità concrete. Questa doppia classificazione permette quindi di rappresentare sia il significato generale sia le proprietà più specifiche di ogni parola. Il testo presenta alcuni esempi concreti per chiarire il funzionamento del sistema. La parola “pane”, ad esempio, viene classificata con il tag Ncibo , che indica la categoria dei cibi. La parola “occhio”, invece, viene inserita nella categoria Npc , che indica le parti del corpo. Questi esempi mostrano come il dizionario organizzi le parole non solo in base al loro significato generale, ma anche in base al loro uso effettivo nella lingua. Le categorie Sem comprendono circa 20 sottogruppi diversi, che coprono un’ampia gamma di ambiti semantici. Tra questi vi sono le parti del corpo, gli alimenti, i testi, gli indumenti, i liquidi, gli edifici, i veicoli, gli strumenti e i dispositivi elettronici. Questa classificazione consente di rappresentare in modo sistematico gran parte del lessico concreto della lingua italiana. Un aspetto particolarmente importante riguarda il fatto che le parole non vengono classificate solo in base al loro significato, ma anche in base al loro comportamento sintattico, cioè al modo in cui si combinano con altre parole all’interno delle frasi. Questo significa che il dizionario non si limita a dire cosa significa una parola, ma anche come essa funziona linguisticamente. Il testo fornisce alcuni esempi di questo approccio. Il verbo “bere”, ad esempio, è associato a oggetti appartenenti alla categoria NliqBev , come “vino” o “acqua”. Il verbo “mangiare” si combina invece con nomi come “pane” o “pizza”, classificati come Ncibo. Infine, il verbo “indossare” si associa a nomi come “giacca” o “maglietta”, indicati con il tag Nindu. Questi esempi mostrano come la classificazione semantica sia strettamente legata alla selezione degli argomenti che i verbi possono reggere, un aspetto fondamentale per la comprensione automatica delle frasi.

CoNLL consente di rappresentare le strutture sintattiche in modo standardizzato e interoperabile. Insieme, questi strumenti contribuiscono a rendere possibile l’analisi automatica del linguaggio naturale e lo sviluppo di sistemi linguistici sempre più avanzati.

Linguistica computazionale, Appunti di Linguistica

Documenti correlati

Anteprima parziale del testo

Scarica Linguistica computazionale e più Appunti in PDF di Linguistica solo su Docsity!