Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Linguistica Computazionale: Un'Introduzione ai Modelli e alle Applicazioni, Traduzioni di Linguistica

model resources application, igor bolshakov, alexander gelbukh

Tipologia: Traduzioni

2018/2019

Caricato il 05/04/2019

fair
fair 🇮🇹

3.7

(3)

8 documenti

1 / 17

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
HPSG: la grammatica sintagmatica sviluppata da pollard e sag è il formalismo più avanzato nella descrizione
ed elaborazione del linguaggio naturale all interno delle grammatiche generative originate da chomsky e
prende tutti i fatti noti per la descrizione della lingua naturale e cerca di inserirne di nuovi.
NPL: Elaborazione del linguaggio naturale
Coordinamento con l’intelligenza artificiale(AI): I sistemi di int artificiale che contengono sottoinsiemi di
elaborazione del linguaggio naturale dipendono dalle idee e le metodiche della linguistica computazionale.
infatti alcuni metodi considerati appartenenti all’int artificiale sono applicabili alla linguistica
computazionale come le matrici e altre strutture complesse
Ruolo dell’elaborazione del Linguaggio Naturale: la maggior parte delle info disponibili sono in forma di
testo in lingua naturale, quindi c’è bisogno di un elaborazione automatica del testo perché milioni di persone
non hanno le conoscenze, istruzione, o voglia di confrontarsi con i moderni standard di elaborazione di un
documento dato ché lo impara un PC al loro posto. Cercare un info in un enorme repertorio di testi può
essere difficile. L’elaborazione intelligente del linguaggio si basa sulla linguistica computazionale che è
collegata alla linguistica generale e quella applicata.
La linguistica e la sua struttura: La linguistica è una scienza che studia le lingue naturali, Essa studia
la struttura generale delle varie lingue naturali e scopre le leggi universali del funzionamento delle
lingue naturali, si compone di:
-Fonologia: ha a che fare con i suoni del parlato
-Morfologia: ha a che fare con la struttura interna delle singole parole
-Sintassi: analizza la struttura delle frasi e come le singole parole sono connesse con loro
-Semantica: a che fare con il significato delle parole e dei testi
-Pragmatica: studia le ragioni per cui le persone producono specifiche frasi in una specifica
situazione.
La linguistica storica o comparativa studia la storia delle lingue attraverso la loro reciproca
comparazione, ci permette di predire gli elementi di una lingua basandoci sulla conoscenza di
un’altra lingua correlata (diacronia studio lingua dalle origini fino ad un dato momento, sincronia in
un preciso momento)
Linguistica contrastiva: classifica le lingue in base a somiglianza caratteristiche e non legata alla
loro origine. Infatti le lingue romanze e germaniche usano gli articoli così come il bulgaro all’interno
della famiglia slava.
La sociolinguistica descrive le variazioni di una lingua su una scala sociale. E’ ben noto che vari
strati sociali spesso usano diverse sotto lingue all’interno della lingua comune
La dialettologia confronta e descrive vari dialetti di una lingua comune, che vengono parlati in aree
differenti del territorio dove ufficialmente si parla la stessa lingua.
La lessicografia studia il lessico, ovvero l’insieme di tutte le parole, di una specifica lingua, con i
loro significati, caratteristiche grammaticali, pronuncia, ecc., così come i metodi di compilazione dei
vari dizionari basati su queste conoscenze. I risultati della lessicografia sono molto importanti per
diversi compiti della linguistica computazionale, dato che ogni testo è fatto di parole. Ogni
elaborazione automatica di un testo comincia dal recupero dell’informazione riguardante ogni
singola parola da un dizionario elettronico precedentemente redatto.
La psicolinguistica studia il comportamento della lingua degli esseri umani attraverso una serie di
esperimenti di tipo psicologico. Tra le aree del suo specifico interesse, gli psicolinguisti studiano
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Linguistica Computazionale: Un'Introduzione ai Modelli e alle Applicazioni e più Traduzioni in PDF di Linguistica solo su Docsity!

HPSG: la grammatica sintagmatica sviluppata da pollard e sag è il formalismo più avanzato nella descrizione ed elaborazione del linguaggio naturale all interno delle grammatiche generative originate da chomsky e prende tutti i fatti noti per la descrizione della lingua naturale e cerca di inserirne di nuovi.

NPL: Elaborazione del linguaggio naturale

Coordinamento con l’intelligenza artificiale(AI): I sistemi di int artificiale che contengono sottoinsiemi di elaborazione del linguaggio naturale dipendono dalle idee e le metodiche della linguistica computazionale. infatti alcuni metodi considerati appartenenti all’int artificiale sono applicabili alla linguistica computazionale come le matrici e altre strutture complesse

Ruolo dell’elaborazione del Linguaggio Naturale: la maggior parte delle info disponibili sono in forma di testo in lingua naturale, quindi c’è bisogno di un elaborazione automatica del testo perché milioni di persone non hanno le conoscenze, istruzione, o voglia di confrontarsi con i moderni standard di elaborazione di un documento dato ché lo impara un PC al loro posto. Cercare un info in un enorme repertorio di testi può essere difficile. L’elaborazione intelligente del linguaggio si basa sulla linguistica computazionale che è collegata alla linguistica generale e quella applicata.

La linguistica e la sua struttura: La linguistica è una scienza che studia le lingue naturali, Essa studia la struttura generale delle varie lingue naturali e scopre le leggi universali del funzionamento delle lingue naturali, si compone di:

-Fonologia: ha a che fare con i suoni del parlato

-Morfologia: ha a che fare con la struttura interna delle singole parole

-Sintassi: analizza la struttura delle frasi e come le singole parole sono connesse con loro

-Semantica: a che fare con il significato delle parole e dei testi

-Pragmatica: studia le ragioni per cui le persone producono specifiche frasi in una specifica situazione.

La linguistica storica o comparativa studia la storia delle lingue attraverso la loro reciproca comparazione, ci permette di predire gli elementi di una lingua basandoci sulla conoscenza di un’altra lingua correlata (diacronia studio lingua dalle origini fino ad un dato momento, sincronia in un preciso momento)

Linguistica contrastiva: classifica le lingue in base a somiglianza caratteristiche e non legata alla loro origine. Infatti le lingue romanze e germaniche usano gli articoli così come il bulgaro all’interno della famiglia slava.

La sociolinguistica descrive le variazioni di una lingua su una scala sociale. E’ ben noto che vari strati sociali spesso usano diverse sotto lingue all’interno della lingua comune

La dialettologia confronta e descrive vari dialetti di una lingua comune, che vengono parlati in aree differenti del territorio dove ufficialmente si parla la stessa lingua.

La lessicografia studia il lessico, ovvero l’insieme di tutte le parole, di una specifica lingua, con i loro significati, caratteristiche grammaticali, pronuncia, ecc., così come i metodi di compilazione dei vari dizionari basati su queste conoscenze. I risultati della lessicografia sono molto importanti per diversi compiti della linguistica computazionale, dato che ogni testo è fatto di parole. Ogni elaborazione automatica di un testo comincia dal recupero dell’informazione riguardante ogni singola parola da un dizionario elettronico precedentemente redatto.

La psicolinguistica studia il comportamento della lingua degli esseri umani attraverso una serie di esperimenti di tipo psicologico. Tra le aree del suo specifico interesse, gli psicolinguisti studiano

l’insegnamento della lingua ai bambini, i legami tra l’abilità linguistica in generale e l’arte di parlare, così come altri aspetti psicologici connessi al linguaggio naturale ed espressi attraverso di esso.

La linguistica matematica: usata per definire alcune grammatiche formale di tipo specifico chiamate generative. È la parte di matematica che prende fenomeni linguistici e le reciproche relazioni come oggetti delle loro possibili applicazioni. Una delle branche è la linguistica quantitativa, che studia la lingua per determinare la frequenza, combinazioni delle varie parole, la costituzione dei testi. È associata alal linguistica statistica che fornisce le metodologie decisionali nell’elaborazione di un testo sulla base di statistiche acquisite precedentemente.

La linguistica applicata: sviluppa i metodi di utilizzo delle idee e delle nozioni di linguistica generale nella diffusa pratica umana. Le prime applicazioni linguistiche sviluppavano le grammatiche e i dizionari in forma stampata in modo da poter essere usati dai non specialisti. Nel 20 secolo è nata una nuova branca ovvero la linguistica computazionale o ingegneria linguistica.

Linguistica Computazionale: elaborazione automatica del linguaggio naturale, obiettivo principale è quello di costruire programmi informatici per la elaborazione di parole e testi in lingua naturale. Un sistema informatico per essere linguistico deve: dipendere dalla lingua cioè variare da una lingua naturale all’altra e richiedere una grande quantità di lavoro per la sua compilazione. La parola, generalmente è considerata una sottostringa (occorrenza di parola) del testo, come una stringa di lettera dal primo delimitatore (spazio)al successivo (spazio o puntegg.) Lessema: è un gruppo di parole(sottostringhe) simili in apparenza in quanto hanno lo stesso nucleo di significato(libro-libros) ogni voce di questo gruppo si chiama forma di parola.

CAP2-PROFILO STORICO: DIVERSI APPROCCI DELLA LINGUISTICA:

-APPROCCIO STRUTTURALISTA

Soussurre considerava il linguaggio naturale come una struttura di elementi correlati o opposto l’uno all altro. L’ordine delle parole in una frase fu considerato il principale strumento per riconoscere gruppi di parole e le strutture di una frase. Le frasi esaminate furono divise in costituenti immediati o proposizioni che al loro volta erano divisi in sottocostituenti fino alle singole parole, questa strutturazione sintattica viene definita come approccio

IL CONTRIBUTO INIZIALE DI CHOMSKY egli sviluppò nuovi strumenti formali per una migliore descrizione dei fatti nelle varie lingue, si distinguono: -un nucleo puramente matematico che include la grammatica generativa ordinata in una gerarchia di grammatiche di diverse entità. La gram generativa produce stringhe di simboli e gruppi di queste sono definite lingue formali che in ling gen sono dette testi. la grammatica libera da contesto è uno dei livelli di questa gerarchia. Le strutture sintattiche vennero formalizzate come grammatiche libere dal contesto (cfg) e divennero gli strumenti di base per la descrizione delle lingue naturali. Ex: S= frase(sintagma) NP= sintagma nominale, VP=sintagma verbale, N=sostantivo, V=verbo, D=determinante tutti questi simboli sono categorie grammaticali Regole di produzione per la sostituzione di un simbolo non terminale con una stringa di altri simboli non terminali. S > NP, VP VP >V, NP SN > D, N SN> N Ogni simbolo a destra di una regola è costituente delle entità che sta a sinistra

una grammatica SeMPLice, libera dal CONTEsTo

L’unificazione permette di eliminare i tratti inappropriati mentre la combinazione di tratti unificati caratterizza la struttura sintattica presa in esame portando alla vera interpretazione della frase. Ex: Un= maschile singolare, libro: maschile singolare sono compatibili.

LA TEORIA DEL MEANING TEXT (trasformatore multistadio e modelli di reggenza= MTT) Sviluppata in russia, considera la lingua come un trasformatore a più livelli dal significato al testo e viceversa: morfologia superficiale, morf profonda, sintassi superficiale, sintas profonda, e livelli semantici. Alcune rappresentazioni interne corrispondono ad ogni livello, e ogni rappresentazione equivale a rappresentazioni di altri livelli. La descrizione delle valenze si basa sui modelli di reggenza descritti come tabelle. I modelli di reggenza sono autosufficienti alla descrizione del linguaggio e differiscono dai quadri di sotto categorizzazione introdotti nella corrente della grammatica generativa. MTT ALBERI DI DIPENDENZA: essi descrivono i legami sintattici tra le parole in una frase, l’insieme di questi costituisce la rappresentazione di una frase a livello sintattico. canta

studente canzone

lo messicano una

Negli alberi di dipendenza non c’è rapporto tra la descrizione delle relazioni tra le parole che formano una frase e il loro ordine.

MTT-LEGAMI SEMANTICI: i legami tra i lemmi ad un livello sintattico superficiale determinano legami tra nodi corrispondenti ad un livello sintattico profondo. Nell MTT la correlazione tra legami sintattici e semantici non è sempre lineare (ex alcuni verbi ausiliari scompaiono a livello sintatticoregole di corrispondenza).

MTT fornisce anche regole di trasformazione di alcune parole e combinazioni di parole in altre parole e combinazioni indipendentemente dal significato semantico. Conclusioni, nel ventesimo secolo la sintassi era al centro della ricerca linguistica e l’approccio alle questioni sintattiche determinava la struttura di ogni teoria. Ci sono due approcci principali alla sintassi: l’approccio costituente – approccio dipendente. Quella del costituente ha avuto origine da chomsky con le gramm libere da contesto e la teoria della gramm sintagmatica head driven. Quello dipendente usato nel meaning text MTT.

CAP3 PRODOTTI DELLA LING COMPUT IL PRESENTE, IL FUTURO

CLASSIFICAZIONE DEI SISTEMI LINGUISTICI APPLICATI.

Sistemi ling applicati per diversi scopi: preparazione o correzione del testo mediante: sillabazione automatica, controllo ortografico, controllo grammaticale, controllo stilistico(correzione di errore stilistici), riferimenti a parole specifiche ovvero combinazioni di parole e collegamenti semantici tra loro, recupero dell’informazione in database documentali, trad automatica, interfaccia del linguaggio naturale con un datab e altri sistemi, estrazione di dati effettivi da testi commerciali o scientifici, creazione di un testo da foto e specifiche formali, comprensione della lingua naturale, riconoscimento ottico del carattere, riconoscimento vocale.

SILLABAZIONE AUTOMATICA intesa come la corretta divisione delle parole di un testo in lingua naturale. La sillabazione migliora l’apparenza esteriore dei testi informatici regolando i loro margini corretti. Gli editor più famosi

come Microsoft word hanno strumenti di sillabazione l’informazione linguistica presa in questo tipo di programma è piuttosto limitata, qst può dipendere dalla struttura morfemica ma anche etimologica. Solo un programma basato sul dizionario può prender in esame tutte queste considerazioni.

CONTROLLO DELL’ORTOGRAFIA è quello di rilevare e correggere gli errori di ortografia e di battitura in un testo, a livello di occorrenza della parola, considerata fuori dal suo contesto. Errori: refusi o di battura- Err. Ortografici: errata conoscenza delle regole di scrittura delle parole. Un correttore ortografico identifica solo quelle stringhe che non rappresentano parole corrette in una lingua naturale. Le stringhe messe in evidenza possono essere corrette dall utente manualmente o cn l’aiuto del programma. Il progr. Può anche proporre un gruppo di parole simili a qll corrotta. Spesso x le stringhe lunghe, un correttore offre solo 1 -2 esiti possibili la quantità di info linguistica necessaria ai correttori ortografici è + vasta che per la scansione in sillabe. Un approccio semplice ma dispendioso si ottiene con una lista, un dizionario di tt le parole valide in una specifica lingua.

CONTROLLO GRAMMATICALE:

gli errori grammaticali sono quelli che violano le leggi sintattiche o leggi legate alal struttura della frase (ex: accordo tra sostantivo e aggettivo). Le parole che devono accordarsi possono trovarsi in punti diversi della frase difficoltà di rilevazione dell’errore per il programma. Altri comprendono l’uso scorretto delle preposizioni. Una completa correzione richiederebbe una completa analisi sintattica.

CORRETTORI DI STILE

gli errori di stile sono quelli che in una lingua contravvengono alle leggi sul uso di parole corrette e di combinazioni di parole, in generale in un dato genere letterale. Esso dovrebbe usare un dizionario di parole corredato di segni che ne indichino l’uso, sinonimi, informazioni sul corretto uso delle preposizioni, compatibilità con altre parole. Dovrebbe inoltre usare un analisi automatica che possa individuare costrutti sintattici impropri. I corr. In commercio son molto primitivi. X valutare le proprietà stilistiche di un testo alcuni correttori calcolano la lunghezza media delle parole nel testo.

RIFERIMENTI ALLA PAROLE E ALLE LORO COMBINAZIONE: i rif di ogni specifica parola danno accesso al gruppo di parole semanticamente correlate alla precedente o che possono formare combinazioni con la precedente in un testo. Quest’applicazione viene eseguita con strumenti linguistici di 2 tipi: dizionari on-line autonomi, dizionari dei sinonimi costruiti ad hoc. All’ interno dei tipici elaboratori di testo i dizionari dei sinonimi sono chiamati thesaurus(i veri contengono + informazioni). Un esempio di dizionario che fornisce un numero di relazioni semantiche tra diversi lessemi è EURO WORD NET che riflette legami tra lessemi di varie lingue europee la sua base è il dizionario inglese wordnet sostantivi verbi aggettivi e avverbi sono stati divisi in set di sinonimi o synset relazioni semantiche stabilite tra i synset: iponimia(sotto classe) Iperonimia(superclasse), antonimia(significato opposto), meronimia(che si rif alle parti), olonimia (riferisce all insieme). Classificazione in livelli gerarchici, in liv superiori della gerarchia formano l’ontologia cioè uno schema presupposto della conoscenza umana

RECUPERO DELLE INFORMAZIONI

I sistemi di recupero di informazioni (IRS) sono concepiti per cercare informazioni rilevanti in ampi database documentali. Questa informazione può essere di vari tipi, con query. I documenti vengono forniti di una lista di parole chiave questa è inclusa al doc nel database bibliografico del

arrivo, Una analisi linguistica profonda del dato testo è necessaria a fare la scelta giusta, sulla base del significato delle parole circostanti, del testo, nel suo insieme, e forse di qualche informazione extralinguistica.

L’INTERFACCIA DELLA LINGUA NATURALE

L’interfaccia di un database media tra le domande input e restituisce risposte in linguaggio naturale, a volte sotto forma di output formattato. Le query riguardano solitamente dati e database molte delle soluzioni di interfaccia sono costruite e ha per ogni sistema specifico gli sviluppatori dei sistemi di gestione del database + popolari, forniscono al loro prodotto una lingua che costruisce query formali come SQL. Non esiste alcun sistema di interfaccia k funzioni con una lingua naturale davvero illimitato. Le interfacce del linguaggio naturale possono essere utili soprattutto per la capacità di riconoscimento vocale che permetterebbe all’utente di porre delle query o dare comandi attraverso una line telefonica. Il problema specifico dei sistemi di interfaccia è che essi operano non con un racconto o un monologo, ma con un dialogo, per cui il pc va in difficolta. l’unico modo che ha il computer di capire domande ellittiche è quella di costruire un modello degli attuali obiettivi dell’utente, la sua conoscenza, e interessi, e poi cercare di indovinare cosa lo stesso computer potrebbe chiedere a questo punto del dialogo se fosse l’utente, e con quali parole formulerebbe tale domanda. Questa idea può essere definita analisi attraverso la sintesi.

ESTRAZIONI DI DATI EFFICIENTI DAI TESTI

L’estrazione di dati efficienti dai testi è l’obiettivo della creazione automatica degli elementi di un database come campi, o parametri, basati su testi on-line. il flusso delle attuali notizie da Internet o da un organo di informazione è usato come fonte di informazione per tali sistemi. Un sistema automatico totalmente efficiente potrebbe non solo estrarre i fatti importanti molto più in fretta, ma anche combinarli, classificarli, e indagare sulle loro interrelazioni.

CREAZIONE DI TESTO In anni recenti diverse applicazioni x La creazione di testi da foto e specifiche formali tra qst ci sono sistemi multimediali che richiedono un sottosistema di creazione del testo per illustrare immagini attraverso spiegazioni testuali. Qst sottosistemi producono testi coerenti, a partire dalle caratteristiche delle immagini. Altra applicazione molto importante dei sistemi di qst tipo è la creazione di specifiche formali sotto forma di testo partendo da disegni tecnici. Ex sistema di creazione di testo multilingue (meno problemi d un sistema di traduzione)

SISTEMI DI COMPRENSIONE DELLA LINGUA

Sono i più complessi che coinvolgono l’elaborazione del linguaggio naturale. Possono portare a termine quasi tutti gli obbiettivi degli altri sistemi. Il modulo di elaborazione del linguaggio naturale è solo una parte di tale sistema + modulo di ragionamento. Il sott sistema linguistico è generalmente bidirezionale (comprende input e genera output) Turing test: test di intelligenza di un computer, doveva essere l’abilità di portare avanti una conversazione intelligente, ma qst traguardo non è stato ancora raggiunto.

SISTEMI CORRELATI Sistemi non di linguistica comp, ma fanno affidamento sui metodi linguistici: riconoscimento ottico del carattere: riconosce i grafemi in un immagine e li converte nei codice ascii corrispondenti. Necessita di informazioni linguistiche per correzione errori Le difficoltà nell’obiettivo del riconoscimento vocale sono molto simili o quasi identiche a quelle nel riconoscimento ottico dei caratteri.

Cap La lingua come trasformatore meaning text Si potrebbe cercare di definire il linguaggio naturale in uno dei seguenti modi:

F 0 B 7 Il principale mezzo per esprimere I pensieri umani; F 0 B 7 Il principale mezzo per creare un testo; F 0 B 7 Il principale mezzo della comunicazione umana

LA LINGUA COME TRASFORMATORE BI-DIREZIONALE Il principale obiettivo della comunicazione umana è quello di trasferire delle informazioni da una persona all’altra. Chi comunica utilizza la stessa lingua. Il ruolo del linguaggio è la codifica delle informazioni all estremità trasmittente e poi la decodifica all’estremità ricevente linguaggio come trasformatore dei significati in testi e in senso opposto dai testi ai significati. Due trasformatori funzionanti in parallelo, in direzioni opposte. I due set: testi e significati non sn abbastanza simmetrici nelle loro proprietà: i testi possono essere osservati direttamente (strutture superficiali e profonde) liv superficiali e prof di rappresentazione L’insieme di testi è considerato il margine superficiale del trasformatore meaning text mentre l’insieme dei significati rappresentano il margine profondo. Da significato a testo: sintesi del testo, dal testo al significato: analisi del testo.

CHE COS’È IL TESTO la forma discreta di parola suppone la divisione del flusso dei segnali acustici n entità disposte in sequenza, appartenenti ad un insieme finito di segnali parzialisimile ad un alfabeto chiamato alfabeto fonetico per la trascrizione dei simboli fonetici. Le persone usano 3 sistemi principali di scrittura: quella di tipo alfabetico, quella di tipo sillabico, e quella di tipo geroglifico. + utilizza la scrittura alfabetica, che cerca di raggiungere la corrispondenza tra lettere e suoni del linguaggio. Attualmente, la maggior parte dei compiti pratici della linguistica computazionale è legata a testi scritti immagazzinati in supporti informatici. X la ling computazionale l’unità + piccola del testo è il morfo (unità + piccola dotata di significato) Caratteristica principale di un testo:

F 0 B 7 Significato. Il rapporto esistente tra testi e significati è la ragione dell'elaborazione dei testi in lingua naturale. F 0 B 7 Struttura lineare un testo rappresenta informazioni non lineari trasformate in forma lineare F 0 B 7 Struttura nidificata e coerenza. Un testo si compone di pezzi elementari che hanno il loro proprio significato, di solito piuttosto elementare, sono organizzati in strutture più grandi, che hanno un proprio significato. Questo significato è determinato dal significato di ciascuno dei loro componenti.

CHE COS’È IL SIGNIFICATO I significati, al contrario dei testi, non possono essere osservati direttamente. Usare una rappresentazione che possa essere utilizzata dal computer. Se una rappresentazione che usiamo consente al computer di manipolare i tasti cn una capacità come quella umana questa rappresentazione è buona per il vero significato ed adatta ai nostri scopi. il significato è un linguaggio formale o un formato di rappresentazione delle informazioni immediatamente comprensibili per, o che funzioni per il consumatore delle informazioni. il sistema di ragionamento di base competente, il database, il sistema di controllo dei robot… Si suppone che questo sistema di base produca le risposte solo di uguale formato. Esiste n altro tipo di info in un testo come le convinzioni, le stime, le intenzioni del suo autore. Le parole che riflettono le informazioni di base, attraverso alcuni accorgimenti stilistici, possono inoltre esprimere l'atteggiamento dell'autore. Il sistema di applicazione avanzata dovrebbe distinguere le

F 0 B 7 Omonimie lessico-morfologiche : due lemmi appartengono a due lessemi diversi. Aviso sost avistar verbo Un altro caso di omonimia lessico-morfologica è rappresentato da due lessemi diversi i cui insiemi di lemmi si intersecano in più di un lemma F 0 B 7 Omonimia puramente lessicale : due o più lessemi hanno lo stesso set di lemmi, F 0 B 7 Omonimia morfo-sintattica : tutto un gruppo di lemmi sono gli stessi per due o più lessemi, ma questi lessemi differiscono nel significato e in uno o più proprietà morfo-sintattiche. F 0 B 7 Omonimia puramente morfologica : due o più lemmi sono diversi membri del lemma fissato per lo stesso lessema. Una risoluzione di tutti questi tipi di omonimia è operata dall'ascoltatore o dal lettore umano secondo il contesto del lemma o sulla base della situazione extralinguistica in cui viene utilizzata questa forma. E’ opinione comune, che la risoluzione dei casi di omonimia (e ambiguità in generale) sia uno dei più difficili problemi di linguistica computazionale e deve essere affrontata come parte integrante ed essenziale del processo di comprensione della lingua. Nel campo della ling computazionale i lessemi omonimi forano voci separate nei dizionari. Gli analisti linguisti devono risolvere l’omonimia automaticamente scegliendo l’opzione corretta tra quelle descritte nel dizionario. X una distinzione formale delle omonimie la loro descrizione nei dizionari convenzionali è divisa in diverse sottovoce. I nomi degli omonimi lessicali sono corredati da indici attaccati alle parole nella loro forma standard di dizionario. L’omonimia puramente lessicale è forse la più difficile da risolvere dato k sul piano lessicale morfologico dell’elaborazione del testo è impossibile determinare quale omonimo è vero in qst contesto. Nei casi di omonimia con i significati incrociati la relazione può essere esposta attraverso la scomposizione dei significati dei lessemi omonimi. I casi in cui i significati si intrecciano sono denominati in ling generale polisemia. Nella ling comp i casi di omonimia possiamo introdurre pseudo vocaboli ex real = real1 real Altro approccio i lessemi polisemici sono rappresentati come una superclasse k riflette la parte comune del loro significato e poi un numero di sottoclassi riflettono le differenze semantiche. Una complicanza seria per la linguistica computazionale è che nel linguaggio naturale vengono costantemente creati nuovi sensi di vecchie parole auto arricchimento I modi per l'arricchimento del linguaggio sono piuttosto numerosi, e i principali di essi sono i seguenti: -un vecchio lessema è usato in modo metaforico -Un vecchio lessema è usato in modo metonimica -un nuovo lessema viene prestato da una lingua straniera -le abbreviazioni comunemente usate diventano parole comuni Alcuni omonimi di una data lingua sono tradotti in altra lingua con lessemi non omonimi. In altri casi un gruppo di omonimi in una data lingua è tradotto in gruppo simile nell’ altra lingua. la sinonimia e l’omonimia sono proprietà importanti e inevitabili di ogni lingua naturale. Esse portano molti grossi problemi nella linguistica computazionale, specialmente l’omonimia.

CARATTERE MULTISTRATO DEL TRASFORMATORE MEANING TEXT

Nella trasformazione significato testo possiamo distinguere diversi stadi sequenziali: Livelli intermedi di rappresentazione delle info k vengono elaborate. 2 livelli intermedi comunemente accettati sono quello morfologico e sintattico. In alcuni approcci i livelli intermedi ulteriormente divisi in sotto trasformatori: livelo sintattico superficiale, profondo. Le conoscenze necessarie per ogni livello di trasformazione sono rappresentate nei dizionari e nelle grammatiche elettroniche. Un dizionario elettronico è una raccolta di informazioni su ogni parola, e così è la principale base di conoscenza di un sistema di elaborazione di un testo. Una grammatica elettronica è un insieme di regole basate su proprietà comuni dei grandi gruppi di parole. Poiché le informazioni memorizzate nei dizionari per ogni lessema sono specificate separatamente per ogni livello linguistico, gli sviluppatori del programma spesso distinguono un dizionario morfologico che specifica le informazioni morfologiche per ogni parola, un dizionario sintattico e un dizionario semantico. tutte le informazioni possono essere rappresentate in un dizionario, dando per ogni lessema tutti i dati necessari.

TRADUZIONE COME TRASFORMAZIONE MULTISTADIO

Per tradurre il testo con la più alta qualità possibile, sono necessarie le seguenti fasi di trasformazione:

F 0 B 7 La prima fase di analisi inizia dal testo nella lingua di partenza A e dà la sua rappresentazione morfologica specifica per la lingua A. F 0 B 7 La seconda fase di analisi inizia dalla rappresentazione morfologica e dà la rappresentazione sintattica specifica per la lingua A. F 0 B 7 La terza fase dell'analisi inizia dalla rappresentazione sintattica e dà un qualche livello di rappresentazione semantica. Il problema è che attualmente non è ancora possibile raggiungere la vera rappresentazione semantica, F 0 B 7 Lo stadio di trasferimento sostituisce le etichette , vale a dire i nomi convenzionali dei concetti nella lingua A, con le etichette corrispondenti della lingua B. Il risultato è il corrispondente livello quasi-semantico della rappresentazione in lingua B. F 0 B 7 La prima fase della sintesi inizia dalla rappresentazione quasi-semantica con alcune caratteristiche specifiche della lingua B e dà una rappresentazione sintattica abbastanza specifica per questa lingua. F 0 B 7 La seconda fase di sintesi inizia dalla rappresentazione sintattica e dà la rappresentazione morfologica specifica per la lingua B. F 0 B 7 La terza fase di sintesi inizia dalla rappresentazione morfologica e dà il testo di destinazione nella lingua B.

Nelle fasi iniziali, le trasformazioni scendono a livelli profondi della lingua e poi, nelle ultime fasi, tornano alla superficie, con il è risultato finale in formato di testo, ancora una volta. Più il livello raggiunto è profondo, più piccola è la differenza tra le rappresentazioni di questo livello in entrambe le lingue A e B. migliore qualità traduzione.

Questo schema funziona per lingue arbitrarie, se 2 lingue sono molto simili nella loro struttura le fasi + profonde della trasformazione potrebbero non essere necessarie.

LE DUE FACCIE DI UN SEGNO

Il segno si compone di significante e significato.

SEGNO LINGUISTICO

Indichiamo le unità usate nelle lingue naturali. Il linguaggio naturale può essere visto come un sistema di segni linguistici. Il suo significante è formato da simboli fonetici o lettere che isolati non hanno significato proprio.

IL SEGNO LINGUISTICO NELLA MTT

una terza componente di un segno: un registro sulla sua abilità o inabilità a combinarsi Con altri segni specifici. Questa componente aggiuntiva è detta sintassi del segno linguistico, aiuta a scegliere un segno corretto da un gruppo di segni sinonimi, da usare in un contesto specifico e a disambiguare i segni omonimi.

IL SEGNO LINGUISTICO NEL HPSG

Nella grammatica sintagmatica Head-driven, un segno linguistico, come al solito, è costituito da due componenti principali, un significante e un significato. Il significante è definito come una stringa di fonema. Per quanto riguarda il significato, è stato introdotto al suo scopo un oggetto di tipo speciale, il SYNSEM, una struttura (un albero etichettato-chiamato struttura caratteristica) con archi k rappresentano le caratteristiche dei vari livelli linguistici: morf. Sint. E sem. mescolati insieme. il SYNSEM copre la sintassi più la semantica.

MODELLI PSICOLINGUISTICI

La psicolinguistica è una scienza che indaga sull’attività del parlato degli esseri umani inclusa la percezione e la formazione di enunciati, attraverso metodi psicologici. Dopo aver creato le sue ipotesi e i suoi modelli, la psicolinguistica li testa attraverso esperimenti psicologici. Ex esperimenti stimoli risposta parole. La psicolinguistica cerca inoltre di descrivere l’insegnamento della lingua nativa e non nativa, dell’influenza sociale che ha un discorso sull’uomo, e così via. la psicolinguistica desidera spiegare alcuni aspetti puramente psicologici delle persone che riguardano il loro comportamento linguistico. la psicolinguistica generalmente non ha idee linguistiche proprie. Essa le adotta da varie branche della linguistica e poi le usa per i sui scopi senza controlli o commenti critici. Non sono ancora stati proposti metodi puramente psicologici che si adattino bene ai problemi della linguistica.

MODELLI FUNZIONALI DI LINGUA

In termini di cibernetica, il linguaggio naturale è considerato dai ricercatori come una scatola nera. Una scatola nera è un dispositivo con informazioni in entrata e in uscita osservabili, ma con una struttura interna completamente non osservabile. Nel quadro di questo tipo di modello, la lingua è pensata per essere un immaginario “apparecchio per parlare”: i ricercatori fanno all’apparecchio alcune domande e registrano le sue risposte. Nel modello cibernetico ci sono 2 di queste scatole, quella dell’analisi e quella della sintesi che lavorano in direzioni opposte; il blocco dell’analisi elabora gli enunciati mentre il blocco della sintesi produce le reazioni ad esse. Nella ling comp le ipotesi e i modelli costruiti su qst approccio possono essere testati attraverso altre applicazioni. i linguisti hanno proposto modelli funzionali di lingua, questi dovrebbero dare le regole di conversione dell’informazione linguistica in entrata all’informazione in uscita senza il tentativo di riprodurre direttamente i meccanismi interni dell’attività del cervello. i modelli funzionali si sono dimostrati i modelli linguistici migliori, probabilmente perché si basano su dati reali aventi una struttura possibile, facilmente accessibile e disponibile in quantità illimitata, vale a dire sui testi e su discorsi registrati.

MODELLI DI RICERCA LINGUISTICA I modelli di ricerca, In entrata, prendono testi in lingua naturale, talvolta già in anticipo preparati o strutturati in modo particolare. In uscita, producono altri testi, generalmente molto ben strutturati e che rappresentano i contenuti di dizionari, tavole grammaticali, regole o qualsiasi elemento simile che si possa usare come parte di modelli funzionali. Come esempio, possiamo estrarre dal testo di un dizionario quegli elementi di una data parte del discorso, che contengono una combinazione predeterminata di caratteristiche. Quindi, i modelli di ricerca sono strumenti atti a costruire modelli funzionali. Essi emulano i linguisti nelle loro ricerche, laddove i modelli funzionali emulano gli umani nella produzione e comprensione del discorso.

ASPETTI COMUNI DEI MODELLI LINGUISTICI MODERNI I mod linguistici moderni posseggono degli aspetti comuni importanti alla comprensione e all’utilizzo di essi,. 1 modello dato dal Approccio meaning text MTT / 2mod basato head driven / l’approccio chomksiano include altri modelli diversi dal HPSG. Aspetti comuni: -funzionalità del modello, i mod ling cercano di riprodurre le funzioni della lingua senza riprodurre direttamente gli aspetti dell’attività del cervello. -Opposizione della forma testuale/ fonetica della lingua alla sua rappresentazione semantica. -Carattere generico della lingua: la lingua è una generalizzazione teorica dell’insieme aperto ed infinito di enunciati

-Carattere dinamico del modello: un mod funzionale non solo propone un insieme di nozioni linguistiche ma mostra anche come queste vengono usate nell’elaborazione di enunciati -Carattere formale del modello: un mod funzionale è un insieme di regole abbastanza rigide da applicarsi a qualsiasi testo da una persona o automa in maniera automatica producendo sempre lo stesso risultato. Ogni parte di un modello funzionale può essere espresso sotto forma di algoritmo. -Carattere non generativo del modello: l’informazione non nasce all’interno del modello, essa acquisisce la forma corrispondente a livello linguistico, possiamo definire le corrispondenze tra vari livelli corrispondenze equative. Le trasfo di chomsky non sono corrispondenze equiative. -Indipendenza del modello dalla direzione della trasformazione, La descrizione di una lingua è indipendente dalla direzione dell’elaborazione linguistica. Se la elaborazione è soggetta a delle regole, queste regole devono essere date in forma equativa (cioè devono preservarne il significato) e bidirezionale, altrimenti devono permettere l’operazione inversa. -Indipendenza degli algoritmi dai dati. Nei casi in cui la conoscenza linguistica è in forma dichiarativa gli algoritmi k si applicano hanno dimostrato di essere universali ovvero applicabili a diverse lingue. -Enfasi sui dizionari dettagliati: contenenti descrizioni di parole separate sono considerati la parte principale della descrizione rigida della lingua.

CARATTERISTICHE SPECIALI DEL MODELLO MEANING TEXT

Il modello Meaning F 0D BText è stato scelto per uno studio più dettagliato in questi libri, ed è ora

necessario fare una breve sintesi delle sue caratteristiche specifiche.

F 0 B 7 Orientamento alla sintesi. la sintesi è considerata primaria e più importante per la linguistica rispetto all’analisi. La sintesi utilizza tutta la conoscenza linguistica sul testo da produrre, l’analisi usa entrambe le conoscenze puramente linguistiche ed extralinguistiche, sia l’informazione enciclopedica sul mondo sia l’informazione circa la situazione attuale Ecco perché l'analisi è talvolta possibile sulla base di una conoscenza linguistica parziale. F 0 B 7 Carattere a più livelli del modello. Il modello introduce chiaramente un maggior numero di livelli nella lingua: uno testuale, due morfologici (in superficie e in profondità), due sintattici (in superficie e in profondità), e uno semantico. F 0 B 7 Caratteristica rafforzata di protezione dell’informazione. Le regole di corrispondenza tra i dati di ingresso e di uscita dei moduli all'interno della MTT conservano pienamente un’equivalenza delle informazioni a tutti i livelli linguistici. F 0 B 7 Varietà di strutture e formalismi. Ogni modulo ha le sue regole e formalismi nell’MTT, a causa della notevole varietà di strutture che riflettono i dati a diversi livelli (stringhe, alberi e reti corrispondenti). Ad ogni livello, l’MTT considera solo un possibile set minimo di funzioni descrittive. Al contrario, la tradizione grammatica generativa cerca di trovare un formalismo comune che copra l'intero linguaggio, in modo che la molteplicità totale delle caratteristiche dei vari livelli siano considerati nel loro insieme, senza divisione esplicita a vari livelli. * F 0 B 7 Particolarità della sintassi superficiale e profonda. Le entità e le caratteristiche sintattiche di questi due livelli sono nettamente differenti nell’MTT.

F 0 B 7 Indipendenza tra la gerarchia sintattica delle parole e il loro ordine in una frase. i 2 aspetti della frase, gli alberi di dipendenza e l'ordine delle parole, dovrebbero essere spinti da diversi fattori, anche se reciprocamente collegati. F 0 B 7 Orientamento verso lingue di tipo diverso dall’inglese. Le grammatiche di dipendenza sono particolarmente appropriate per le lingue con ordine libero delle parole come il latino, il russo o lo spagnolo, mentre le grammatiche dei costituenti si confanno meglio alle lingue con un ordine delle parole rigido come l'inglese. F 0 B 7 Strumenti di funzioni lessicali e variazioni sinonimiche. Limitazioni nella combinabilità delle parole. Tali limitazioni nella combinabilità formano il calcolo delle funzioni lessicali all'interno del

reale necessità degli informatici di avere un generico (completo) modello di linguaggio. in linguistica computazionale il criterio di verità è la prossimità dei risultati nel funzionamento di un programma di elaborazione di un enunciato linguistico con la resa di un parlante medio. Dato che la procedura di elaborazione dovrebbe dividersi in diversi stadi, un modello completo si rende necessario raccomandare quali funzioni e strutture devono essere assegnate agli enunciati e alla lingua nel suo insieme ad ogni livello, e come queste funzioni dovrebbero interagire e partecipare ad ogni stadio delle trasformazioni linguistiche all’interno del computer. nella linguistica computazionale, la sperimentazione informatica è importantissima ed è direttamente influenzata da quelle strutture scelte per la descrizione linguistica. Inoltre, l’apparente problema filosofico del modello linguistico si è rivelato basilare per la linguistica computazionale.

l’ANALOGia Nelle LiNGUE NATURALi

L’analogia è la prevalenza di uno schema (cioè, una regola o alcune regole) nella descrizione formale di alcuni fenomeni linguistici. Nel caso più semplice, lo schema può presentarsi come una tabella incompleta

revolución rivoluzione investigación? Un esempio di analogia nella fonologia spagnola è la presenza della e prima dei nessi consonantici sp, st , sn , o sf ad inizio di parola. In latino, i nessi sp - e st in posizione iniziale erano abbastanza frequenti: specialis, spectaculum, spiritus, statua, statura, ecc. Quando lo spagnolo ebbe origine dal Latino Volgare, tutte queste parole vennero considerate difficili da pronunciare e venne aggiunta una e -: especial, espectáculo, espíritu, estatua, estatura, ecc. Perciò venne a crearsi una legge di “ispanizzazione per analogia”, secondo la quale tutte le parole con una tale peculiarità fonetica, quando fossero state prese in prestito da altre lingue straniere, avrebbero acquisito la e come lettera iniziale.

. Lo sviluppo dello spagnolo nei secoli passati ha prodotto un gran numero di parole in – ción , derivate per analogia, La linguistica computazionale usa direttamente le leggi dell’analogia nell’elaborare parole sconosciute. Ogni dizionario online è limitato nelle sue dimensioni, cosicché molte parole già note alla lingua, sono assenti (diciamo anche perché queste parole appaiono nella lingua dopo che il dizionario è stato redatto). Per “capire” queste parole in un certo senso, il programma può presupporre le proprietà più comuni e frequenti.

APPROCci EMPIRICi e approcci RAzIONALISTi L’approccio empirico si basa su numerose osservazioni statistiche dedotte in modo essenzialmente automatico. approccio statistico. si oppone all’approccio razionalista , che richiede la costruzione di un modello linguistico funzionale sulla base di testi e dell’intuizione dello studioso. Una caratteristica comune nei metodi razionalisti ed empirici è che entrambi presuppongono che una lingua naturale sia conoscibile e possa essere soggetta ad algoritmo. Linguisti e filosofi suggeriscono talvolta il punto di vista opposto. Essi sostengono che, visto che gli esseri umani generalmente ragionano senza alcuna limitazione logica, la loro attività linguistica può essere carente di basi logiche e algoritmiche.

portata LIMITata dEllE MODERNe teorie LINGUISTIChE le teorie linguistiche più avanzate non abbracciano tutti i problemi computazionali, Infatti, è evidente che queste hanno le seguenti carenze:

F 0 B 7Queste teorie elaborano ad un livello più profondo solo i problemi di morfologia e di sintassi, mentre la semantica viene analizza ad un grado notevolmente inferiore.

F 0 B 7 La semantica moderna non può ancora formalizzare i problemi di pragmatica ad un grado sufficiente alla messa in pratica. non esiste nessuna teoria sui legami tra il significato del testo e gli obiettivi di questo testo in una situazione pratica, così come tra le intenzioni del parlante e la percezione dell’ascoltatore. Sono necessarie conoscenza extralinguistica di tipo enciclopedico. Ancora oggi, la linguistica computazionale e l’intelligenza artificiale non sanno effettivamente distinguere, smontare e poi combinare insieme le conoscenze di tipo linguistico e di tipo chiaramente enciclopedico.

F 0 B 7I risultati delle recenti indagini riguardano maggiormente le frasi distinte, ma non i discorsi. F 0 B 7 E’ ben noto in linguistica teorica, che il gruppo di forme di parola che comprende una frase, è scelto in base all’argomento principale di questa frase, mentre l’ordine delle parole dipende sia da questo insieme di forme di parola (cioè una preposizione dovrebbe precedere il sostantivo a cui si lega) e sia dalla struttura comunicativa di un testo. Nelle grammatiche generative, le variazioni dell’ordine delle parole che dipendono dalla struttura comunicativa dei testi, non erano state affatto notate per lungo tempo. L’MTT e la linguistica generale ora offrono nell’insieme un elaborato studio informale circa questi problemi. Nonostante tutti i progressi teorici, la formalizzazione globale delle strutture comunicative non è ancora stata raggiunta. Finora, questi progressi non possono essere utilizzati né per la sintesi né per l’analisi di un testo.

F 0 B 7 Il problema di come le persone imparino il linguaggio naturale durante l’infanzia resta ancora irrisolto. Si presume che i neonati abbiano la Grammatica Universale già nel loro cervello, e che l’adattamento ad una lingua in particolare venga raggiunta durante l’infanzia.

CONCLUSIONi

Un modello linguistico è un sistema di dati (caratteristiche, tipi, strutture, livelli, ecc.) e regole, che, prese tutte insieme, possono presentare un “comportamento” simile a quello del cervello umano nella comprensione e nella produzione di discorsi e di testi. Un modello linguistico funzionale tiene conto del comportamento linguistico osservato negli esseri umani, piuttosto che l’attività fisiologica del cervello. Questo comportamento si riflette nei testi o nel discorso da essi prodotto in risposta ai testi o discorsi che essi percepiscono. Finora, i modelli presi direttamente dalle strutture cerebrali hanno sempre fallito, in passato furono anche proposti diversi modelli funzionali per il bene della linguistica computazionale. I modelli funzionali moderni hanno molte caratteristiche in comune. Essi sono destinati ad essere alquanto formali, hanno un carattere dinamico e non generativo, forniscono un’indipendenza degli algoritmi linguistici dai dati linguistici, e considerano i dizionari uno degli aspetti più inalienabili del modello. Gli approcci teorici forniscono una base solida per modelli sia olistici sia ridotti di linguaggio orientati all’applicazione. Il grado di riduzione di tale modello dipende fortemente dalla specifica messa in pratica.