Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Computational Linguistics (parte2) (1), Traduzioni di Linguistica

traduzione delle dispense di linguistica computazionale

Tipologia: Traduzioni

2013/2014

Caricato il 11/11/2014

marikuccia2
marikuccia2 🇮🇹

4.7

(3)

6 documenti

1 / 17

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
III. i prodotti della linguistica computazionale: il PRESENTe e il futuro
quali sono gli scopi per cui abbiamo bisogno di sviluppare la linguistica computazionale? Quali
risultati pratici fornisce alla società? Prima di cominciare a discutere i metodi e le tecniche della
linguistica computazionale, vale la pena esaminare alcuni risultati pratici, cioè, le applicazioni, o i
prodotti di questa disciplina. Noi consideriamo tali applicazioni in un senso molto ampio, incluse, in
questa categoria, tutte le sfide note sull’elaborazione della parola, così come quelle sulla creazione
di un testo, il dialogo in una lingua naturale, e la comprensione linguistica.
Alcune di queste applicazioni già forniscono all’utente soluzioni soddisfacenti ai loro compiti,
specialmente riguardo l’inglese, mentre ci sono state continue ricerche in merito agli obiettivi e alle
lingue negli ultimi decenni.
Sicuramente, alcune estrapolazioni delle tendenze attuali potrebbero fornire tipi di sistemi
completamente nuovi e nuove soluzioni ai problemi attuali, ma questo è al di fuori del fine di questo
libro.
CLASSIFICAzIONe dei sistemi linguistici APPLIcaTI
I sistemi linguistici applicati sono oggi largamente usati negli affari e in ambiti scientifici per diversi
scopi. Tra quelli più importanti ci sono i seguenti:
F 0 B 7 Preparazione del testo, o correzione del testo, in senso generale, con riferimento in particolare
agli obiettivi elencati di seguito:
Sillabazione automatica delle parole nei testi in lingua naturale,
Controllo ortografico, cioè individuazione e correzione di errori di ortografia e di battitura,
Controllo grammaticale, cioè individuazione e correzione di errori grammaticali,
Controllo stilistico, cioè individuazione e correzione di errori stilistici,
Riferimenti a parole specifiche, combinazioni di parole e collegamenti semantici tra loro;
F 0 B 7 Recupero dell’informazione in database documentali scientifici, tecnici, commerciali;
F 0 B 7 Traduzione automatica da una lingua naturale ad un’altra;
F 0 B 7 Il linguaggio naturale si interfaccia con un database e altri sistemi;
F 0 B 7 Estrazione di dati effettivi da testi commerciali o scientifici;
F 0 B 7 Creazione di un testo da foto e specifiche formali;
F 0 B 7 Comprensione della lingua naturale;
F 0 B 7 Riconoscimento ottico del carattere, riconoscimento vocale, eccetera.
Ai fini di una maggiore comprensione del libro, illustreremo per grandi linee ogni applicazione. Più
avanti, alcuni di questi argomenti, con spiegazioni più approfondite, saranno toccati ancora una
volta.
sillabazione AUTOMATICA
La sillabazione è intesa come la corretta divisione delle parole di un testo in lingua naturale.
Quando una parola che compare alla fine di un rigo è troppo lunga perché entri in quel rigo entro i
giusti margini, una parte di essa si sposta sul rigo successivo. La parola va dunque a capo, cioè si
scinde e si trasferisce in parte al rigo seguente.
La scansione in sillabe può essere fatta solo in punti specifici della parola, che generalmente, ma
non sempre, rappresentano i limiti della sillaba. Per esempio, in spagnolo si può dividere re-ci-bo,
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Computational Linguistics (parte2) (1) e più Traduzioni in PDF di Linguistica solo su Docsity!

III. i prodotti della linguistica computazionale: il PRESENTe e il futuro

quali sono gli scopi per cui abbiamo bisogno di sviluppare la linguistica computazionale? Quali risultati pratici fornisce alla società? Prima di cominciare a discutere i metodi e le tecniche della linguistica computazionale, vale la pena esaminare alcuni risultati pratici, cioè, le applicazioni, o i prodotti di questa disciplina. Noi consideriamo tali applicazioni in un senso molto ampio, incluse, in questa categoria, tutte le sfide note sull’elaborazione della parola, così come quelle sulla creazione di un testo, il dialogo in una lingua naturale, e la comprensione linguistica. Alcune di queste applicazioni già forniscono all’utente soluzioni soddisfacenti ai loro compiti, specialmente riguardo l’inglese, mentre ci sono state continue ricerche in merito agli obiettivi e alle lingue negli ultimi decenni. Sicuramente, alcune estrapolazioni delle tendenze attuali potrebbero fornire tipi di sistemi completamente nuovi e nuove soluzioni ai problemi attuali, ma questo è al di fuori del fine di questo libro.

CLASSIFICAzIONe dei sistemi linguistici APPLIcaTI

I sistemi linguistici applicati sono oggi largamente usati negli affari e in ambiti scientifici per diversi scopi. Tra quelli più importanti ci sono i seguenti:

F 0 B 7 Preparazione del testo , o correzione del testo, in senso generale, con riferimento in particolare agli obiettivi elencati di seguito:

  • Sillabazione automatica delle parole nei testi in lingua naturale,
  • Controllo ortografico , cioè individuazione e correzione di errori di ortografia e di battitura,
  • Controllo grammaticale , cioè individuazione e correzione di errori grammaticali,
  • Controllo stilistico , cioè individuazione e correzione di errori stilistici,
  • Riferimenti a parole specifiche , combinazioni di parole e collegamenti semantici tra loro;

F 0 B 7 Recupero dell’informazione in database documentali scientifici, tecnici, commerciali; F 0 B 7 Traduzione automatica da una lingua naturale ad un’altra; F 0 B 7 Il linguaggio naturale si interfaccia con un database e altri sistemi; F 0 B 7 Estrazione di dati effettivi da testi commerciali o scientifici; F 0 B 7 Creazione di un testo da foto e specifiche formali; F 0 B 7 Comprensione della lingua naturale ; F 0 B 7 Riconoscimento ottico del carattere, riconoscimento vocale, eccetera.

Ai fini di una maggiore comprensione del libro, illustreremo per grandi linee ogni applicazione. Più avanti, alcuni di questi argomenti, con spiegazioni più approfondite, saranno toccati ancora una volta.

sillabazione AUTOMATICA

La sillabazione è intesa come la corretta divisione delle parole di un testo in lingua naturale. Quando una parola che compare alla fine di un rigo è troppo lunga perché entri in quel rigo entro i giusti margini, una parte di essa si sposta sul rigo successivo. La parola va dunque a capo, cioè si scinde e si trasferisce in parte al rigo seguente. La scansione in sillabe può essere fatta solo in punti specifici della parola, che generalmente, ma non sempre, rappresentano i limiti della sillaba. Per esempio, in spagnolo si può dividere re-ci-bo,

re-u-nir-se, dia-blo, ca-rre-te-ra, mu-cha-chas , ma non nelle seguenti posizioni: * recib - o, * di - ablo, * car - retera, * muc - hac - has. In tal modo, la sillabazione migliora l’apparenza esteriore dei testi informatici, regolando i loro margini corretti. Si risparmia carta e allo stesso tempo si mantiene l’impressione di una lettura scorrevole, proprio come senza alcuna sillabazione. La maggior parte dei ben noti editor di testo oggi vengono forniti con strumenti di sillabazione. Per esempio, Microsoft Word ha nel suo menù la voce Sillabazione. [2] Generalmente, l’informazione linguistica presa in questo tipo di programma è piuttosto limitata. Dovrebbe essere noto quali lettere sono vocali ( a, e, i, o, u in spagnolo) o consonanti ( b, c, d, f, g, ecc.), e quali combinazioni di lettere sono inseparabili (come i nessi consonantici ll , rr , ch o i dittonghi io, ue, ai in spagnolo). Tuttavia, una sillabazione di ottima qualità potrebbe richiedere informazioni più dettagliate su ogni parola. La sillabazione può dipendere dalla cosiddetta struttura morfemica della parola, per esempio: sub-ur-ba-no , ma su-bir , oppure perfino sull’etimologia della parola, per esempio: Pe- llicer , ma Shil-ler. Solo un programma basato sul dizionario può prendere in esame tutte queste considerazioni. Per l’inglese, i programmi basati solo sul dizionario danno davvero ottimi risultati, mentre per lo spagnolo sono in genere sufficienti programmi piuttosto semplici, se si eccettuano parole straniere potenzialmente soggette ad errore, come Shiller.

controllo dell’ortografia

L’obiettivo del controllo dell’ortografia è quello di rilevare e correggere gli errori di ortografia e di battitura in un testo, a livello di occorrenza della parola, considerata fuori dal suo contesto. Nessuno scrive senza fare errori. Anche coloro che conoscono benissimo le regole linguistiche potrebbero, anche solo accidentalmente, premere un pulsante sbagliato della tastiera (magari quello vicino a quello giusto) oppure mancare una lettera. Inoltre, quando si digita, a volte capita di non sincronizzare bene i movimenti delle mani e delle dita. Tutti questi errori sono detti refusi , o errori di battitura. D’altra parte, alcune persone non conoscono bene il modo corretto di scrivere alcune parole, specie in una lingua straniera. Tali errori sono detti errori ortografici. Primo, un correttore ortografico identifica solo quelle stringhe che non rappresentano parole corrette in una data lingua naturale. Crediamo che molti degli errori ortografici o di battitura conducano a stringhe impossibili come parole separate, in questa lingua. Individuare gli errori che trasformano accidentalmente una parola in un’altra parola esistente, come l’inglese then >?^ than o lo spagnolo cazar >?^ casar , presuppone un impiego che richiede strumenti molto più efficaci. Dopo che tali stringhe impossibili sono state individuate e messe in evidenza dal programma, l’utente può correggere questa stringa nel modo che preferisce, manualmente o con l’aiuto del programma. Per esempio, se proviamo a inserire in un qualsiasi testo inglese le stringhe [3]

  • groop , * greit , o * misanderstand , il correttore individuerà l’errore e si fermerà a questa stringa, evidenziandola all’utente. Analoghi esempi in spagnolo sono * caió , * systema , * nesecitar. Le funzioni di un correttore ortografico possono essere più versatili. Il programma può anche proporre un gruppo di parole esistenti, che siano abbastanza simili (in un certo senso) alla data parola “corrotta”, cosicché l’utente può scegliere la versione corretta della parola, senza digitarla di nuovo nel rigo. Negli esempi precedenti, il correttore di Microsoft Word da come possibili candidati a rimpiazzare la stringa caió le parole spagnole esistenti mostrate nella Figura III.1. In molti casi, specialmente per lunghe stringhe, un correttore offre solo uno o due esiti possibili (o anche nessuno). Per esempio, per la stringa * systema esso ci da solo la parola spagnola corretta sistema. I programmi che compiono operazioni di entrambi i tipi sono detti correttori grammaticali, mentre in inglese sono generalmente chiamati correttori ortografici. Nella pratica di tutti i giorni, i correttori

Altri tipi di errori grammaticali comprendono l’uso scorretto delle preposizioni, come in sintagmi come * debajo la puerta , o *¡basta con verla! , o *casarse a María. Alcuni tipi di errori sintattici possono essere non così evidenti perfino per un madrelingua. E’ stato chiaro già molti anni fa che solo una completa analisi sintattica di un testo può fornire una soluzione accettabile a tal proposito. Vista la difficoltà di una tale analisi, i correttori grammaticali commerciali sono ancora abbastanza primitivi e raramente danno all’utente un’assistenza utile nella preparazione di un testo. Il Windows Sources , uno dei più noti giornali di informatica, ha fatto notare, nel Maggio 1995, che il correttore grammaticale Grammatik nell’editor di testo WordPerfect, all’epoca forse il miglior correttore grammaticale del mondo, era così imperfetto e confusionario, che fu scritto “nessuno ha bisogno di un programma che sbagli più volte di quante volte è corretto.” Negli ultimi anni, sono stati fatti sostanziali aggiornamenti ai correttori grammaticali. Per esempio, il correttore grammaticale di Microsoft Word è utile ma ancora molto lontano dall’essere perfetto. A volte, operazioni abbastanza semplici possono dare utili risultati individuando alcuni errori più frequenti. Sono menzionati di seguito le due classi di errori tipici della lingua spagnola:

F 0 B 7 Assenza di accordo tra un articolo e il sostantivo che lo segue, in numero e genere, come in

  • la gatos. Tali errori sono facilmente individuabili all’interno di un contesto molto stretto, cioè di due parole adiacenti. Per questo scopo, è necessario fare ricorso alle categorie grammaticali per le parole spagnole.

F 0 B 7 L’omissione di accenti scritti in sostantivi come * articulo, * genero, * termino. Tali errori non possono essere individuati da un correttore ortografico qualunque, prendendo le parole fuori dal loro contesto, visto che questi convertono una parola esistente in un’altra esistente, vale a dire in una forma personale di un verbo. E’ abbastanza facile definire alcune proprietà dei contesti immediati per sostantivi che non occorrono mai con i verbi corrispondenti, cioè la presenza di articoli, aggettivi, o pronomi accordati [38].

Possiamo vedere, tuttavia, che tali tecniche semplicistiche falliscono in troppi casi. Per esempio, in combinazioni come * las pruebas de evaluación numerosos, il disaccordo tra pruebas e numerosos non può essere individuato solo considerando il contesto più vicino. Ciò che è peggio è che un programma basato su tale approccio semplicistico darebbe troppo frequentemente falsi allarmi dove di fatto non c’è alcun errore. Per esempio, nella corretta combinazione las pruebas de evaluación numerosas , tale programma semplicistico evidenzierebbe un disaccordo nel numero tra i lemmi evaluación e numerosas. In ogni caso, visto che l’autore del testo è l’unica persona che conosca definitivamente cosa abbia voluto scrivere, la decisione finale deve essere sempre lasciata all’utente, se correggere come suggerito dal correttore grammaticale, oppure lasciare il testo così come era.

Correttori di stile

Gli errori di stile sono quelli che in una lingua contravvengono alle leggi sull’uso di parole corrette e di combinazioni di parole, in generale o in un dato genere letterario. Questa applicazione è la più vicina nei suoi obiettivi alle grammatiche normative ed ai manuali di stilistica in forma stampata, pensati per gli esseri umani. Quindi, i correttori di stile giocano un ruolo didattico e prescrittivo per gli autori di testi. Per esempio, non è consigliato l’uso di parole volgari o costrutti puramente colloquiali in documenti ufficiali. Circa le proprietà più formali dei testi spagnoli, le loro frasi normalmente non dovrebbero contenere dieci preposizioni de , e non dovrebbero essere più lunghe di una ventina di righi. Per rispettare il lessico spagnolo, non è raccomandabile usare le parole inglesi parking and lobby in luogo di estacionamiento e vestíbulo , o usare l’americanismo salvar col significato di ‘salvare in memoria’ invece di guardar.

Nella frase spagnola La recolección de datos en tiempo real es realizada mediante un servidor , le parole in grassetto contengono due anomalie stilistiche: se realiza va generalmente meglio di es realizada, e una tale vicinanza di parole con la stessa radice, come real e realizada , è indesiderata. Nella frase spagnola La grabación , reproducción y simulación de datos son funciones en todos los sistemas de manipulación de información , la frequenza di parole con il suffisso - ción supera i limiti di un buono stile. Il correttore di stile dovrebbe usare un dizionario di parole corredato di segni che ne indichino l’uso, sinonimi, informazioni sul corretto uso delle preposizioni, compatibilità con altre parole, ecc. Dovrebbe inoltre usare un’analisi automatica, che possa individuare costrutti sintattici impropri. Esistono correttori di stile per l’inglese e altre lingue principali, ma principalmente nelle versioni sperimentali. Mentre i correttori di stile commerciali sono generalmente alquanto primitivi nelle loro funzioni. Come modo primitivo di valutare le proprietà stilistiche di un testo, alcuni correttori di stile commerciali calcolano la lunghezza media delle parole nel testo, cioè il numero di lettere contenuto in esso; la lunghezza delle frasi, cioè il numero di parole al loro interno; la lunghezza dei paragrafi, cioè il numero di parole e frasi. Esse possono inoltre usare altre caratteristiche statistiche che possono essere facilmente calcolate come combinazione di quelle menzionate. Più è grande in media la lunghezza di una parola, frase o paragrafo, più è difficile da leggere il testo, secondo delle semplicissime valutazioni stilistiche. E’ facile anche contare l’occorrenza delle preposizioni de o dei sostantivi che terminano in - ción nelle frasi spagnole. Tali correttori di stile possono solo dire all’utente che il testo è troppo complesso per il genere scelto, ma generalmente non può dare nessun suggerimento specifico su come migliorare il testo. La stima di proprietà stilistiche più profonde e più interessanti, legate ai costrutti lessicali e sintattici, è ancora considerata una sfida per il futuro.

RiFERimeNti alle parole e alle loro COMBINAzIONi

I riferimenti di ogni specifica parola danno accesso al gruppo di parole semanticamente correlate alla precedente, oppure alle parole che possono formare combinazioni con la precedente in un testo. Questa applicazione è molto importante. Oggigiorno viene eseguita con strumenti linguistici di due tipi diversi: dizionari on-line autonomi e dizionari dei sinonimi costruiti ad hoc. All’interno dei tipici elaboratori di testo, i dizionari dei sinonimi sono generalmente chiamati thesaurus. Più avanti vedremo che questo nome corrisponde molto poco ai dizionari dei sinonimi, visto che i veri thesaurus generalmente contengono molta più informazione, per esempio, riferimenti a termini generici, cioè nomi di superclassi, e a parole specifiche, cioè nomi di sotto- classi. I riferimenti alle varie parole o combinazioni di parole di una data lingua naturale hanno l’obiettivo di aiutare l’autore di un testo a creare testi più corretti, flessibili, e idiomatici. Infatti, solo una parte insignificante di tutte le combinazioni di parole immaginabili sono davvero permesse in una lingua, cosicché la conoscenza delle combinazioni ammesse e comuni è una parte molto importante della competenza linguistica di ogni autore. Per esempio, uno straniero potrebbe voler conoscere tutti i verbi comunemente usati con il sostantivo spagnolo ayuda , come prestar o pedir , o con il sostantivo atención , come dedicar o prestar , così da evitare combinazioni come pagar atención , che è una traduzione alla lettera della combinazione inglese to pay attention (fare attenzione). Sono necessari speciali dizionari che dipendono, per tale scopo, dalla lingua (vedi, per esempio, Figura III.2).

REcupero delle INFORMAzIONi

I sistemi di recupero di informazioni (IRS) sono concepiti per cercare informazioni rilevanti in ampi database documentali. Questa informazione può essere di vari tipi, con query (richieste al computer) che vanno da “Trovare tutti i documenti contenenti la parola conjugar ” a “Trovare informazioni sulla coniugazione dei verbi spagnoli”. Di conseguenza, i vari sistemi utilizzano diversi metodi di ricerca. I primi IRS sono stati sviluppati per la ricerca di articoli scientifici su un argomento specifico. Di solito, gli scienziati forniscono i loro documenti di una serie di parole chiave, vale a dire, i termini che ritengono più importanti e rilevanti per il tema del documento stesso. Per esempio, español, verbos, subjuntivo possono essere un set di parole chiave dell’articolo “Sui mezzi per esprimere condizioni irreali” in un giornale scientifico spagnolo. Questa serie di parole chiave è acclusa al documento nel database bibliografico dell’IRS, e viene tenuta insieme ai documenti corrispondenti, oppure separatamente da essi. Nel caso più semplice, il query contiene chiaramente una o più di queste parole chiave come la condizione in base alla quale l’articolo può essere trovato e recuperato dal database. Ecco un esempio di query: “Trovare i documenti su verbos e español ”. In un Sistema più elaborato, un query può essere una più lunga espressione logica con gli operatori e , o , non , cioè: “Trovare i documenti su ( sustantivos o adjetivos ) e ( non inglés )”. Oggigiorno, sta diventando molto popolare negli IRS per utenti non professionisti un approccio semplice ma efficace del formato del query: il query è ancora un set di parole; il sistema cerca prima di trovare i documenti che contengano tutte queste parole, poi tutte tranne una, eccetera, e finalmente quelle che contengono solo una delle parole. Quindi, il set di parole chiave è considerato in una transizione passo dopo passo, dalla congiunzione alla disgiunzione delle loro occorrenze. I risultati sono ordinati in base alla rilevanza , che si può misurare dal numero di parole chiave rilevanti che si trovano nel documento. I documenti che contengono più parole chiave sono presentati per primi all’utente. In alcuni sistemi l’utente può impostare manualmente una soglia per il numero di parole chiave presenti nei documenti, cioè cercare le parole chiave “almeno m di n ”. Con m = n, si recuperano spesso troppo pochi documenti, se non nessuno, e molti documenti importanti non vengono trovati; con m = 1, se ne recuperano troppi non collegati, a causa di un gran numero di falsi allarmi. In genere, recupero e precisione sono considerate le principali caratteristiche degli IRS. Il recupero è il rapporto tra il numero dei documenti importanti trovati diviso per il numero totale di documenti importanti nel database. La precisione è il rapporto del numero di documenti rilevanti diviso il numero totale di documenti trovati. E’ facile vedere che queste caratteristiche sono contraddittorie nel caso generale, cioè il più grande dell’uno è più piccolo dell’altro, cosicché è necessario mantenere un giusto equilibrio tra loro. In un IRS specializzato, generalmente esiste un sotto-sistema automatico di indicizzazione, che entra in funzione prima che le ricerche vengano eseguite. Dato un set di parole chiave, esso aggiunge, usando l’operatore oppure , altre parole chiave collegate, basate su un sistema gerarchico di termini scientifici, tecnici o commerciali. Questo tipo di sistemi gerarchici viene generalmente chiamato thesaurus nella letteratura sugli IRS e può essere parte integrante dell’IRS. Ad esempio, dato il query “Trovare documenti su conjugación ,” tale sistema può aggiungere la parola morfología ad entrambi i query e il set di parole chiave nell’esempio sopra citato, e quindi in questo modo trovare l’articolo. Quindi, un IRS sufficientemente evoluto per prima cosa aumenta i set di parole chiave date nei query, e poi confronta questo set con i set di parole chiave allegati ad ogni documento del database. Tale confronto si attua in base ad ogni criterio citato qui sopra. Dopo questo aumento, la media di recupero del sistema IRS generalmente cresce.

Recentemente, sono stati creati dei sistemi capaci di costruire automaticamente set di parole chiave solo fornendo il testo integrale del documento. Tali sistemi non richiedono che gli autori dei documenti forniscano specificatamente le parole chiave. Alcuni dei moderni motori di ricerca di Internet si basano essenzialmente su questa idea. Tre decenni fa, il problema dell’estrazione automatica di parole chiave venne chiamata astrazione automatica. Il problema non è semplice, anche quando viene risolto attraverso metodi puramente statistici. Infatti, le parole più frequenti in ogni testo economico, scientifico o tecnico sono puramente accessorie, come preposizioni o verbi ausiliari. Essi non riflettono l’essenza del testo e generalmente non sono presi a priori. Tuttavia, il confine tra parole supplementari e parole cariche di significato non è definibile nettamente. Inoltre, esistono molte parole formatesi da altre parole, come sistema, dispositivo, eccetera, che possono essere usate raramente per il recupero delle informazioni in quanto il loro significato è troppo generico. Per cui esse non sembrano essere comunque utili. La molteplicità degli IRS è ora considerata come una classe importante del software applicato e, in special modo, dei sistemi linguistici applicati. Non è più il tempo in cui si usavano come parole chiave solo quelle individuali. Oggi gli studiosi cercano di non usare combinazioni di parole come sintagmi, così come strategie di ricerca più complicate. I fattori limitanti alle tecniche più sofisticate si sono rivelati identici a quelli dei correttori grammaticali e di stile: l’assenza di una completa analisi grammaticale e semantica dei testi dei documenti. I metodi usati adesso, anche con i più sofisticati motori di ricerca di Internet non sono efficienti per un accurato recupero delle informazioni. Questo porta ad un livello alto di rumore di informazione , cioè alla produzione di documenti irrilevanti, così come alla frequente perdita di quelli rilevanti. I risultati delle operazioni di recupero dipendono direttamente dalla qualità e funzionamento dei sotto-sistemi di indicizzazione e comparazione, dal contenuto del sistema terminologico o del thesaurus, e da altri dati e conoscenze usate dal sistema. Ovviamente, gli strumenti principali e i gruppi di dati utilizzati da un IRS sono di natura linguistica.

Riassunto dell’argomento

In molti casi, è necessario determinare automaticamente di cosa tratta un dato argomento. Questa informazione si usa per classificare i documenti in base ai loro argomenti principali, per fornire attraverso Internet i documenti su uno specifico soggetto agli utenti, per indicizzare automaticamente i documenti in un IRS, per orientare rapidamente le persone in ampio gruppo di documenti, e per altri scopi. Tale obiettivo può essere visto come un tipo particolare di riassunto: per trasmettere i contenuti del documento in una forma più breve. Mentre nel riassunto “normale” fatto dai contenuti vengono prese in considerazione le idee principali del documento, qui consideriamo solo gli argomenti trattati nel documento, da qui il termine riassunto dell’argomento.

Un altro sistema, TextAnalyst F 0 D 4, che determina i temi principali del documento e le relazioni tra le parole nel documento fu sviluppato da MicroSystems, in Russia (vedi Figura III.4). Questo sistema non si basa sul dizionario, pur avendo un piccolo dizionario di stop-word (queste sono preposizioni, articoli, ecc., e non dovrebbero essere elaborate come parole cariche di significato). Questo sistema rivela le relazioni tra le parole. Le parole sono intese come correlate le une alle altre se occorrono insieme abbastanza vicine nel testo, cioè nella stessa frase. Il programma costruisce una rete di relazioni tra parole. La figura III.4 mostra le parole più importanti trovate da TextAnalyst nelle prime bozze di questo libro, e la rete delle loro relazioni. Per quanto riguarda Clasitex, il grado di importanza di una parola, o il suo peso è determinato in base alla sua frequenza, e le relazioni tra parole sono usate per aumentare vicendevolmente i loro pesi. Anche le parole strettamente correlate a molte delle parole importanti del testo hanno un certo rilievo.

FIGURa III.4. Il programma TextAnalyst rivela le relazioni tra parole.

In TextAnalyst, la lista delle parole importanti è usata per i seguenti obiettivi:

F 0 B 7 Compressione del testo attraverso l’eliminazione di frasi o paragrafi che contengono il numero minimo delle parole importanti, finché la dimensione del testo raggiunge la soglia selezionata dall'utente,

F 0 B 7 Creare un ipertesto costruendo relazioni reciproche tra le parole più importanti e tra le parole importanti e le altre a cui sono presumibilmente legate.

La tecnologia TextAnalyst si basa su uno speciale tipo di algoritmo di rete neurale dinamica. Dato che il programma Clasitex è basato su un vasto dizionario, è un programma basato sulla conoscenza, mentre TextAnalyst non lo è.

TRAduzIONe AUTOMATICa

La traduzione da una lingua naturale ad un’altra è un obiettivo molto importante. La quantità di testi commerciali e scientifici nel mondo sta crescendo rapidamente, e molti Paesi sono molto produttivi in ambito scientifico e commerciale, e pubblicano numerosi libri e articoli nella loro lingua. Con l’aumento di contatti e collaborazioni internazionali, il bisogno di traduzione di contratti legali, documentazioni tecniche, istruzioni, pubblicità, e altri testi usati nella vita di tutti i giorni da milioni di persone, è diventata una questione di vitale importanza. I primi programmi di traduzione automatica vennero sviluppati più di 40 anni fa. In principio, si sperava che i testi potessero essere tradotti parola per parola, cosicché l’unico problema sarebbe stato quello di creare un dizionario di coppie di parole: una parola in una lingua e la sua equivalente nell’altra. Tuttavia, questa speranza è stata infranta appena dopo i primissimi esperimenti. Poi venne formulata l’idea ambiziosa di creare dei programmi che potessero comprendere appieno il significato di un qualunque testo nella lingua di partenza, registrarlo in qualche lingua universale intermedia, per poi riformulare questo significato nella lingua di arrivo mantenendo la maggiore fedeltà possibile. Si credeva che non dovesse essere necessaria alcuna modifica manuale, né al testo di partenza né al testo di arrivo. Questo obiettivo si rivelò molto difficile da perseguire, ed è stato raggiunto in modo soddisfacente solo in pochissimi casi. Oggi ci sono molti software di traduzione, che vanno da vasti progetti internazionali sviluppati da diversi istituti o anche diverse corporazioni che collaborano insieme, fino ai semplicissimi dizionari automatici, e da esperimenti di laboratorio a vari prodotti commerciali. Tuttavia, la qualità delle traduzioni, anche riguardo a grandi sistemi sviluppati dai migliori scienziati, è di molto inferiore alla qualità della traduzione manuale umana. Riguardo il software di traduzione commerciale, la qualità della traduzione generata è ancora alquanto bassa. Si può usare un traduttore commerciale per permettere alla gente che non ha molta familiarità con la lingua originale del documento di comprenderne l’idea principale. Tali programmi possono essere utili nella traduzione manuale dei testi. Tuttavia, una correzione successiva dei risultati, che porti al grado di qualità sufficiente alla pubblicazione, spesso prende più tempo della semplice traduzione manuale fatta da una persona che conosce abbastanza bene entrambe le lingue. [4]^ I traduttori in commercio vanno abbastanza bene per i testi di tipo molto particolare, come ad esempio le previsioni del tempo. Essi sono accettabili anche per la traduzione di contratti legali, almeno per quanto riguarda la loro parte formale, ma i paragrafi che specificano il vero soggetto del contratto possono essere in qualche modo distorti. Per dare al lettore un’idea di quale tipo di errori un programma può fare, possiamo citare un ben noto esempio di traduzione errata eseguita da uno dei primi sistemi negli anni ’60. Il testo è tratto dalla Bibbia, Lo spirito è forte, ma la carne è debole (Matt. 26:41), tradotto prima in russo e poi di nuovo in inglese. La frase inglese venne stravolta in La vodka è forte, ma la carne è marcia [34]. Ancora oggi, l’uditorio di seminari sulla traduzione automatica è intrattenuto con simili esempi, dai sistemi di traduzione moderni. Altri due esempi ci vengono dalla nostra esperienza con i popolari pacchetti di traduzione in commercio PowerTranslator di Globalink, uno dei migliori sul mercato. Il titolo di un documento inglese Plans è tradotto in spagnolo con il verbo Planifica , mentre la traduzione corretta è il sostantivo spagnolo Planes (vedi Figura III.5). Il sintagma spagnolo el papel de Francia en la guerra è tradotto con la carta di Francia nella guerra, mentre la traduzione corretta è il ruolo della

Un altro team di successo che ha lavorato sulla traduzione automatica è quello con a capo Yu.

Apresian in Russia [34]. Le loro ricerche sono condotte nel quadro del modello Meaning F 0D B Text.

INTERFACcia della lingua NATURALE

Lo scopo che realizza una interfaccia in lingua naturale verso un database è di capire le domande inserite da un utente in lingua naturale e di fornirne le risposte—generalmente in lingua naturale, ma a volte sotto forma di output formattato. Nella maggior parte dei casi, le query, o domande, inserite, riguardano fatti circa i dati contenuti in un database. Dato che ogni database è in una certa misura specifico, la lingua delle queries e del set di parole usate in esse sono in genere molto limitati. Quindi, l’obiettivo linguistico dell’analisi semantica e grammaticale è molto più semplice che per altri obiettivi legati alla lingua naturale, come la traduzione. Esistono alcuni sistemi con interfacce alla lingua naturale alquanto riusciti, che sono capaci di comprendere abbastanza bene un sotto linguaggio molto specifico. Altri sistemi, con altre sotto lingue, spesso meno specifiche, hanno avuto successi più scarsi. Per cui, questo problema non ha, almeno non ancora, una soluzione universale; molte delle soluzioni sono costruite ad hoc per ogni sistema specifico. Coloro che hanno sviluppato i sistemi di gestione del database più popolari forniscono in genere al loro prodotto una lingua che costruisce query formali, come l’SQL. Non è molto difficile apprendere tale lingua, e questo diminuisce il bisogno di una interfaccia del linguaggio naturale. Non conosciamo alcun sistema esistente di interfaccia in commercio che funzioni con una lingua naturale davvero illimitata. Ciò nonostante, l’obiettivo di creare una tale interfaccia sembra attrarre non poco diversi team di ricerca in tutto il mondo. Le interfacce del linguaggio naturale possono essere utili soprattutto per la capacità di riconoscimento vocale, che permetterebbe anche all’utente di porre delle query o dare comandi attraverso una linea telefonica. Lo scopo dello sviluppo delle interfacce della lingua naturale, sebbene siano meno esigenti verso quelle branche della linguistica come la morfologia o la sintassi, sono molto esigenti circa le branche “più profonde” della linguistica come la semantica, la pragmatica, e la teoria del discorso. Il problema specifico dei sistemi di interfaccia è che essi operano non con un racconto o un monologo, ma con un dialogo, una serie riordinata di annotazioni brevi ed incomplete. Per esempio, nel seguente dialogo:

Utente : Avete stampanti a matrice larga ad alta risoluzione in negozio? Sistema : No, non abbiamo stampanti del genere in negozio. Utente : E strette?

è difficile per il computer capire il significato dell’ultima frase. E’ necessaria un’analisi linguistica piuttosto dettagliata per riformulare la domanda di questo utente in Avete stampanti a matrice stretta ad alta risoluzione in negozio? In molti casi, l’unico modo che ha il computer di capire domande tanto ellittiche è quella di costruire un modello degli attuali obiettivi dell’utente, la sua conoscenza, e interessi, e poi cercare di indovinare cosa lo stesso computer potrebbe chiedere a questo punto del dialogo se fosse l’utente, e con quali parole formulerebbe tale domanda. Questa idea può essere definita analisi attraverso la sintesi.

EsTRAzIONe di dati efFicientii DAi TEsTi

L’estrazione di dati efficienti dai testi è l’obiettivo della creazione automatica degli elementi di un database fattografico, come campi, o parametri, basati su testi on-line. Spesso il flusso delle attuali notizie da Internet o da un organo di informazione è usato come fonte di informazione per tali sistemi, e i parametri di interesse possono essere la richiesta di un tipo specifico di prodotto in varie regioni, i prezzi di tali prodotti, gli eventi che hanno coinvolto una persona o compagnia in particolare, le opinioni circa una questione specifica circa un partito politico, e così via. Coloro che prendono le decisioni nel campo degli affari e della politica sono spesso troppo occupati a leggere e comprendere tutte le notizie più importanti nel loro tempo libero, e capita che debbano ingaggiare dei lettori che facciano un sunto delle notizie o perfino rivolgersi ad una specifica agenzia di stampa. Ciò è molto costoso, e anche in questo caso si potrebbero perdere le relazioni importanti tra i fatti, dato che coloro che riassumono tali notizie in genere hanno una conoscenza molto limitata della materia in oggetto. Un sistema automatico totalmente efficiente potrebbe non solo estrarre i fatti importanti molto più in fretta, ma anche combinarli, classificarli, e indagare sulle loro interrelazioni. Ci sono diversi sistemi di ricerca su quel tipo di applicazioni in commercio, cioè un sistema che aiuta ad esplorare le notizie sull’indice Dow Jones, investimenti, fusioni di società e progetti di acquisizione. Vista la grande difficoltà di questo obiettivo, solo le corporazioni commerciali molto grandi si possono permettere oggi la ricerca sugli effettivi problemi di estrazione di dati, o anche solo di comprare i risultati di queste ricerche. Questo tipo di problema è interessante anche da un punto di vista scientifico e tecnico. E’ un problema che rimane attuale, e la sua soluzione si troverà in futuro. A quanto è a noi noto, non c’è una simile ricerca indirizzata verso lo spagnolo finora.

creazione di testo

La creazione di testi da foto e specifiche formali è un campo relativamente nuovo; è nato circa dieci anni fa. Alcune applicazioni molto utili a questo scopo sono state scoperte in anni recenti. Tra loro ci sono sistemi multimediali che richiedono un sotto-sistema di creazione del testo per illustrare le immagini attraverso spiegazioni testuali. Questi sotto-sistemi producono testi coerenti, a partire dalle caratteristiche delle immagini. Altra applicazione molto importante dei sistemi di questo tipo è la creazione di specifiche formali sotto forma di testo partendo da disegni tecnici. Per esempio, la compilazione del brevetto della formula di un nuovo dispositivo, lungo spesso molte pagine, è un obiettivo noioso per una persona, che richiede tempo, e che è soggetto ad errore. Questo obiettivo è molto più adatto ad una macchina. Un tipo specifico di tale sistema è un sistema di creazione di testo multilingue. In molti casi, è necessario creare descrizioni e istruzioni per un nuovo apparecchio in diverse lingue, oppure nel maggior numero di lingue possibili. A causa dei problemi discussi nella sezione dedicata alla traduzione, la qualità della traduzione automatica di un testo compilato manualmente è spesso molto bassa. Risultati migliori possono essere raggiunti dalla creazione automatica del testo richiesto, in ogni lingua, indipendentemente dai disegni e le specifiche tecniche o da un testo in una specifica lingua formale simile alla lingua di programmazione. I sistemi di creazione del testo hanno, in generale, la metà dei problemi linguistici di un sistema di traduzione, inclusi tutti i problemi linguistici legati alla grammatica e al lessico della lingua d’arrivo. Questa è una vasta serie di informazioni linguistiche, attualmente disponibile nel dettaglio solo per poche aree ristrette della disciplina.

stringa (è una a, una s o una g ?), o della prima(e) lettera(e) del secondo rigo (è una r, una i o una m ?).

FIGURa III.6. L’immagine di un testo, come è vista dal computer.

FIGURa III.7. Alcune lettere dello stesso testo, così come il computer le vede.

Le prime lettere del secondo rigo appaiono separate nella Figura III.7. Chi non sapesse il significato di tutta la parola, non potrebbe neanche dire per certo se l’immagine contenga delle lettere. Comunque, si può leggere con facilità precisamente la stessa immagine vista qui sopra, delle stesse lettere nel loro pieno contesto. Dunque, è ovvio che l’obiettivo di riconoscimento ottico del carattere non può essere risolto solo attraverso le metodiche di riconoscimento dell’immagine, senza informazioni linguistiche. Il corretto riconoscimento dell’immagine va oltre le competenze della linguistica computazionale. Tuttavia, dopo il riconoscimento di un’immagine di qualità molto più alta di quella mostrata nella Figura III.6, alcuni errori particolari possono ancora verificarsi nella rappresentazione testuale dell’immagine. Questi errori possono essere corretti con operazioni simili a quelle di un correttore ortografico. Tale correttore ortografico specializzato dovrebbe sapere quali sono gli errori più frequenti del riconoscimento di immagini. Ad esempio, la lettera minuscola l è molto simile all’immagine data da 1 , la lettera n è riconosciuta come la coppia ii , mentre la m può essere riconosciuta come iii o rn. Vice versa, i digrammi in , rn e ni sono spesso riconosciuti come m , e così via.

Molti di questi errori possono essere corretti senza l’intervento umano, sulla base della conoscenza linguistica. Nel più semplice dei casi, tale conoscenza è solo un dizionario delle parole esistenti nella lingua. Tuttavia, in alcuni casi una analisi linguistica profonda è necessaria alla disambiguazione. Per esempio, solo l’analisi grammaticale della frase può permettere al programma di decidere se l’immagine riconosciuta come * danios, in realtà rappresenti le parole spagnole esistenti darnos o damos. Un obiettivo più arduo rispetto al riconoscimento di testi stampati, è il riconoscimento della scrittura. Si tratta di una traduzione in forma ASCII dei testi scritti a mano con una penna su un foglio oppure sulla superficie di un apparecchio elettronico, o direttamente con un mouse sullo schermo del computer. Tuttavia, i problemi principali e metodi di soluzione per questo obiettivo sono quasi gli stessi di quelli per i testi stampati, almeno nel loro aspetto linguistico. Il riconoscimento vocale è un altro tipo di riconoscimento che impiega i metodi linguistici. Un sistema di riconoscimento vocale riconosce i suoni specifici nel corso del discorso umano e li converte in codici ASCII delle lettere corrispondenti. L’obiettivo del riconoscimento riguarda sia il riconoscimento di pattern che la fonologia , la scienza che confina con la linguistica, l’acustica, e la fisiologia, e che indaga sui suoni del discorso. Le difficoltà nell’obiettivo del riconoscimento vocale sono molto simili o quasi identiche a quelle nel riconoscimento ottico dei caratteri: pattern monchi, o fusi, parti disgiunte di un pattern, parti del pattern andate perdute, rumore sovraimpresso al pattern. Questo porta ad un numero di lettere riconosciute in modo scorretto ancora più grande che con il riconoscimento ottico dei caratteri, e l’applicazione dei metodi linguistici, generalmente nello stesso modo, è ancora più importante per questo obiettivo.

CONCLUSIONi

Un breve esame dei sistemi linguistici applicati ha dimostrato che solo obiettivi semplicissimi come la sillabazione o il semplice controllo dell’ortografia possono essere portati a termine su una modesta base linguistica. Tutti gli altri sistemi dovrebbero impiegare una profonda conoscenza linguistica: i dizionari, analizzatori morfologici e sintattici, e in alcuni casi una profonda conoscenza e argomentazione semantica. Per di più, quasi tutti gli obiettivi discussi, perfino il controllo dell’ortografia, devono fare uso di una profondissima analisi per essere raggiunti con un’accuratezza vicina al 100%. E’ stato inoltre dimostrato che molti degli obiettivi dell’elaborazione linguistica possono essere considerati come casi speciali nel generale obiettivo della comprensione linguistica, uno dei principali obiettivi della linguistica computazionale e dell’intelligenza artificiale.