





































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Corso 21/22 Ricerca documentale e tecnologie per l'INTERPRETAZIONE
Tipologia: Appunti
1 / 45
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






































Cos’è la terminologia e come si fa un glossario (Riediger) I. Concetti. 1.Cos’è e a cosa serve la terminologia? Ogni gruppo sociale crea la propria realtà e per comunicarla agli altri utilizzano segni, soprattutto linguistici, detti termini. La globalizzazione dell’economia e internet ha portato a un maggior scambio di commerci e la conseguente competizione dei prodotti, portando a un aumento delle conoscenze umane e alla coniazione di nuovi termini specialistici. Secondo Cabré i principali fattori dello sviluppo della terminologia sono:
2.Cenni storici Le prime raccolte terminologiche cominciarono in Mesopotamia per tradurre parole in modo tale da favorire gli scambi commerciali e culturali nel Vicino Oriente; erano dei mezzi di apprendimento linguistico. Con i Greci (V secolo a.C,) si cominciarono a utilizzare glosse per spiegare i passi più oscuri dei poemi omerici. Opere simili nacquero ad Alessandria d’Egitto grazie ad alcune figure come Diogeniano di Eraclea, Panfilo, Zenodoto. La glossa si diffuse nel Medioevo per spiegare termini complessi o rari, indicare sinonimi o espressioni equivalenti o come nota esegetica nei testi biblici. Con il termine glossarium, già dall’epoca romana, si indicava una nota esplicativa che veniva posta accanto ai termini considerati di difficile comprensione ma poi il termine è andato a indicare anche i prontuari lessicali per scrivere in latino dopo che la lingua non era più tanto diffusa (p.e. Elementarium doctrine rudimentum di Papias, 1014). Mentre i nostri glossari registravano o traducevano parole in ordine alfabetico, in Inghilterra esistevano glossari che, come si nota in quelli rinvenuti in Siria, riconoscevano al lessico anche una funzione di interpretazione della realtà. Non erano disposti in ordine alfabetico ma avevano una struttura sistematica per cui i termini venivano ordinati con i termini generici sovraordinati a quelli successivi. Possono essere considerati come gli anticipatori dei moderni thesauri e l’evoluzione dei glossari medievali. Chi redigeva questi glossari lo faceva per esigenze pratiche legate al loro settore di attività ed erano usati per diversi scopi, come spiegare i significati di parole rare o tramandare lingue quasi dimenticate. Anche se erano scritti a mano e potevano essere copiati, la loro circolazione era limitata a certi ambiti specifici; gli autori dei glossari lo facevano per disporre di un aiuto concreto nel loro lavoro, quindi sceglievano la struttura che ritenevano più opportuna. Il dizionario (dictionarum< dictio ) nasce con l’avvento della stampa a caratteri mobili e la formazione delle lingue nazionali. Può essere considerato come il risultato dell’attività di esperti che non agiscono più in modo collezionistico ma professionale, con lo scopo di diffondere e normalizzare la lingua nazionale. Uno dei dizionari più famosi è il Dictionarium latinum di Calepino che ebbe grande successo e fu trasformato in un dizionario bilingue o plurilingue con l’aggiunta di traduzioni in diverse lingue moderne. Il più antico dizionario italiano è il Vocabolario degli Accademici della Crusca che conteneva parole estratte della opere di autori quali Dante, Boccaccio, Petrarca, Lorenzo de Medici, Bembo, Salviati (promotore del dizionario e fondatore dell’Accademia della Crusca); dal lavoro degli accademici della Crusca nacquero le prime regole per la redazione di un dizionario. Opere simili apparvero anche in altri Paesi europei, tra cui la Francia con l’ Encyclopedie di Diderot e d’Alembert, grazie a cui si delinea un procedimento terminologico attraverso l’introduzione di termini appartenenti a linguaggi specialistici e l’applicazione sistematica del sapere collegato ai termini nelle definizioni. Il filosofo Whewell sottolinea l’importanza della comunicazione scientifica con un lessico appropriato, affermando che si può parlare di “termini tecnici”, grazie ai quali gli uomini spiegano le loro scoperte e permettono a tutti di conoscerle. Solo negli anni ‘30 e ‘50 del XX secolo, grazie a Wüster e Felber, vengono gettate le basi teoriche per la terminologia come disciplina autonoma con un proprio metodo di ricerca e si pongono le
premesse della terminografia, con la messa a punto di specifiche tecniche lessicografiche. Negli anni ‘70 nascono le prime banche date terminologiche il cui uso era riservato a poche grandi imprese o organizzazioni; nel 1975 la Commissione Europea lanciò EURODICAUTOM, il primo database terminologico dei traduttori della Commissione e che poi fu reso accessibile anche a utenti esterni. Negli anni ‘80, per agevolare il lavoro di traduzioni nelle agenzie, vennero sviluppati i primi sistemi di traduzione assistita che prevedevano sia la memorizzazione delle traduzioni sia strumenti di gestione terminologica; i primi furono TSS della società olandese INK, poi commercializzato in Germania dalla società Trados. Nella prima metà degli anni ‘90, questi pacchetti cominciarono ad essere venduti al grande pubblico, tra cui Translation Manager/2 di IBM e la Translator’s Workbench di Trados comprendente il programma di gestione terminologica di MultiTerm. Ne seguirono poi altri ma oggi i più famosi sistemi CAT sono SDL Trados,Star Transit, Across etc etc che comprendono programmi per la gestione di memore di traduzione, l’allineamento dei file, la gestione del progetto e programmi di gestione terminologica. Con la diffusione di internet c’è stata una crescita esponenziale dell’attività terminologica, grazie alla possibilità di consultare banche dati terminologiche e a tutte le risorse terminologiche su internet.
Anche se esistono diversi strumenti per organizzare le conoscenze di un dominio (p.e. Parole chiave, tesauri etc etc), nel lavoro terminologico si preferiscono i diagrammi concettuali ossia sistemi grafici che permettono di vedere la posizione e la valenza dei concetti all’interno dei sistemi concettuali analizzati e anche le relazioni tra questi. I concetti comprendono le caratteristiche (qualità degli oggetti), l’insieme di queste ultime serve a determinare un concetto e collocarlo in un sistema concettuale. Una modalità di rappresentazione è quella ad albero o tassonomia che fa vedere il raggruppamento dei concetti in un dominio. Un sistema concettuale serve a stabilire le relazioni tra i vari concetti e a strutturare le conoscenze grazie a relazioni logiche (ordine gerarchico tra i concetti) o onotologica o partitiva (relazione parte-tutto). Questo tipo di sistema permette l’unificazione e la normalizzazione della terminologia, confrontandola con i termini nelle diverse lingue. Se ci sono sitemi organizzati ad albero (gerarchico) si parla di tassonomie, mentre per i sistemi più dettagliati comprendono relazioni semantiche che descrivono come i concetti sono collegati tra loro si parla di ontologie. 11.Come nascono i termini? L’aumento delle conoscenze della disciplina comporta anche lo sviluppo della terminologia speciale, con termini chiari per designare un determinato concetto speciale, utilizzando lo stesso procedimento di formazione della lingua comune. Molte volte i linguaggi speciali usano termini già esistenti ma alcune volte ricorrono a neologismi. Alcuni modi in cui nascono i termini sono:
- Terminologizzazione - quando a una parola viene attribuito un nuovo significato speciale, per esempio “memoria,1. Facoltà di ricordare, 2. (Nel computer) dispositivo capace di registrare e conservare le informazioni”. - Derivazione (raffreddamento) ,prestito (computer) , calco/traduzione (cliccare) , riduzione (OGM) , composizione (copilota) - Locuzioni terminologiche (motore di ricerca specializzato). Si distingue tra termini polisemici (p.e. piano, che ha diversi significati) e monosemici (p.e.Deramatura, con un solo significato). 12.Cosa significa equivalenza? Negli anni ‘50 e ‘60, dopo gli studi di Saussure sulle lingue come strutture di sistemi correlati, gli studiosi cercarono di trovare elementi che potevano essere sostituiti con elementi equivalenti in un’altra lingua. Questo approccio fu superato dagli altri ordinamenti, in cui la traduzione non era considerata più solo come un fatto linguistico ma anche comunicativo. Il concetti di equivalenza è tuttavia rimasto; sono considerati equivalenti due termini in due lingue diverse che si riferiscono allo stesso concetto. 13.La scheda terminologica e i suoi campi La scheda terminologica è il fulcro di qualsiasi raccolta di dati terminologici, definita come un “insieme strutturato di dati terminologici che si riferiscono a un concetto”, con tutte le informazioni riguardanti un termine. A seconda della destinazione e funzione, ci può essere un maggiore o minore numero di dati o campi di carattere concettuale o linguistico. I più importanti sono (per il resto, pg 22 e ss libro): - Dominio (settore di appartenenza del termine); - Sottodominio (contiene indicazioni che restringono il settore in cui rientra il termine); - Termini (contiene il termine a cui la scheda fa riferimento, può essere un termine semplice o composto); - Indicativo grammaticali (indica la categoria di appartenenza dell’unità terminologica); - Varianti (contiene termini che, pur mantenendo lo stesso valore semantico, si discostano del termine principale nella grafia od ortografia); - Status (fornisce indicazioni sulla fase di elaborazione a cui il termine è stato sottoposto); - Definizione (elemento fondamentale, enunciato che definisce e differenzia il concetto dagli altri nell’ambito di un sistema concettuale; riassume il significato in modo chiaro e sintetico e non deve mai avere il termine definito; il tipo di definizione preferita è quella intensionale o per comprensione, per cui si parte da un concetto superiore e si indicano le caratteristiche che lo distinguono dai concetti coordinati; la definizione può essere anche estensionale, per cui si descrive un concetto enumerandone concetti specifici o elementi costitutivi; tutti i concetti devono essere definiti in base allo stesso criterio, bisogna evitare le definizioni circolari e negative; le definizioni dovrebbero essere prese da documenti ufficiali ma, quando non si può, bisogna redigere una propria definizione dopo aver consultato uno specialista);
- Fonte definizione ( riferimento bibliografico da dove è stata estratta la definizione); - Illustrazione o collegamento ipertestuale ( può contenere un’illustrazione o un collegamento ipertestuale a un file audio o video); - Contesto ( porzione di testo in cui viene impiegato il termine che permette di cogliere il suo significato in un contesto d’uso; può essere anche di natura definitoria e può aggiungersi alla definizione o sostituirla); - Fonte contesto ( fonte bibliografica da cui è stato estratto l’esempio del contesto); - Sinonimi (termini che designano lo stesso concetto di quello selezionato e possono essere intercambiabili in qualsiasi contesto); - Grado di affidabilità (offre indicazioni riguardanti la fonte da cui è stato estratto l’equivalente del termine principale e la sua attendibilità; l’affidabilità è definita con una scala di punti, ossia 1- termini frutto di un proposta traduttiva, 2-termini tratti da dizionari bilingui, testi divulgativi e/o dizionari monolingui non specialistici, 3- termini presenti in testi o dizionari specialisti confermati, 4-termini presenti in norme terminologiche o documenti redatti da organismi ufficiali); - Data di compilazione (indica la data in cui la scheda è stata compilata/ aggiornata). II. Metodi, strumenti e procedimenti per la ricerca terminologica sistematica
contenuti del sito. E’ necessario vedere anche la data dell’ultimo aggiornamento (generalmente in fondo alla pagina) perché il mancato aggiornamento indica una scarsa cura. Infine, si devono verificare le relazioni con il resto del web con sistemi come TrafficRanking che permette di controllare il numero di accessi e di link che portano a quel sito. Per una maggiore sicurezza, si possono anche controllare sia il sito che le recensioni di quest’ultimo con una web directory generalista come DMOZ. III.Metodi e strumenti per la ricerca terminologica puntuale Le principali competenze per ci svolge questo tipo di lavoro sono conoscere le caratteristiche e le modalità d’uso di risorse terminologiche, lessicografiche e linguistiche online, saper trovare glossari, dizionari, informazioni su un determinato argomento, verifica più comune della grafia di una parola, la ricerca delle citazioni in lingua originale con eventuale traduzione. Inoltre, deve aver esperienza, cultura e fantasia grazie alle quali bisogna saper cercare e orientare nella massa di informazioni accessibile su internet. Esistono diversi siti che sono delle eccellenti porte d’accesso per le risorse terminologiche tra cui Term-minator, la Sitoteca, YourDictionary, Lexicool. 1.Enciclopedie online In rete ci sono molte enciclopedie come la Treccani, Sapere.it, Britannica etc etc. Wikipedia è l’opera enciclopedica più poderosa ed è redatta in modo collaborativo da volontari e sostenuta dalla Wikipedia Foundation. La sua caratteristica principale è il fatto che tutti possono collaborare ed è per questo che i critici mettono in dubbio la sua affidabilità. I sostenitori, invece, affermano che le voci di Wikipedia in termini di accuratezza sono paragonabili a quelli delle altre voci enciclopediche. In conclusione, Wikipedia può essere utile per farsi un’idea generale su un argomento.
francese, sloveno e tedesco). Lo scopo era quello di favorire la comunicazione ( anche dal punto di vista giuridico- amministrativo )ma non è stato più aggiornata.
Non sappiamo come un traduttore professionale sceglie un TET adatto al proprio lavoro, esistono alcuni strumenti specifici per i traduttori ma bisogna chiedersi se hanno tutte le caratteristiche necessarie per i traduttori.
permette di estrarre e gestire la terminologia multilingue. MultiTerm esiste sia come un’applicazione standalone sia integrato in SDL Trados Studio. E’ il più conosciuto tra i traduttori. Questo strumento individua la potenziale terminologia mono/bilingue nei documenti e le memorie di traduzione usando un metodo basato sulla statistica. Supporta ogni tipo di lingua tra cui quelle Unicode. Offre anche funzionalità come compilare un dizionario partendo da testi paralleli, filtraggio flessibile (solo i termini più importanti vengono estratti), possibilità di raccogliere un numero illimitato di termini in qualsiasi lingua, importare ed esportare glossari da diversi strumenti tecnologici. Inoltre, il fatto che è integrato in SDL Trados Studio è utile per diverse funzioni di gestione terminologica, come aggiungere sinonimi, contesto, definizione, illustrazioni etc etc ai termini.
Software S.L. For Mac Os, Linux e Windows. Questo strumento era stato creato per estrarre le parole più frequenti da documenti in lingua inglese, portoghese, francese e russo. Questo strumento permette sia di estrarre una lista di termini, sia di specificare un numero massimo e minimo di occorrenze di un termine. Permette anche di caricare una lista di stopword, con una ricerca approfondita grazie a cui cercare nella lista dei termini, modificare il termine o filtrarlo in base al proprio campo. Con questo strumento si possono anche stampare o esportare i termini estratti, la frequenza e i contesti corrispondenti.
(Estrazione terminologica, strumenti di traduzioni, corpora comparabili) con lo scopo di creare uno strumento in grado di estrarre la terminologia bilingue da 7 lingue ( inglese, francese, tedesco, spagnolo, cinese e russo). TermSuite è formato da 3 moduli: 1. The Spotter (pre- elaborazione il corpus monolingue, derivazione e lemmatizzazione), 2. The Indexer (estrae la terminologia monolingue dal corpus monolingue), 3. The Aligner (calcola la traduzione da un testo source a uno target; i primi due passaggi devono essere ripetuti per la lingua target). L’utente può scegliere diverse opzioni di allineamento come la scelta di un numero massimo di traduzioni per un termine etc etc; dopo aver scelto tutti i parametri, si può vedere una lista di candidati, classificati in base al grado di similarità.
corpora che include anche l’estrazione terminologica. E’ possibile entrare con una licenza commerciale o accademica e supporta 82 lingue, prevede sia un’estrazione mono che bilingue.Quando si fa l’estrazione monolingue, l’utente può decidere se estrarre parole singole (keywords) o unità terminologiche fatte da più parole (terms); nei risultati, oltre a questi due aspetti, ci sono anche altri elementi come 5 link agli articoli di Wikipedia più importanti, la frequenza del termine nel corpus cercato e nel corpus di riferimento. SI possono attivare altre funzioni, come decidere se cercare parole o lemmi. I risultati possono essere scaricati come TBX o CSV. Per fare l’estrazione terminologica si deve caricare un file TMX con un corpus parallelo allineato al livello della frase o del paragrafo. Inizialmente viene creata una lista con la terminologia estratta, successivamente il sistema cerca coppie di candidati da localizzare nei documenti paralleli, per poi creare una lista di termini canditati in TBX o TXT.
traduttori nel loro lavoro individuando le difficoltà nel testo e semplificando il processo di creazione dei glossari. Supporta solo le lingue inglese, italiano o francese; individua 20 termini classificati in base al loro punteggio, con dei link che si collegano alle ricerche su Google mentre sotto la lista si possono vedere il contesto dei termini in frasi complete. Anche se è uno strumento molto semplice, trova una soluzione veloce e gratis.
entrare con una licenza. Lo scopo era quello di integrare il processo completo di lavoro terminologico come la ricerca testuale dei corpus, la compilazione e l’analisi,l’estrazione dei termini etc etc. Tutto questo si può svolgere grazie a dei moduli, tra cui il modulo Analisi, che contiene alcuni elementi di estrazione semi automatica. Il processo di estrazione può avvenire in due modi: 1) l’utente allena l’estrattore in un dominio specifico aggiungendo un dizionario che contiene termini dello stesso dominio, 2)aggiungere un estrattore terminologico pronto all’uso a qualsiasi corpus testuale. Ci sono anche altri strumenti come l’estrattore n-gram o bi- gram con keyword e Association measures. 4.Frameworks. Differiscono dai software standard perché sono software riutilizzabili o biblioteche che possono essere usate/integrate nei programmi di traduzioni o in altri tipi di prodotti. In particolare, sono utili per il recupero delle informazioni, che viene aiutata anche dall’indentificazione e l’indicizzazione. Lo scopo dell’estrazione terminologica sia per il recupero delle informazioni che per il recupero dei documenti è quello di isolare i termini che hanno un contenuto informativo sufficiente per supportare il recupero basato sulle queries quando si analizzano un insieme di documenti.
un documento (keyphrase indexing). KEA è uno strumento platform- independent implementato in Java. Può essere usato sia per un’indicizzazione libera, sia per un’indicizzazione con un vocabolario controllato. Nel primo caso, KEA cerca i termini significativi in un documento e può essere applicato a qualsiasi documento e lingua. Nel secondo caso, i documenti sono indicizzati in modo coerente, senza tener conto della loro formulazione in quanto l’algoritmo considera solo gli n-tram che corrispondono ai termini nel tesauro.
basati sulla statistica per estrarre termini da diversi file e formati. E’ basato sull’Okapi Framework, una piattaforma ce ha diversi strumenti e applicazioni per aiutare ingeneri, sviluppatori, traduttori e project manager nei lavori di localizzazione e traduzione.
strumenti di estrazione di termini all’avanguardia. Questo TET ha tre scopi fondamentali: 1)rendere disponibili algoritmi per l’estrazione terminologica ai ricercatori; incoraggiare gli sviluppatori a costruire i propri metodi sotto un framework uniforme; attivare studi comparativi tra diversi algoritmi di estrazione terminologica. JATE segue gli step di un qualsiasi TET: estrarre termini candidati da un corpus, estrarre le statistiche dei termini candidati e applicare gli strumenti di estrazione terminologica automatica per individuare la rappresentatività del dominio dei termini candidati in base alle loro statistiche.
studiosi dell’Univeristà di Bologna hanno sviluppato BootCat front-end, un’interfaccia grafica degli strumenti di BootCat. Ci sono altri strumenti simili, come Sketch Engine (strumento commerciale che crea corpus) e lo strumento dei corpus di Translator Bank. BootCat automatizza il processo di ricerca dei testi su internet unendoli in un solo corpus. La pipeline permette di utilizzare diversi livelli di controllo: nel primo passaggio, gli utenti devono inserire una lista di parole chiave (semplici o complesse), chiamate seeds, che verrano usati per la raccolta dei testi; questi verranno combinati in tuplets (una varietà di combinazione dei seeds) e inviati come queries a un motore di ricerca, da cui si ottiene una lista di URL. A questo punto, l’utente ha la possibilità di analizzare e rifinire gli URL; le pagine sono un poi recuperati, convertiti in testi semplici e salvato in un testo txt. Il corpus può essere interrogato con diversi concordances. 2.1.1. Installare BootCat: Il software è gratis e installarlo è molto facile e veloce. Basta andare sulla pagina di installazione, scaricare la versione adatta al tuo sistema operativo, alla fine apparirà l’icona “Boot-CAT front-end” sul desktop. 2.2. Costruire corpora comparabili: diverse fasi: In questa sezione si parlerà della costruzione di tre corpora comparabili in italiano, inglese e spagnolo sull’emergenza sanitaria. La prima cosa da fare è aprire BootCat cliccando due volte sull’icona sul desktop, poi appaiono informazioni riguardo BootCat, cliccare su Next. Il secondo schermo è Project Definition, dove bisogna scegliere un nome e la lingua del corpus. Nel terzo step bisogna scegliere il modo di creazione del corpus tra i quattro proposti; scegliere Simple Mode e poi Next. Nella schermata successiva bisogna inserire le queries che il programma userà sul motore di ricerca; il numero minimo di seed è 5. Una volta fatto questo, spuntare “I’m donde editing seeds” e cliccare su Next; i seeds verranno raggruppati in tuplets che, a loro volta, verranno ricercati nel motore di ricerca. Si può scegliere il numero delle tuplets che devono essere generate, il numero è finito e dipende da quanti seed sono stati inseriti (se ne abbiamo messi 5, avremo un massimo di 10 tuplets). Si può modificare anche la lunghezza delle tuplets, in particolare se si vuole costruire un corpus specializzato o se si vuole creare un corpus linguistico generale.Cliccare Next e andare allo step successivo, poi si otterranno le ricerche fatte sul motore di ricerca, con un numero limitato di pagine per ogni tupla. Questo processi potrebbe metterci molto,in base al numero dei tuplets, traffico internet o la velocità di connessione. Nello step successivo, si può scegliere di togliere qualche URL o di cliccarci per visitare il sito; una volta fatto, cliccare su “Next”. Infine, BootCat scaricherà automaticamente le pagine le pulirà. Nell’ultima finestra, bisogna cliccare “Build Corpus” per iniziare la creazione del processo del corpus, una volta completato il download cliccare “Open corpus folder” per aprire la cartella con tutti il corpus e tutti i file importanti. Per creare i corpora comparabili in inglese e spagnolo, possiamo prendere i seed usati nella prima lingua e riutilizzarli per le altre due, seguendo gli stessi procedimenti fatti per l’italiano, creando così due corpora nelle lingue d’arrivo.
terminologiche;
la loro interpretazione/traduzione (Cabré,1998). Le parole e le frasi con un significato specifico sono chiamare termini; l’analisi e facilitazione di questi ultimi ha lo scopo di trasferire l’informazione “locale” a un livello nazionale e internazionale. 3.2. Estrarre terminologia dai corpora: Prima di estrarre la terminologia dai corpora dobbiamo innanzitutto definire i termini. La principale distinzionee è tra termini semplici o complessi o fraseologie, in base al numero di parole: una parola è un termine semplice due o più parole formano una parola complessa mentre due o più parole in una struttura sintattica sono delle fraseologie.
Ci sono diversi strumenti per estrarre concretamente la terminologia dai corpora, come AntConc, TextStat, Wordsmith Tools ed altri. In questa guida è stato usato AntConc, uno strumento di concordance con molte funzionalità che può essere scaricato gratuitamente. 3.2.1. Analizzare i corpora con AntConc: Possiamo utilizzarlo per estrarre terminologia multilingue. Le principali operazioni sono:
ricorrono in un corpus e anche di capire quanto è grande (da quante parole è formato);
e che, quindi, sono più importanti nel dominio che stiamo indagando. Si ottengono comparando corpora specializzati con corpora (generali) di riferimento;
nel corpus. Le concordanze vengono presentate come KWIC (Keywords in Context), quindi il termine cercato si trova al centro con elementi co-testuali alla sua destra e sinistra (e che vengono chiamati span). Per esempio, se prendiamo la parola “lesioni” potremmo avere come frase nelle KWIC “il paziente può presentare lesioni gravi su tutto il corpo”, in cui “lesioni” è la parola chiave (node word) mentre le parole a destra e sinistra sono chiamate span. “Lesioni gravi” (parola complessa) ha gravi come span (quindi lo span è 1 destra/1 right).Si può ottenere il risultato di KWIC anche cliccando sulle parole nella wordlist o keyword list;
analizza usando diversi strumenti statistici;
anche sui più frequenti gruppi di parole, tra ci si possono trovare termini complessi come “temperatura corporea”. Per ottenere una lista di questi gruppi di parole si deve generare una lista di n-grams. 3.2.2 Usare AntConc con il nostro corpora: Il principio di fondo di questa ricerca è di trovare la terminologia nella prima lingua e poi combinarla con i termini nelle altre due lingue. Bisogna aprire AntConc, cliccando su File e Open Dir. Cliccare su Wordlist e poi Start per creare la wordlist del corpus. Nella prima parte della wordlist troviamo una lista di parole di funzione, che sono le più frequenti in un testo. Per cercare le parole di contenuto (parole che hanno un contenuto semantico, p.e. Nomi, aggettivi, verbi), dobbiamo andare in fondo alla lista. Creando la wordlist, verremmo anche a conoscenza della grandezza del corpus. Il modo più efficace per cercare la terminologia specifica in un corpus specializzato è generare una keyword list. Per farlo, cliccare sulla barra Keyword List>Tool preferences > Keyword List. Assicurarsi che, sotto la voce Reference Corpus, “use raw files” è selezionato, poi cliccare su Add Files per selezionare il corpus di riferimento e poi Load per caricarlo. Infine, tornare indietro sulla barra della Keyword List e cliccare Start. Si otterrà una lista di parole di contenuto e, scendendo giù, si avranno parole che appartengono al dominio in questione e che potrebbero essere inseriti nel glossario. Continuiamo ad analizzare il corpus facendo alcune concordanze (concordances). Se, per esempio, vogliamo scoprire il motivo per cui la parola “pronto” è stata posizionata nella prima riga della keyword list: cliccare sulla parola “pronto”, generare una concordance (concordanze) e guardare i risultati. Così abbiamo evidenziato due parole vicino a “pronto”, una a destra e una a sinistra, cliccando su Sort; così capiamo che la parola significativa è “pronto soccorso” e non solo “pronto”. Per creare una lista n-grams, cliccare su “Cluster/N-grams”, assicurarsi che la casella N-grams sia selezionata, non cambiare la grandezza degli n-grams ( il valore di default è 2) e poi clicca su Start. Nella prima parte della lista N-Grams, avremo le parole più frequenti (p.e. Pronto soccorso,centrale operativa, primo soccorso) mentre se andiamo giù nella lista troveremo altre parole utili come “temperatura corporea” o “trattamento immediato”. Se cerchiamo di aumentare la grandezza degli n-grams, per esempio a 3, otterremo termini complessi “medicina d’emergenza”, “mezzi di soccorso”, “pericolo di vita”. Usare AntConc è molto facile e stimolante perché possiamo passare da una scheda all’altra cercando nuovi termini e scoprendo nuove potenzialità e soluzioni. Finita la ricerca, dobbiamo analizzare i nostri corpora comparabili (comporable corpora). Il modo migliore per individuare i corrispondenti delle parole già individuate nella lingua di partenza, è ripetere gli stessi passaggi nelle altre lingue; si può fare separatamente o in parallelo, facendo partire due volte il software. Così, si possono trovare traduzioni per i termini termini trovati nella lingua di partenza; se non sono presenti, si possono tradurre da soli e poi usare lo strumento delle
l'argomento cercato, con il rischio di commettere errori. Nel secondo caso, gli interpreti devono cercare le equivalenze con motori di ricerca e processarli manualmente per cercare soluzioni ai problemi terminologici. Nonostante questo approccio sembra avere dei vantaggi (facilità del sistema di ricerca, il fatto che l'informazione è processata in un contesto) richiede tempo e non restringe gli argomenti a un dominio specifico. Alcuni dei limiti dell'approccio classico possono essere superati con l'uso di corpora ad hoc, ossia una raccolta di testi simili di un determinato argomento in una o più lingue realizzato con uno scopo specifico in mente. La comparabilità fa riferimento alla similarità dei testi raccolti sia per argomento che per tipo di testo e genere; la definizione ad hoc sottolinea il fatto che sono stati realizzati per uno specifico lavoro. Rispetto alle altre risorse linguistiche, i corpora comparabili offrono un gran numero di vantaggi dando una maggiore varietà del materiale nella lingua di partenza e possibili traduzioni rispetto ai dizionari, restituiscono il gergo settoriale in maniera migliore e sono una fonte di informazione dinamica. Anche qui ci sono degli svantaggi: i testi non sono numerosi; i risultati possono essere originati da poche fonti e, quindi, possono essere distorti; gli interpreti lavorano sotto pressione e questo lavoro può apparire troppo dispendioso. Speech corpora nell'allenamento dell'interprete. Uno dei campi in cui l'uso dei corpora può essere diffuso è l'allenamento degli interpreti. Negli ultimi anni si sono cercati dei metodi per migliorare le competenze e l'esperienza degli interpreti come la deliberate practice di Ericsson, secondo la quale i compiti dovrebbero essere inizialmente difficili e che possono essere maneggiati con poche ore di esercizio, inoltre si è visto che il tutto è più efficace quando il lavoro è diviso in piccole unità. Una di queste è l'insieme delle competenze linguistiche che gli interpreti devono avere per migliorare le rese, esercitate e valutate durante le lezioni. Nonostante sia una buona pratica didattica, gli studenti dovrebbero utilizzare un approccio basato sui corpora in linea con il costruttivismo, secondo cui essi dovrebbero costruire la conoscenza da soli senza l'intervento unico del docente. In base al concetto di serendipità (Johns, 1988) per cui un termine porta a un altro, in base alle necessità e alle intuizioni degli utenti, gli studenti possono estendere la loro conoscenza del vocabolario aumentando la loro flessibilità linguistica. Fondamentali sono anche i corpora comparabili di discorsi originali, che sono trascrizioni di discorsi dei politici,scienziati etc etc. Ci sono molti vantaggi nell' usare questo tipo di corpora: contengono lo stesso materiale testuale che gli studenti sono chiamati a interpretare, rendendo la individuazione delle caratteristiche linguistiche più semplice; utilizzando testi non tradotti, gli studenti possono lavorare senza essere influenzati dal processo traduttivo; gli studenti possono trarre beneficio da questo tipo di testi che gli permette di approfondire la lingua e le competenze discorsive. Sfruttare corpora specifici del dominio. Per i professionisti, tipi di corpora molto utili sono quelli comparabili e quelli specifici di un dominio in cui ci sono testi che hanno a che fare con un dominio specifico ( p.e. bioenergia) mentre altri parametri come il genere possono cambiare (libro, pamphlet). La differenza principale tra i corpora e il materiale di riferimento generalmente usato dagli interpreti è la quantità dei testi e il modo in cui possono essere consultati (testi online o documenti digitali, possono essere consultati in maniera lineare mentre i testi contenuti in un corpus possono essere consultati in maniera non lineare con la ricerca inversa, partendo dalla terminologia o dalla fraseologia per arrivare alla struttura concettuale. Molti studiosi hanno sottolineato l'importanza e i vantaggi dei corpora comparabili specifici (processo di serendipità e interprete soggetto attivo). Creare corpora a hoc e l'estrazione dell'informazione linguistica. Ci sono molti strumenti che consentono una raccolta semiautomatica di testi da internet come BootCat, AntCorGer e SketchEngine. Sono programmi molto utili che però non sono stati sviluppati tenendo in considerazione le necessità degli interpreti, ciò crea delle difficoltà. Fantinuoli propone l'uso di CorpusMode, un programma gratis dedicato agli interpreti che automatizza il processo di ricerca di testi di riferimento estraendo informazioni da un corpus e analizzandole. Lo strumento utilizza i servizi cognitivi di Microsoft, in particolare Bing Web Search Api , per cercare documenti relativi a un dominio sul web. Scarica e trasforma i testi in corpora ad hoc, estrae la terminologia specializzata e le collocations, permette all'utente di esplorare il corpus con un concordancer dinamico. La procedura è semplice e inizia da una lista di parole chiamati seeds, tipici del dominio di interesse e per evitare che il sistema ricerchi testi non utili i seeds dovrebbero essere specializzati e inequivocabili. Per determinare le caratteristiche della costruzione del corpus l'utente può decidere altri parametri, come il dominio, la lingua, il formato e i numero dei testi che si devono scaricare. Una lista di URL viene presentata all'utente che decide decide manualmente quali tenere e quali eliminare. Alcuni test hanno mostrato che è
possibile costruire corpora di grandi dimensioni (80, 100 testi) ma la qualità potrebbe risentirne in quanto non supervisionati. Per quanto concerne l'estrazione terminologica, CorpusMode ha dei metodi di estrazione ibridi che combinano la conoscenza linguistica e le misure statistiche, utilizzando un algoritmo per ridurre il numero di costruzioni sbagliate e mantenere solo i termini specializzati e più frequenti (lo strumento assegna un tag a ogni parte del discorso, estrae tutti i termini candidati creando, infine, una lista di termini con delle frequenze statistiche ed euristiche per classificare i termini candidati e selezionare quelli più appropriati). Oltre alla lista dei termini, si può generare anche una lista di collocations e frequenza per ogni termine. Valutazione. E' stato condotto un test con le lingue inglese e tedesco per valutare la qualità del corpus e dei testi. L'argomento è stato scelto a caso da venti possibili temi, sono state estratte due liste di termini specializzati usando l'algoritmo e mantenendo le impostazioni di default. I seeds utilizzati sono stati ottenuti selezionando due termini specializzati nella ricerca su Wikipedia di biogas. Ai soggetti è stato chiesto di valutare l'attendibilità di dieci testi per ogni corpus ( un testo si definisce appropriato quando più del 50% dei soggetti lo valuta come "definitivamente appropriato " o "probabilmente appropriato "): la percentuale di accuratezza raggiunge l'84% per l'inglese e l'86% per il tedesco. I testi estratti sono stati divisi in tre gruppi in base ai livelli di specializzazione: i testi specializzati, i testi generali e i testi non completi. I risultati non sono stati completamente soddisfacenti perché il numero dei testi specializzati è basso e la lista finale dei termini candidati sembra sbilanciata verso le forme generali o incomplete. Si è visto che i dati del corpus presentavano molto "rumore" (p.e, sillabazione e linguaggio sbagliati). Tutto ciò ha un impatto negativo sulla qualità dei risultati. Conclusioni. I corpora devono essere allineati con le necessità degli interpreti soprattutto in termini di facilità di utilizzo, velocità e flessibilità (p.e.,invece di selezionare i seeds appropriati, si potrebbe definire il dominio del corpus indicando una ricerca su Wikipedia o su un sito particolare, così che la ricerca degli URL venga fatta in automatico; un'altra caratteristica è che la possibilità di inserire il metodo di allineamento per la lista dei termini monolingue estratti crei una prima bozza di un glossario bilingue). TECNOLOGIE PER L'INTERPRETAZIONE Speech Recognition in the Interpreter Workstation (Fantinuoli) Abstract. Negli ultimi anni, i CAI sono sono stati usati dagli interpreti professionisti per prepararsi, condividere informazioni ai colleghi e organizzare i dati. Una delle caratteristiche chiave di questi strumenti è la capacità di supportare gli utenti nell’accedere alla terminologia durante l’interpretazione simultanea mentre lo svantaggio principale è che si possono svolgere ricerca sul database manualmente, aumentando lo sforzo cognitivo nel processo interpretativo. Questo svantaggio può essere risolto automatizzando il sistema di ricerca attraverso l’uso dell’ASR, dato che ultimamente la qualità della AI ( intelligenza artificiale, Artificial Intelligence) è aumentata considerevolmente. Tuttavia, entrambi gli strumenti CAI e ASR hanno bisogno requisiti specifici: ASR deve essere completamente speaker-indipendent, deve essere reattivo e deve essere preciso nel riconoscimento del vocabolario specializzato; CAI devono supportare le varianti morfologiche e offrire nuovi modi di presentare dati estratti. Lo scopo di questo articolo è di analizzare un framework per l’integrazione ASR-CAI, presentare un prototipo e discuterne le prospettive di sviluppo. 1.Introduzione. Con i CAI attuali (2017), gli interpreti devono inserire manualmente un termine o una parte di esso per cercarlo; questo meccanismo di ricerca manuale è considerato il primo svantaggio di questo approccio perché svolgere questo compito durante la SI potrebbe creare distrazioni. Nonostante studi empirici abbiano dimostrato che gli interpreti in cabina hanno sia il tempo che la capacità mentale per fare una ricerca manuale, tuttavia un sistema automatico rappresentare e indubbiamente un passo avanti nella riduzione dello sforzo cognitivo, migliorando anche la resa dell’interprete nei testi specializzati.
vs “sight” o difficoltà nel distinguere i limiti delle parole;
non ha pause naturali tra le parole e questo può influire sulla ricerca automatica, dato che questa necessità delle corrette parole;
Questa è una informazione non desiderata nel discorso e ha bisogno di essere identificata per essere eliminata. Nella SI questo problema non si pone ma in altri contesti, come gli incontri faccia a faccia, sì;
rappresenta un problema sia per gli esseri umani che per l’ASR, dato che quando parlando velocemente gli oratori possono pronunciare male le parole;
postura, gesti, espressioni facciali e tutto ciò è completamente assente nel sistema ASR. Tuttavia, ciò non sembra giocare un ruolo importante nell’integrazione ASR e CAI, dato che lo scopo è quello di ricercare unità terminologiche e non “completare” un discorso. Ci sono diverse applicazioni per il riconoscimento del parlato che dipendono anche dai limiti che possono essere presenti, come il tipo delle frasi. Le soluzioni ASR si dividono in due sistemi: uno riconosce parole isolate (se le parole sono precedute e seguite da una pausa) mentre il secondo riconosce il discorso continuo (se le frasi sono pronunciate naturalmente e lo strumento deve riconoscere i confini delle parole). Questi due sistemi possono essere ulteriormente divisi sulla base della grandezza del vocabolario, spontaneità del discorso etc etc. Per essere usato con un CAI, l’ASR deve soddisfare i seguenti criteri minimi:
Sistemi ASR possono essere sia applicazioni standalone installate sul proprio computer (p.e. Dragoncelli Naturally Speaking) oppure si possono trovare su servizi cloud (p.e. Bling Speech API) ma, per ragioni di privacy, sono meglio i primi. Per quanto riguarda i CAI, questi devono soddisfare i seguenti requisiti:
sono utili all’interprete;
Il sistema deve comunque essere migliorato sia dal punto di vista della precisione che della componente grafica. L’informazione viene divisa in tre sezioni, una per la trascrizione, una per la terminologia e una per i numeri. La visualizzazione appare in ordine cronologico e l’utente può impostare il colore di sfondo, la grandezza del font e usare i colori per indicare determinati parametri. L’arco di tempo tra il momento in cui la frase è stata detta e la sua visualizzazione dipende dalla velocità del sistema ASR e dalla sua latenza. 5.Valutazione. La qualità di un sistema CAI integrato con ASR dipende da due fattori: la qualità della trascrizione fornita dall’ASR e l’abilità del CAI di trovare ed identificare informazioni utili. Per lo scopo di questo articolo, sono state misurate i punteggi della precisione e di richiamo (recall) per l’identificazione della terminologia e dei numeri. Il test è stato condotto usando tre discorsi in inglesi pieni di terminologia specifica, riguardanti la l’energia rinnovabile. Il glossario bilingue era formato da 421 voci; il sistema doveva riconoscere 119 parole e 11 numeri. Nella tabella 1 si riporta la metrica testuale. Idealmente il sistema dovrebbe raggiungere un altro livello di recall, per cui sarebbe in grado di identificare le unità terminologiche indipendentemente da differenze ortografiche; oltre a questo, avrebbe anche un’alta precisione (pochi errori), assicurando che l’interprete non avesse risultati superflui. Nella tabella 2 si riporta la performance dell’ASR che si mostra molto efficace nel riconoscere le unità terminologiche, con un tasso di errore del 5,04% (prima era 10,92%). Nella tabella 3 si riportano i risultati della terminologia ricercata sul testo trascritto dall’ASR: il sistema è stato in grado di riconoscere 112 unità terminologiche su 119(94,11%) mentre i numeri sbagliati ammontavano a 3. Tra i termini mancanti/sbagliati vi erano i plurali complessi, i quasi sinonimi etc etc. La ricerca fuzzy è riuscita a identificare e correggere gli errori (p.e. Malting al posto di moulding). L’identificazione dei numeri non si è rivelata essere un problema né per gli ASR che nel i CAI.