Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


TECNICHE E METODI, RUSSELLO, 21-22 (UNINT FIT), Appunti di Traduzione

Corso 21/22 Ricerca documentale e tecnologie per l'INTERPRETAZIONE

Tipologia: Appunti

2021/2022

Caricato il 09/06/2022

asia_tulli
asia_tulli 🇮🇹

4.4

(29)

8 documenti

1 / 45

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
RICERCA DOCUMENTALE
Cos’è la terminologia e come si fa un glossario (Riediger)
I.Concetti. !
1.Cos’è e a cosa serve la terminologia?!
Ogni gruppo sociale crea la propria realtà e per comunicarla agli altri utilizzano segni, soprattutto
linguistici, detti termini. La globalizzazione dell’economia e internet ha portato a un maggior
scambio di commerci e la conseguente competizione dei prodotti, portando a un aumento delle
conoscenze umane e alla coniazione di nuovi termini specialistici. Secondo Cabré i principali
fattori dello sviluppo della terminologia sono:!
Rapido sviluppo delle conoscenze e della tecnologia;!
Necessità di una terminologia comune per le comunicazioni e i commerci internazionali;!
Standardizzazione dei prodotti a livello globale;!
Scambio di merci e conoscenze;!
Importanza e lo sviluppo delle reti informative;!
Sviluppo dei mezzi di comunicazione di massa;!
Interventi degli stati e degli organismi sovranazionali (ONU,UE) in campo linguistico.!
2.Cenni storici!
Le prime raccolte terminologiche cominciarono in Mesopotamia per tradurre parole in modo tale
da favorire gli scambi commerciali e culturali nel Vicino Oriente; erano dei mezzi di apprendimento
linguistico.!
Con i Greci (V secolo a.C,) si cominciarono a utilizzare glosse per spiegare i passi più oscuri dei
poemi omerici. Opere simili nacquero ad Alessandria d’Egitto grazie ad alcune figure come
Diogeniano di Eraclea, Panfilo, Zenodoto. !
La glossa si diuse nel Medioevo per spiegare termini complessi o rari, indicare sinonimi o
espressioni equivalenti o come nota esegetica nei testi biblici. Con il termine glossarium, già
dall’epoca romana, si indicava una nota esplicativa che veniva posta accanto ai termini
considerati di dicile comprensione ma poi il termine è andato a indicare anche i prontuari
lessicali per scrivere in latino dopo che la lingua non era più tanto diusa (p.e. Elementarium
doctrine rudimentum di Papias, 1014).!
Mentre i nostri glossari registravano o traducevano parole in ordine alfabetico, in Inghilterra
esistevano glossari che, come si nota in quelli rinvenuti in Siria, riconoscevano al lessico anche
una funzione di interpretazione della realtà. Non erano disposti in ordine alfabetico ma avevano
una struttura sistematica per cui i termini venivano ordinati con i termini generici sovraordinati a
quelli successivi. Possono essere considerati come gli anticipatori dei moderni thesauri e
l’evoluzione dei glossari medievali.!
Chi redigeva questi glossari lo faceva per esigenze pratiche legate al loro settore di attività ed
erano usati per diversi scopi, come spiegare i significati di parole rare o tramandare lingue quasi
dimenticate. Anche se erano scritti a mano e potevano essere copiati, la loro circolazione era
limitata a certi ambiti specifici; gli autori dei glossari lo facevano per disporre di un aiuto concreto
nel loro lavoro, quindi sceglievano la struttura che ritenevano più opportuna. !
Il dizionario (dictionarum< dictio) nasce con l’avvento della stampa a caratteri mobili e la
formazione delle lingue nazionali. Può essere considerato come il risultato dell’attività di esperti
che non agiscono più in modo collezionistico ma professionale, con lo scopo di diondere e
normalizzare la lingua nazionale. Uno dei dizionari più famosi è il Dictionarium latinum di Calepino
che ebbe grande successo e fu trasformato in un dizionario bilingue o plurilingue con l’aggiunta di
traduzioni in diverse lingue moderne. Il più antico dizionario italiano è il Vocabolario degli
Accademici della Crusca che conteneva parole estratte della opere di autori quali Dante,
Boccaccio, Petrarca, Lorenzo de Medici, Bembo, Salviati (promotore del dizionario e fondatore
dell’Accademia della Crusca); dal lavoro degli accademici della Crusca nacquero le prime regole
per la redazione di un dizionario. Opere simili apparvero anche in altri Paesi europei, tra cui la
Francia con l’Encyclopedie di Diderot e d’Alembert, grazie a cui si delinea un procedimento
terminologico attraverso l’introduzione di termini appartenenti a linguaggi specialistici e
l’applicazione sistematica del sapere collegato ai termini nelle definizioni. !
Il filosofo Whewell sottolinea l’importanza della comunicazione scientifica con un lessico
appropriato, aermando che si può parlare di “termini tecnici”, grazie ai quali gli uomini spiegano
le loro scoperte e permettono a tutti di conoscerle. !
Solo negli anni ‘30 e ‘50 del XX secolo, grazie a Wüster e Felber, vengono gettate le basi teoriche
per la terminologia come disciplina autonoma con un proprio metodo di ricerca e si pongono le
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d

Anteprima parziale del testo

Scarica TECNICHE E METODI, RUSSELLO, 21-22 (UNINT FIT) e più Appunti in PDF di Traduzione solo su Docsity!

RICERCA DOCUMENTALE

Cos’è la terminologia e come si fa un glossario (Riediger) I. Concetti. 1.Cos’è e a cosa serve la terminologia? Ogni gruppo sociale crea la propria realtà e per comunicarla agli altri utilizzano segni, soprattutto linguistici, detti termini. La globalizzazione dell’economia e internet ha portato a un maggior scambio di commerci e la conseguente competizione dei prodotti, portando a un aumento delle conoscenze umane e alla coniazione di nuovi termini specialistici. Secondo Cabré i principali fattori dello sviluppo della terminologia sono:

• Rapido sviluppo delle conoscenze e della tecnologia;

• Necessità di una terminologia comune per le comunicazioni e i commerci internazionali;

• Standardizzazione dei prodotti a livello globale;

• Scambio di merci e conoscenze;

• Importanza e lo sviluppo delle reti informative;

• Sviluppo dei mezzi di comunicazione di massa;

• Interventi degli stati e degli organismi sovranazionali (ONU,UE) in campo linguistico.

2.Cenni storici Le prime raccolte terminologiche cominciarono in Mesopotamia per tradurre parole in modo tale da favorire gli scambi commerciali e culturali nel Vicino Oriente; erano dei mezzi di apprendimento linguistico. Con i Greci (V secolo a.C,) si cominciarono a utilizzare glosse per spiegare i passi più oscuri dei poemi omerici. Opere simili nacquero ad Alessandria d’Egitto grazie ad alcune figure come Diogeniano di Eraclea, Panfilo, Zenodoto. La glossa si diffuse nel Medioevo per spiegare termini complessi o rari, indicare sinonimi o espressioni equivalenti o come nota esegetica nei testi biblici. Con il termine glossarium, già dall’epoca romana, si indicava una nota esplicativa che veniva posta accanto ai termini considerati di difficile comprensione ma poi il termine è andato a indicare anche i prontuari lessicali per scrivere in latino dopo che la lingua non era più tanto diffusa (p.e. Elementarium doctrine rudimentum di Papias, 1014). Mentre i nostri glossari registravano o traducevano parole in ordine alfabetico, in Inghilterra esistevano glossari che, come si nota in quelli rinvenuti in Siria, riconoscevano al lessico anche una funzione di interpretazione della realtà. Non erano disposti in ordine alfabetico ma avevano una struttura sistematica per cui i termini venivano ordinati con i termini generici sovraordinati a quelli successivi. Possono essere considerati come gli anticipatori dei moderni thesauri e l’evoluzione dei glossari medievali. Chi redigeva questi glossari lo faceva per esigenze pratiche legate al loro settore di attività ed erano usati per diversi scopi, come spiegare i significati di parole rare o tramandare lingue quasi dimenticate. Anche se erano scritti a mano e potevano essere copiati, la loro circolazione era limitata a certi ambiti specifici; gli autori dei glossari lo facevano per disporre di un aiuto concreto nel loro lavoro, quindi sceglievano la struttura che ritenevano più opportuna. Il dizionario (dictionarum< dictio ) nasce con l’avvento della stampa a caratteri mobili e la formazione delle lingue nazionali. Può essere considerato come il risultato dell’attività di esperti che non agiscono più in modo collezionistico ma professionale, con lo scopo di diffondere e normalizzare la lingua nazionale. Uno dei dizionari più famosi è il Dictionarium latinum di Calepino che ebbe grande successo e fu trasformato in un dizionario bilingue o plurilingue con l’aggiunta di traduzioni in diverse lingue moderne. Il più antico dizionario italiano è il Vocabolario degli Accademici della Crusca che conteneva parole estratte della opere di autori quali Dante, Boccaccio, Petrarca, Lorenzo de Medici, Bembo, Salviati (promotore del dizionario e fondatore dell’Accademia della Crusca); dal lavoro degli accademici della Crusca nacquero le prime regole per la redazione di un dizionario. Opere simili apparvero anche in altri Paesi europei, tra cui la Francia con l’ Encyclopedie di Diderot e d’Alembert, grazie a cui si delinea un procedimento terminologico attraverso l’introduzione di termini appartenenti a linguaggi specialistici e l’applicazione sistematica del sapere collegato ai termini nelle definizioni. Il filosofo Whewell sottolinea l’importanza della comunicazione scientifica con un lessico appropriato, affermando che si può parlare di “termini tecnici”, grazie ai quali gli uomini spiegano le loro scoperte e permettono a tutti di conoscerle. Solo negli anni ‘30 e ‘50 del XX secolo, grazie a Wüster e Felber, vengono gettate le basi teoriche per la terminologia come disciplina autonoma con un proprio metodo di ricerca e si pongono le

premesse della terminografia, con la messa a punto di specifiche tecniche lessicografiche. Negli anni ‘70 nascono le prime banche date terminologiche il cui uso era riservato a poche grandi imprese o organizzazioni; nel 1975 la Commissione Europea lanciò EURODICAUTOM, il primo database terminologico dei traduttori della Commissione e che poi fu reso accessibile anche a utenti esterni. Negli anni ‘80, per agevolare il lavoro di traduzioni nelle agenzie, vennero sviluppati i primi sistemi di traduzione assistita che prevedevano sia la memorizzazione delle traduzioni sia strumenti di gestione terminologica; i primi furono TSS della società olandese INK, poi commercializzato in Germania dalla società Trados. Nella prima metà degli anni ‘90, questi pacchetti cominciarono ad essere venduti al grande pubblico, tra cui Translation Manager/2 di IBM e la Translator’s Workbench di Trados comprendente il programma di gestione terminologica di MultiTerm. Ne seguirono poi altri ma oggi i più famosi sistemi CAT sono SDL Trados,Star Transit, Across etc etc che comprendono programmi per la gestione di memore di traduzione, l’allineamento dei file, la gestione del progetto e programmi di gestione terminologica. Con la diffusione di internet c’è stata una crescita esponenziale dell’attività terminologica, grazie alla possibilità di consultare banche dati terminologiche e a tutte le risorse terminologiche su internet.

  1. Lessicologia vs terminologia Non sono sinonimi. La lessicologia è lo studio del lessico, quindi l’insieme delle parole e delle locuzioni di una lingua o di un ambito particolare in tutte le sue forme; studia, registra e descrive le parole e i termini. La terminologia studia i concetti e le loro denominazioni, quindi i termini con l’obiettivo di prescrivere e/o descriverne l’uso corretto. La terminologia indica anche “l’insieme dei termini che rappresentano un sistema concettuale di un dominio particolare”. Ora, nella ricerca terminologica, si possono individuare tre grandi scuole per ordine geografica, scopi, metodologie e interazione con le altre discipline, ossia:
  2. La terminologia orientata verso la linguistica : le principali esponenti sono le scuole di Vienna, Praga e Mosca, ognuna rispettivamente con l’obiettivo di normalizzare nozioni e termini, la descrizione strutturale e funzionale delle lingue speciali, la normalizzazione linguistica nell’ambito del plurilinguismo dell’ex URSS; 2. La terminologia orientata verso la pianificazione linguistica: crea organismi politici e linguistici che possono intervenire anche dal punto di vista legislativo per sostenere la rivalutazione di una lingua comunitaria; 3. La terminologia orientata verso la traduzione: introduce l’attività terminologica di grandi organizzazioni e servizi di traduzione, portando alla nascita di banche dati terminologiche come EURODICAUTOM e IATE. Ha essenzialmente le tre funzioni di descrizione sistematica dei termini, diffusione delle conoscenze tecniche e definizione di norme. Il rapporto tra terminologia e traduzione scritta e orale è molto stretto, dato che la qualità di una traduzione specializzata dipende dal grado di equivalenza ed adeguatezza della terminologia usata ( si parla, quindi, di terminologia bilingue oppure di terminologia multi/plurilingue).Per realizzare una traduzione di qualità, il traduttore deve usare un lessico coerente a quello normalmente usato in un determinato settore o dal cliente; solo così la traduzione potrà essere un punto di riferimento per i lavori successivi. Questo significa che un’adeguata attività terminologica assicura la qualità della traduzione e ne riduce anche i tempi. 4.Lessico comune e specialistico Nella vita quotidiana sopravviviamo con circa 2000 parole, viviamo con circa 5000 e raramente ne usiamo altre 2000 circa mentre quello che chiamiamo lessico comune (parole usate sporadicamente nella comunicazione quotidiana) ammonta a qualche migliaia di unità. Nei dizionari, quindi, avremo per lo più parole non conosciute/usate dalla maggioranza dei parlanti, che rientrano nelle parole di basso uso, di livello colto, parole obsolete o letterarie, varianti o a lessici specialistici. Tullio de Mauro distingue tra il Vocabolario di base e i lessici tecnici (vedi schema pg 12 libro).
  3. Cosa si intende per dominio o settore specifico? Il dominio osserva un fenomeno da un determinato punto di vista che, a sua volta, dipende dalle aspettative nei confronti del fenomeno stesso. Per esempio, se prendiamo un bambino e un anziano, diverse figure specialistiche guarderanno determinate caratteristiche: un medico si concentrerà sulle caratteristiche fisiologiche, un giurista sulla capacità giuridica, un pubblicitario sull’aspetto fisico. Quello che cambia sono gli aspetti selezionati in base a determinate esigenze.

Anche se esistono diversi strumenti per organizzare le conoscenze di un dominio (p.e. Parole chiave, tesauri etc etc), nel lavoro terminologico si preferiscono i diagrammi concettuali ossia sistemi grafici che permettono di vedere la posizione e la valenza dei concetti all’interno dei sistemi concettuali analizzati e anche le relazioni tra questi. I concetti comprendono le caratteristiche (qualità degli oggetti), l’insieme di queste ultime serve a determinare un concetto e collocarlo in un sistema concettuale. Una modalità di rappresentazione è quella ad albero o tassonomia che fa vedere il raggruppamento dei concetti in un dominio. Un sistema concettuale serve a stabilire le relazioni tra i vari concetti e a strutturare le conoscenze grazie a relazioni logiche (ordine gerarchico tra i concetti) o onotologica o partitiva (relazione parte-tutto). Questo tipo di sistema permette l’unificazione e la normalizzazione della terminologia, confrontandola con i termini nelle diverse lingue. Se ci sono sitemi organizzati ad albero (gerarchico) si parla di tassonomie, mentre per i sistemi più dettagliati comprendono relazioni semantiche che descrivono come i concetti sono collegati tra loro si parla di ontologie. 11.Come nascono i termini? L’aumento delle conoscenze della disciplina comporta anche lo sviluppo della terminologia speciale, con termini chiari per designare un determinato concetto speciale, utilizzando lo stesso procedimento di formazione della lingua comune. Molte volte i linguaggi speciali usano termini già esistenti ma alcune volte ricorrono a neologismi. Alcuni modi in cui nascono i termini sono:

- Terminologizzazione - quando a una parola viene attribuito un nuovo significato speciale, per esempio “memoria,1. Facoltà di ricordare, 2. (Nel computer) dispositivo capace di registrare e conservare le informazioni”. - Derivazione (raffreddamento) ,prestito (computer) , calco/traduzione (cliccare) , riduzione (OGM) , composizione (copilota) - Locuzioni terminologiche (motore di ricerca specializzato). Si distingue tra termini polisemici (p.e. piano, che ha diversi significati) e monosemici (p.e.Deramatura, con un solo significato). 12.Cosa significa equivalenza? Negli anni ‘50 e ‘60, dopo gli studi di Saussure sulle lingue come strutture di sistemi correlati, gli studiosi cercarono di trovare elementi che potevano essere sostituiti con elementi equivalenti in un’altra lingua. Questo approccio fu superato dagli altri ordinamenti, in cui la traduzione non era considerata più solo come un fatto linguistico ma anche comunicativo. Il concetti di equivalenza è tuttavia rimasto; sono considerati equivalenti due termini in due lingue diverse che si riferiscono allo stesso concetto. 13.La scheda terminologica e i suoi campi La scheda terminologica è il fulcro di qualsiasi raccolta di dati terminologici, definita come un “insieme strutturato di dati terminologici che si riferiscono a un concetto”, con tutte le informazioni riguardanti un termine. A seconda della destinazione e funzione, ci può essere un maggiore o minore numero di dati o campi di carattere concettuale o linguistico. I più importanti sono (per il resto, pg 22 e ss libro): - Dominio (settore di appartenenza del termine); - Sottodominio (contiene indicazioni che restringono il settore in cui rientra il termine); - Termini (contiene il termine a cui la scheda fa riferimento, può essere un termine semplice o composto); - Indicativo grammaticali (indica la categoria di appartenenza dell’unità terminologica); - Varianti (contiene termini che, pur mantenendo lo stesso valore semantico, si discostano del termine principale nella grafia od ortografia); - Status (fornisce indicazioni sulla fase di elaborazione a cui il termine è stato sottoposto); - Definizione (elemento fondamentale, enunciato che definisce e differenzia il concetto dagli altri nell’ambito di un sistema concettuale; riassume il significato in modo chiaro e sintetico e non deve mai avere il termine definito; il tipo di definizione preferita è quella intensionale o per comprensione, per cui si parte da un concetto superiore e si indicano le caratteristiche che lo distinguono dai concetti coordinati; la definizione può essere anche estensionale, per cui si descrive un concetto enumerandone concetti specifici o elementi costitutivi; tutti i concetti devono essere definiti in base allo stesso criterio, bisogna evitare le definizioni circolari e negative; le definizioni dovrebbero essere prese da documenti ufficiali ma, quando non si può, bisogna redigere una propria definizione dopo aver consultato uno specialista);

- Fonte definizione ( riferimento bibliografico da dove è stata estratta la definizione); - Illustrazione o collegamento ipertestuale ( può contenere un’illustrazione o un collegamento ipertestuale a un file audio o video); - Contesto ( porzione di testo in cui viene impiegato il termine che permette di cogliere il suo significato in un contesto d’uso; può essere anche di natura definitoria e può aggiungersi alla definizione o sostituirla); - Fonte contesto ( fonte bibliografica da cui è stato estratto l’esempio del contesto); - Sinonimi (termini che designano lo stesso concetto di quello selezionato e possono essere intercambiabili in qualsiasi contesto); - Grado di affidabilità (offre indicazioni riguardanti la fonte da cui è stato estratto l’equivalente del termine principale e la sua attendibilità; l’affidabilità è definita con una scala di punti, ossia 1- termini frutto di un proposta traduttiva, 2-termini tratti da dizionari bilingui, testi divulgativi e/o dizionari monolingui non specialistici, 3- termini presenti in testi o dizionari specialisti confermati, 4-termini presenti in norme terminologiche o documenti redatti da organismi ufficiali); - Data di compilazione (indica la data in cui la scheda è stata compilata/ aggiornata). II. Metodi, strumenti e procedimenti per la ricerca terminologica sistematica

  1. Le fasi della realizzazione di una raccolta terminologica Il lavoro terminografico sistematico è diviso in tre fasi:
  2. fase preliminare ( definizione dello scopo, dei destinatari e della forma di pubblicazione; definizione di massima della struttura del glossario e delle schede terminologiche; creazione di corpora di testi nelle diverse lingue);
  3. fase principale (estrazione dei candidati termini; raccolta dei concetti/termini in ogni lingua; rielaborazione del materiale);
  4. fase conclusiva (presentazione grafica del lavoro sotto forma di glossario o database terminologico).
  5. Ricerca terminologica puntuale o sistematica La ricerca terminologica può essere:
  6. Puntuale: la ricerca più rapida possibile per conoscere il significato di un termine o trovare un suo equivalente in un’altra lingua, è lavoro di traduttori e interpreti;
  7. Sistematica: la raccolta dettagliata ed esaustiva di documenti, generalmente in più lingue, riguardanti un determinato dominio, è tipico dell’attività del servizio terminologico di un’istituzione e/o azienda.
  8. Estrazione terminologica L’estrazione terminologia (identificazione dei termini rilevanti in un testo o in un corpus di testi) può essere:
  • Manuale: si leggono i testi e si copiano/trascrivono i termini candidati per la raccolta terminologica/glossario;
  • Semi-automatica: si usano i cosiddetti concordancer, ossia programmi che creano liste di parole, verificano la loro frequenza e indicano i contesti in cui sono usate;
  • Automatica: ci si serve di software dedicati, talvolta integrati nei CAT tools, confrontando il testo con dizionari interni e filtrano i potenziali termini di interesse in base alla ricorrenza, specificità e tasso di ambiguità; una lista di estrattori gratuiti si trova sulla pagina del servizio di coordinamento terminologico del Parlamento europeo Termcoord). Le estrazioni possono essere monolingue o bilingue. Che cos’è un concordancer? Sono programmi in grado di creare in modo automatico concordanze, verificano le relazioni tra le parole di un testo e danno informazioni riguardo al contesto. Esempi di concordancer sono WordSmith Tools, TextStat, AntConc mentre uno strumento sul web è WebCorp. Che cos’è un corpus? Una collezione di testi digitalizzati per settori generali, periodo storici o settori specialisti. Permette di indagare le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio. La disciplina che studia il linguaggio attraverso i corpora è chiamata Linguistica dei corpora. I corpora vengono usati anche nell’insegnamento delle lingue. Esistono alcuni corpora consultabili online come il Bratislava National Corpus (inglese) o quello riferito al quotidiano “La Repubblica” (italiano). Se il lavoro terminologico è plurilingue, si devono creare corpora di testi paralleli nelle diverse lingue.

contenuti del sito. E’ necessario vedere anche la data dell’ultimo aggiornamento (generalmente in fondo alla pagina) perché il mancato aggiornamento indica una scarsa cura. Infine, si devono verificare le relazioni con il resto del web con sistemi come TrafficRanking che permette di controllare il numero di accessi e di link che portano a quel sito. Per una maggiore sicurezza, si possono anche controllare sia il sito che le recensioni di quest’ultimo con una web directory generalista come DMOZ. III.Metodi e strumenti per la ricerca terminologica puntuale Le principali competenze per ci svolge questo tipo di lavoro sono conoscere le caratteristiche e le modalità d’uso di risorse terminologiche, lessicografiche e linguistiche online, saper trovare glossari, dizionari, informazioni su un determinato argomento, verifica più comune della grafia di una parola, la ricerca delle citazioni in lingua originale con eventuale traduzione. Inoltre, deve aver esperienza, cultura e fantasia grazie alle quali bisogna saper cercare e orientare nella massa di informazioni accessibile su internet. Esistono diversi siti che sono delle eccellenti porte d’accesso per le risorse terminologiche tra cui Term-minator, la Sitoteca, YourDictionary, Lexicool. 1.Enciclopedie online In rete ci sono molte enciclopedie come la Treccani, Sapere.it, Britannica etc etc. Wikipedia è l’opera enciclopedica più poderosa ed è redatta in modo collaborativo da volontari e sostenuta dalla Wikipedia Foundation. La sua caratteristica principale è il fatto che tutti possono collaborare ed è per questo che i critici mettono in dubbio la sua affidabilità. I sostenitori, invece, affermano che le voci di Wikipedia in termini di accuratezza sono paragonabili a quelli delle altre voci enciclopediche. In conclusione, Wikipedia può essere utile per farsi un’idea generale su un argomento.

  1. Dizionari online In rete ci sono vari autorevoli titoli consultabili gratuitamente come il Sabatini Coletti Dizionario della Lingua Italiana o il Larousse Francese Dizionario. Sul versante della consultazione a pagamento, ci sono offerte sempre più articolate offerte dalla piattaforma eLexico che, dopo il pagamento, consente di consultare numerosi dizionari Hoepli, RCS, Le Monnier o Zanichelli. Inoltre, esistono anche strumenti come Linguee, bab.la, Glosbe e Sensagent, ossia motori di ricerca linguistici disponibili in molte lingue, in grado di integrare lemmari costruiti da redazioni umani con traduzioni automatiche o riferimento automatico di definizioni e traduzioni dal web. Interfacce come Onelook o Term-minator permettono di interrogare simultaneamente più risorse. 3.Banche dati terminologiche Sono database informatici gestiti e alimentati dall’intrattenimento di un’organizzazione e resi pubblici in un secondo momento. Le banche dati possono avere scopi diversi (normazione, creazione di termini, costituzione di lessici specialistici etc etc). Quelle più importanti come IATE, TERMIDAT possono essere definite “a vocazione traduttiva”. Il rapido sviluppo di questa offerta indica l’importanza di queste ultime nell’ambito dello sviluppo mondiale. Per assicurare l’interoperabilità dei dati, si preferisce usare il formato TBX basato su XML. Le schede terminologiche di queste banche dati possono essere divise in due tipi: quelle riguardo la gestione delle schede (nome compilatore, data compilazione, aggiornamento…) e quelle relative al termine (informazione relativa alla lingua, categoria grammaticale, fonti…). Dal momento che la gestione delle banche dati sta diventando sempre più dispendiosa con una ricaduta negativa sulla qualità dei dati contenuti, alle banche dati più grandi si sono affiancate le cosiddette micro-banche, fondate su ricerche terminologiche relative a un dominio particolare o alcuni domini ristretti. In rete sono accessibili molte banche dati terminologiche, anche di grandi dimensioni e qualità, come:
  • Agrovoc: un tesauro multilingue della FAO. I concetti e i termini sono organizzati gerarchicamente e suddivisi in sottodomini, con la possibilità di consultare ben 21 lingue. Agrovoc mette a disposizione un vocabolario controllato per indicizzare, organizzare e recuperare i dati contenuti nelle pubblicazioni del settore.
  • Electropedia: banca dati realizzata su iniziativa della IEC e si basa sul dominio dell’elettrotecnica e dell’elettronica. Contiene oltre 20.000 termini appartenenti a questo dominio.
  • LexALP: banca data con oltre 10.000 termini appartenenti ai settori della pianificazione territoriale e dello sviluppo sostenibile nelle quattro lingue della Convenzione delle Alpi (italiano,

francese, sloveno e tedesco). Lo scopo era quello di favorire la comunicazione ( anche dal punto di vista giuridico- amministrativo )ma non è stato più aggiornata.

  • PIARC: banca date che riunisce termini contenuti nei dizionari dell’Associazione mondiale della Strada e in alcuni dizionari specializzati bi-/multilingui dedicati alla viabilità e al trasporto su strada. Viene regolarmente aggiornata dalla Commissione per la terminologia, all’interno della quale sono rappresentate tre lingue (ENG,ESP,FR) e contiene termini in 33 lingue.
  • ECHA-term: banca dati dell’Agenzia Europea per le sostanza chimiche. Viene costantemente aggiornata e tiene conto anche del feedback degli utenti. Contiene 1200 termini estratti da vari regolamenti europei, disponibili in 23 lingue ufficiali. La banca dati è liberamente accessibile.
  • EuroTermBank: prodotto finale di un progetto co-finanziato dalla Commissione Europea e terminato all fine del 2006. Lo scopo era quello di armonizzare le risorse terminologiche per quei Paesi che sono divenuti parti dell’UE nel 2004 (Estonia, Lituania…). Più di una banca dati, si tratta di un portale liberamente accessibile, che gode di 4 database esterni, dà accesso a 133 raccolte e possiede una maschera intuitiva. EuroTermBank può essere integrato in strumenti di lavoro (Come il programma di traduzione assistita MemoQ) tra professionisti della traduzione, terminologia e mediazione linguistica; scaricando gli Ad-in per MS WORD si può accedere alla piattaforma e fare una ricerca terminologica durante la traduzione.
  • EuroVoc: è il tessuto multilingue dell’Unione europea, comprendente la terminologia relativa ai settori delle attività delle istituzioni europee, in particolare quelle parlamentari. EuroVoc si propone come uno strumento per eliminare le ambiguità e garantire un rapporto univoco tra denominazioni e concetti. Per questo, distingue i termini in preferiti (descrittori, a cui corrisponde obbligatoriamente un termine nelle altre lingue) e non preferiti (non descrittori). Nel 2017 conteneva 6883 termini.
  • DISCO (European Dictionary of Skills and Competences): offre più di 104.000 termini in 11 lingue ed è nato dall’esigenza di comparare e tradurre nelle diverse lingue la terminologia usata nel mondo della formazione e nel mercato del lavoro, perciò è un vero e proprio dizionario delle competenze per far parlare sistemi di diversi paesi europei, garantendo una maggiore trasparenza dei titoli e delle qualifiche.
  • GEMET(Tesauro Generale Multilingue dell’ambiente): contiene più di 6.562 descrittori, che sono stati ordinati secondo due modi, uno schema concettuale o una classificazione tematica. C’è anche una maschera di ricerca che prevede la digitazione del termine e la selezione di una delle 32 lingue. Si ottiene una scheda che contiene la definizione monolingue in inglese, uno o più descrittori, altre informazioni con rimandi esterni e gli equivalenti nelle altre lingue. Nel 2004 è stata creata la versione online, aggiornata nel 2012.
  • IATE (Inter-Active Terminology for Europe): la più grande banca dati terminologica del mondo, con ben 8,4 milioni di voci in 24 lingue (2017). IATE nasce da un progetto del 1999 di fondere insieme le preesistenti banche dati delle varie istituzioni europee quali EURIDICAUTOM, TIS; Euterpe, Euroterms e CDCTERM. E’ diventato operativo nel 2004 ed era inizialmente riservato ai dipendenti dell’UE ma del 2007 è stato concesso l’accesso anche agli utenti esterni. Si può scegliere il dominio del termine da un menù a tendina per disambiguare i termini, che vengono accompagnati sempre da un indice di affidabilità (1-4 stelle) e da icone che rimandano al contesto, fonte, note e definizione. Si può consultare anche la scheda terminologica del termine.IATE è una banca dati terminologica in crescita, aggiornata costantemente da traduttori e terminologi delle istituzioni europee. Nel 2013, sono stati aggiunti 97.000 termini e modificati 158.000. Si può scaricare gratuitamente l’intera banca dati in formato TBX.
  • TERMDAT: banca dati plurilingue dell’Amministrazione federale svizzera istituita nel 1987, concentrandosi sulla terminologia giuridico-amministrativa della Confederazione. La presentazione dei risultati è personalizzabile, si può visualizzare in versione ridotta e fornisce diverse informazioni riguardo l’area tematica a cui appartengono, lo Stato della scheda, il codice di affidabilità, il dominio. Oltre le banche dati online, dobbiamo ricordare anche contributi di docenti, ricercatori e studenti in ambito scientifico e accademico, come Glossapedia, Termisti, CERTERM, EHOS, Innsburcker Termbanck online.
  1. Usare la traduzione automatica Sempre più spesso ultimamente, si tende a usare i traduttori automatici come dizionario (p.e. Google). I traduttori automatici vengono usati anche come strumento di ricerca di equivalenti terminologici; uno studio ha valutato come l’uso della TA in pre- e post-editing fa ottenere risultati analoghi o migliori di strumenti offline o online (memorie di traduzione o banche dati terminologiche) in tempi molto più brevi. In questo caso, la TA inverte la classica procedura di

Non sappiamo come un traduttore professionale sceglie un TET adatto al proprio lavoro, esistono alcuni strumenti specifici per i traduttori ma bisogna chiedersi se hanno tutte le caratteristiche necessarie per i traduttori.

  1. Strumenti di estrazione terminologica standalone. Questi tipi di software sono i più diffusi e possono essere installati sul computer o possono lavorare indipendentemente su un altro sistema o dispositivo.

• SDL MultiTerm Extract: fa parte di SDL MultiTerm, uno strumento di gestione terminologica che

permette di estrarre e gestire la terminologia multilingue. MultiTerm esiste sia come un’applicazione standalone sia integrato in SDL Trados Studio. E’ il più conosciuto tra i traduttori. Questo strumento individua la potenziale terminologia mono/bilingue nei documenti e le memorie di traduzione usando un metodo basato sulla statistica. Supporta ogni tipo di lingua tra cui quelle Unicode. Offre anche funzionalità come compilare un dizionario partendo da testi paralleli, filtraggio flessibile (solo i termini più importanti vengono estratti), possibilità di raccogliere un numero illimitato di termini in qualsiasi lingua, importare ed esportare glossari da diversi strumenti tecnologici. Inoltre, il fatto che è integrato in SDL Trados Studio è utile per diverse funzioni di gestione terminologica, come aggiungere sinonimi, contesto, definizione, illustrazioni etc etc ai termini.

• Simple^ Extractor:^ offre^ meno^ informazioni^ rispetto^ al^ precedente.^ E’^ sviluppato^ da^ DAIL

Software S.L. For Mac Os, Linux e Windows. Questo strumento era stato creato per estrarre le parole più frequenti da documenti in lingua inglese, portoghese, francese e russo. Questo strumento permette sia di estrarre una lista di termini, sia di specificare un numero massimo e minimo di occorrenze di un termine. Permette anche di caricare una lista di stopword, con una ricerca approfondita grazie a cui cercare nella lista dei termini, modificare il termine o filtrarlo in base al proprio campo. Con questo strumento si possono anche stampare o esportare i termini estratti, la frequenza e i contesti corrispondenti.

• TermSuite: è uno strumento open source e indipendente, sviluppato per il progetto TTC

(Estrazione terminologica, strumenti di traduzioni, corpora comparabili) con lo scopo di creare uno strumento in grado di estrarre la terminologia bilingue da 7 lingue ( inglese, francese, tedesco, spagnolo, cinese e russo). TermSuite è formato da 3 moduli: 1. The Spotter (pre- elaborazione il corpus monolingue, derivazione e lemmatizzazione), 2. The Indexer (estrae la terminologia monolingue dal corpus monolingue), 3. The Aligner (calcola la traduzione da un testo source a uno target; i primi due passaggi devono essere ripetuti per la lingua target). L’utente può scegliere diverse opzioni di allineamento come la scelta di un numero massimo di traduzioni per un termine etc etc; dopo aver scelto tutti i parametri, si può vedere una lista di candidati, classificati in base al grado di similarità.

  1. Strumenti web-based di estrazione terminologica. Questi strumenti standalone probabilmente si sposteranno sul web, questo perché i TET web base non hanno bisogno di installazione e si possono consultare grazie a un browser web, facendo uso delle tecnologie del web.

• Sketch Engine: è uno strumento online creato da Lexical Computing Ltd per creare e gestire

corpora che include anche l’estrazione terminologica. E’ possibile entrare con una licenza commerciale o accademica e supporta 82 lingue, prevede sia un’estrazione mono che bilingue.Quando si fa l’estrazione monolingue, l’utente può decidere se estrarre parole singole (keywords) o unità terminologiche fatte da più parole (terms); nei risultati, oltre a questi due aspetti, ci sono anche altri elementi come 5 link agli articoli di Wikipedia più importanti, la frequenza del termine nel corpus cercato e nel corpus di riferimento. SI possono attivare altre funzioni, come decidere se cercare parole o lemmi. I risultati possono essere scaricati come TBX o CSV. Per fare l’estrazione terminologica si deve caricare un file TMX con un corpus parallelo allineato al livello della frase o del paragrafo. Inizialmente viene creata una lista con la terminologia estratta, successivamente il sistema cerca coppie di candidati da localizzare nei documenti paralleli, per poi creare una lista di termini canditati in TBX o TXT.

• Translation s.r.L: si può accedere direttamente dal sito. E’ stato creato con lo scopo di aiutare i

traduttori nel loro lavoro individuando le difficoltà nel testo e semplificando il processo di creazione dei glossari. Supporta solo le lingue inglese, italiano o francese; individua 20 termini classificati in base al loro punteggio, con dei link che si collegano alle ricerche su Google mentre sotto la lista si possono vedere il contesto dei termini in frasi complete. Anche se è uno strumento molto semplice, trova una soluzione veloce e gratis.

• Terminus: è un’applicazione basata sul web per la gestione della terminologia e ci si può

entrare con una licenza. Lo scopo era quello di integrare il processo completo di lavoro terminologico come la ricerca testuale dei corpus, la compilazione e l’analisi,l’estrazione dei termini etc etc. Tutto questo si può svolgere grazie a dei moduli, tra cui il modulo Analisi, che contiene alcuni elementi di estrazione semi automatica. Il processo di estrazione può avvenire in due modi: 1) l’utente allena l’estrattore in un dominio specifico aggiungendo un dizionario che contiene termini dello stesso dominio, 2)aggiungere un estrattore terminologico pronto all’uso a qualsiasi corpus testuale. Ci sono anche altri strumenti come l’estrattore n-gram o bi- gram con keyword e Association measures. 4.Frameworks. Differiscono dai software standard perché sono software riutilizzabili o biblioteche che possono essere usate/integrate nei programmi di traduzioni o in altri tipi di prodotti. In particolare, sono utili per il recupero delle informazioni, che viene aiutata anche dall’indentificazione e l’indicizzazione. Lo scopo dell’estrazione terminologica sia per il recupero delle informazioni che per il recupero dei documenti è quello di isolare i termini che hanno un contenuto informativo sufficiente per supportare il recupero basato sulle queries quando si analizzano un insieme di documenti.

• Keyphrase Extraction Algoritm (KEA): è stato specificatamente creato per assegnare termini a

un documento (keyphrase indexing). KEA è uno strumento platform- independent implementato in Java. Può essere usato sia per un’indicizzazione libera, sia per un’indicizzazione con un vocabolario controllato. Nel primo caso, KEA cerca i termini significativi in un documento e può essere applicato a qualsiasi documento e lingua. Nel secondo caso, i documenti sono indicizzati in modo coerente, senza tener conto della loro formulazione in quanto l’algoritmo considera solo gli n-tram che corrispondono ai termini nel tesauro.

• Rainbow: è un estrattore terminologico platform-independent, scritto in Java, che usa metodi

basati sulla statistica per estrarre termini da diversi file e formati. E’ basato sull’Okapi Framework, una piattaforma ce ha diversi strumenti e applicazioni per aiutare ingeneri, sviluppatori, traduttori e project manager nei lavori di localizzazione e traduzione.

• Java Automatic Term Extraction (JATE): è uno strumento di Java che comprende diversi

strumenti di estrazione di termini all’avanguardia. Questo TET ha tre scopi fondamentali: 1)rendere disponibili algoritmi per l’estrazione terminologica ai ricercatori; incoraggiare gli sviluppatori a costruire i propri metodi sotto un framework uniforme; attivare studi comparativi tra diversi algoritmi di estrazione terminologica. JATE segue gli step di un qualsiasi TET: estrarre termini candidati da un corpus, estrarre le statistiche dei termini candidati e applicare gli strumenti di estrazione terminologica automatica per individuare la rappresentatività del dominio dei termini candidati in base alle loro statistiche.

  1. Opinioni e preferenze dei traduttori sulle caratteristiche dei TET. La traduzione è una delle maggiori aree di applicazione per l’estrazione terminologica ma non è ancora diffusa nel lavoro dei più traduttori professionali, come ha dimostrato un’indagine: su 600 traduttori professionisti, solo il 25% utilizzava la TET nel loro lavoro ( può essere dovuto a diversi motivi, come una performance non soddisfacente degli strumenti presenti). I TET possono avere diverse caratteristiche (i documenti che supportano, l’interfaccia, le lingue etc etc). In base ai risultati, il 27% dei canditati preferisce che le capacità dei TE siano inserite nei CAT rispetto a un software TE separato. Il 9% preferisce strumenti web, mentre 8% preferisce installare programmi stand alone sul proprio pc. La maggior parte (56%) non ha preferenze riguardo l’interfaccia dello strumento. Il fatto che i traduttori preferiscano i TET integrati nei CAT tools deriva dalla tendenza che i CAT hanno sempre più caratteristiche e potenzialità, inoltre è più facile gestire uno strumento con diverse funzionalità piuttosto che usare/pagare strumenti diversi. In base ai risultati, si è notato che la funzionalità più apprezzata era l’estrazione bilingue dei termini: infatti, è comodo che i termini estratti siano presenti nelle due lingue simultaneamente. L’estrazione bilingue è più difficile rispetto a quella monolingue e richiede un buon sistema di allineamento, perciò solo pochi programmi (SDL Multiterm Extract e SketchEngine) la possiedono. TermSuite, invece, compie un’estrazione monolingue ma porta sempre allo stesso risultato di avere i termini nelle due lingue. La seconda funzionalità più apprezzata è la possibilità di mettere a confronto il contesto del termine nella lingua source e target; anche questa è un’altra potenzialità poco diffusa, presente solo in SDL Multiterm Extract. La terza è la possibilità di scegliere i termini che possono essere estratti, un aspetto molto utile per i traduttori che si ritrova in quasi tutti gli strumenti, eccetto TermSuite e Trasnlated.

studiosi dell’Univeristà di Bologna hanno sviluppato BootCat front-end, un’interfaccia grafica degli strumenti di BootCat. Ci sono altri strumenti simili, come Sketch Engine (strumento commerciale che crea corpus) e lo strumento dei corpus di Translator Bank. BootCat automatizza il processo di ricerca dei testi su internet unendoli in un solo corpus. La pipeline permette di utilizzare diversi livelli di controllo: nel primo passaggio, gli utenti devono inserire una lista di parole chiave (semplici o complesse), chiamate seeds, che verrano usati per la raccolta dei testi; questi verranno combinati in tuplets (una varietà di combinazione dei seeds) e inviati come queries a un motore di ricerca, da cui si ottiene una lista di URL. A questo punto, l’utente ha la possibilità di analizzare e rifinire gli URL; le pagine sono un poi recuperati, convertiti in testi semplici e salvato in un testo txt. Il corpus può essere interrogato con diversi concordances. 2.1.1. Installare BootCat: Il software è gratis e installarlo è molto facile e veloce. Basta andare sulla pagina di installazione, scaricare la versione adatta al tuo sistema operativo, alla fine apparirà l’icona “Boot-CAT front-end” sul desktop. 2.2. Costruire corpora comparabili: diverse fasi: In questa sezione si parlerà della costruzione di tre corpora comparabili in italiano, inglese e spagnolo sull’emergenza sanitaria. La prima cosa da fare è aprire BootCat cliccando due volte sull’icona sul desktop, poi appaiono informazioni riguardo BootCat, cliccare su Next. Il secondo schermo è Project Definition, dove bisogna scegliere un nome e la lingua del corpus. Nel terzo step bisogna scegliere il modo di creazione del corpus tra i quattro proposti; scegliere Simple Mode e poi Next. Nella schermata successiva bisogna inserire le queries che il programma userà sul motore di ricerca; il numero minimo di seed è 5. Una volta fatto questo, spuntare “I’m donde editing seeds” e cliccare su Next; i seeds verranno raggruppati in tuplets che, a loro volta, verranno ricercati nel motore di ricerca. Si può scegliere il numero delle tuplets che devono essere generate, il numero è finito e dipende da quanti seed sono stati inseriti (se ne abbiamo messi 5, avremo un massimo di 10 tuplets). Si può modificare anche la lunghezza delle tuplets, in particolare se si vuole costruire un corpus specializzato o se si vuole creare un corpus linguistico generale.Cliccare Next e andare allo step successivo, poi si otterranno le ricerche fatte sul motore di ricerca, con un numero limitato di pagine per ogni tupla. Questo processi potrebbe metterci molto,in base al numero dei tuplets, traffico internet o la velocità di connessione. Nello step successivo, si può scegliere di togliere qualche URL o di cliccarci per visitare il sito; una volta fatto, cliccare su “Next”. Infine, BootCat scaricherà automaticamente le pagine le pulirà. Nell’ultima finestra, bisogna cliccare “Build Corpus” per iniziare la creazione del processo del corpus, una volta completato il download cliccare “Open corpus folder” per aprire la cartella con tutti il corpus e tutti i file importanti. Per creare i corpora comparabili in inglese e spagnolo, possiamo prendere i seed usati nella prima lingua e riutilizzarli per le altre due, seguendo gli stessi procedimenti fatti per l’italiano, creando così due corpora nelle lingue d’arrivo.

  1. Estrarre terminologia bilingue dai corpora. Dopo la creazione dei corpora, dobbiamo estrae la terminologia con l’aiuto di uno strumento concordanze. Prima facciamo una panoramica dei concetti principali. 3.1. Breve introduzione alla terminologia: la terminologia è una scienza applicata alla sistematizzandone e standardizzazione di lingue specializzate. L’oggetto di studio sono i termini e il loro uso in situazioni comunicative reali. Le principali funzioni sono:

• Descrivere termini che appartengono a campi specializzati;

• Facilitare^ la^ trasmissione/diffusioni^ di^ conoscenze^ tecniche^ e^ scientifiche^ creando^ risorse

terminologiche;

• Standardizzare il lessico per consentire una comunicazione univoca di contenuti specializzati e

la loro interpretazione/traduzione (Cabré,1998). Le parole e le frasi con un significato specifico sono chiamare termini; l’analisi e facilitazione di questi ultimi ha lo scopo di trasferire l’informazione “locale” a un livello nazionale e internazionale. 3.2. Estrarre terminologia dai corpora: Prima di estrarre la terminologia dai corpora dobbiamo innanzitutto definire i termini. La principale distinzionee è tra termini semplici o complessi o fraseologie, in base al numero di parole: una parola è un termine semplice due o più parole formano una parola complessa mentre due o più parole in una struttura sintattica sono delle fraseologie.

Ci sono diversi strumenti per estrarre concretamente la terminologia dai corpora, come AntConc, TextStat, Wordsmith Tools ed altri. In questa guida è stato usato AntConc, uno strumento di concordance con molte funzionalità che può essere scaricato gratuitamente. 3.2.1. Analizzare i corpora con AntConc: Possiamo utilizzarlo per estrarre terminologia multilingue. Le principali operazioni sono:

• Creare una lista di frequenza: è la funzione basica che ci permette di individuare parole che

ricorrono in un corpus e anche di capire quanto è grande (da quante parole è formato);

• Calcola le keywords: le keywords ci permettono di individuare le parole che sono più frequenti

e che, quindi, sono più importanti nel dominio che stiamo indagando. Si ottengono comparando corpora specializzati con corpora (generali) di riferimento;

• Crea concordanze: questo strumento ci permette di cercare termini specifici (semplici e non)

nel corpus. Le concordanze vengono presentate come KWIC (Keywords in Context), quindi il termine cercato si trova al centro con elementi co-testuali alla sua destra e sinistra (e che vengono chiamati span). Per esempio, se prendiamo la parola “lesioni” potremmo avere come frase nelle KWIC “il paziente può presentare lesioni gravi su tutto il corpo”, in cui “lesioni” è la parola chiave (node word) mentre le parole a destra e sinistra sono chiamate span. “Lesioni gravi” (parola complessa) ha gravi come span (quindi lo span è 1 destra/1 right).Si può ottenere il risultato di KWIC anche cliccando sulle parole nella wordlist o keyword list;

• Fa collocations:le collocazioni (collocations) sono termini che ricorrono insieme, che AntConc

analizza usando diversi strumenti statistici;

• Genera N-grams: AntConc non dà solo informazioni sulle parole più frequenti in un testo ma

anche sui più frequenti gruppi di parole, tra ci si possono trovare termini complessi come “temperatura corporea”. Per ottenere una lista di questi gruppi di parole si deve generare una lista di n-grams. 3.2.2 Usare AntConc con il nostro corpora: Il principio di fondo di questa ricerca è di trovare la terminologia nella prima lingua e poi combinarla con i termini nelle altre due lingue. Bisogna aprire AntConc, cliccando su File e Open Dir. Cliccare su Wordlist e poi Start per creare la wordlist del corpus. Nella prima parte della wordlist troviamo una lista di parole di funzione, che sono le più frequenti in un testo. Per cercare le parole di contenuto (parole che hanno un contenuto semantico, p.e. Nomi, aggettivi, verbi), dobbiamo andare in fondo alla lista. Creando la wordlist, verremmo anche a conoscenza della grandezza del corpus. Il modo più efficace per cercare la terminologia specifica in un corpus specializzato è generare una keyword list. Per farlo, cliccare sulla barra Keyword List>Tool preferences > Keyword List. Assicurarsi che, sotto la voce Reference Corpus, “use raw files” è selezionato, poi cliccare su Add Files per selezionare il corpus di riferimento e poi Load per caricarlo. Infine, tornare indietro sulla barra della Keyword List e cliccare Start. Si otterrà una lista di parole di contenuto e, scendendo giù, si avranno parole che appartengono al dominio in questione e che potrebbero essere inseriti nel glossario. Continuiamo ad analizzare il corpus facendo alcune concordanze (concordances). Se, per esempio, vogliamo scoprire il motivo per cui la parola “pronto” è stata posizionata nella prima riga della keyword list: cliccare sulla parola “pronto”, generare una concordance (concordanze) e guardare i risultati. Così abbiamo evidenziato due parole vicino a “pronto”, una a destra e una a sinistra, cliccando su Sort; così capiamo che la parola significativa è “pronto soccorso” e non solo “pronto”. Per creare una lista n-grams, cliccare su “Cluster/N-grams”, assicurarsi che la casella N-grams sia selezionata, non cambiare la grandezza degli n-grams ( il valore di default è 2) e poi clicca su Start. Nella prima parte della lista N-Grams, avremo le parole più frequenti (p.e. Pronto soccorso,centrale operativa, primo soccorso) mentre se andiamo giù nella lista troveremo altre parole utili come “temperatura corporea” o “trattamento immediato”. Se cerchiamo di aumentare la grandezza degli n-grams, per esempio a 3, otterremo termini complessi “medicina d’emergenza”, “mezzi di soccorso”, “pericolo di vita”. Usare AntConc è molto facile e stimolante perché possiamo passare da una scheda all’altra cercando nuovi termini e scoprendo nuove potenzialità e soluzioni. Finita la ricerca, dobbiamo analizzare i nostri corpora comparabili (comporable corpora). Il modo migliore per individuare i corrispondenti delle parole già individuate nella lingua di partenza, è ripetere gli stessi passaggi nelle altre lingue; si può fare separatamente o in parallelo, facendo partire due volte il software. Così, si possono trovare traduzioni per i termini termini trovati nella lingua di partenza; se non sono presenti, si possono tradurre da soli e poi usare lo strumento delle

l'argomento cercato, con il rischio di commettere errori. Nel secondo caso, gli interpreti devono cercare le equivalenze con motori di ricerca e processarli manualmente per cercare soluzioni ai problemi terminologici. Nonostante questo approccio sembra avere dei vantaggi (facilità del sistema di ricerca, il fatto che l'informazione è processata in un contesto) richiede tempo e non restringe gli argomenti a un dominio specifico. Alcuni dei limiti dell'approccio classico possono essere superati con l'uso di corpora ad hoc, ossia una raccolta di testi simili di un determinato argomento in una o più lingue realizzato con uno scopo specifico in mente. La comparabilità fa riferimento alla similarità dei testi raccolti sia per argomento che per tipo di testo e genere; la definizione ad hoc sottolinea il fatto che sono stati realizzati per uno specifico lavoro. Rispetto alle altre risorse linguistiche, i corpora comparabili offrono un gran numero di vantaggi dando una maggiore varietà del materiale nella lingua di partenza e possibili traduzioni rispetto ai dizionari, restituiscono il gergo settoriale in maniera migliore e sono una fonte di informazione dinamica. Anche qui ci sono degli svantaggi: i testi non sono numerosi; i risultati possono essere originati da poche fonti e, quindi, possono essere distorti; gli interpreti lavorano sotto pressione e questo lavoro può apparire troppo dispendioso. Speech corpora nell'allenamento dell'interprete. Uno dei campi in cui l'uso dei corpora può essere diffuso è l'allenamento degli interpreti. Negli ultimi anni si sono cercati dei metodi per migliorare le competenze e l'esperienza degli interpreti come la deliberate practice di Ericsson, secondo la quale i compiti dovrebbero essere inizialmente difficili e che possono essere maneggiati con poche ore di esercizio, inoltre si è visto che il tutto è più efficace quando il lavoro è diviso in piccole unità. Una di queste è l'insieme delle competenze linguistiche che gli interpreti devono avere per migliorare le rese, esercitate e valutate durante le lezioni. Nonostante sia una buona pratica didattica, gli studenti dovrebbero utilizzare un approccio basato sui corpora in linea con il costruttivismo, secondo cui essi dovrebbero costruire la conoscenza da soli senza l'intervento unico del docente. In base al concetto di serendipità (Johns, 1988) per cui un termine porta a un altro, in base alle necessità e alle intuizioni degli utenti, gli studenti possono estendere la loro conoscenza del vocabolario aumentando la loro flessibilità linguistica. Fondamentali sono anche i corpora comparabili di discorsi originali, che sono trascrizioni di discorsi dei politici,scienziati etc etc. Ci sono molti vantaggi nell' usare questo tipo di corpora: contengono lo stesso materiale testuale che gli studenti sono chiamati a interpretare, rendendo la individuazione delle caratteristiche linguistiche più semplice; utilizzando testi non tradotti, gli studenti possono lavorare senza essere influenzati dal processo traduttivo; gli studenti possono trarre beneficio da questo tipo di testi che gli permette di approfondire la lingua e le competenze discorsive. Sfruttare corpora specifici del dominio. Per i professionisti, tipi di corpora molto utili sono quelli comparabili e quelli specifici di un dominio in cui ci sono testi che hanno a che fare con un dominio specifico ( p.e. bioenergia) mentre altri parametri come il genere possono cambiare (libro, pamphlet). La differenza principale tra i corpora e il materiale di riferimento generalmente usato dagli interpreti è la quantità dei testi e il modo in cui possono essere consultati (testi online o documenti digitali, possono essere consultati in maniera lineare mentre i testi contenuti in un corpus possono essere consultati in maniera non lineare con la ricerca inversa, partendo dalla terminologia o dalla fraseologia per arrivare alla struttura concettuale. Molti studiosi hanno sottolineato l'importanza e i vantaggi dei corpora comparabili specifici (processo di serendipità e interprete soggetto attivo). Creare corpora a hoc e l'estrazione dell'informazione linguistica. Ci sono molti strumenti che consentono una raccolta semiautomatica di testi da internet come BootCat, AntCorGer e SketchEngine. Sono programmi molto utili che però non sono stati sviluppati tenendo in considerazione le necessità degli interpreti, ciò crea delle difficoltà. Fantinuoli propone l'uso di CorpusMode, un programma gratis dedicato agli interpreti che automatizza il processo di ricerca di testi di riferimento estraendo informazioni da un corpus e analizzandole. Lo strumento utilizza i servizi cognitivi di Microsoft, in particolare Bing Web Search Api , per cercare documenti relativi a un dominio sul web. Scarica e trasforma i testi in corpora ad hoc, estrae la terminologia specializzata e le collocations, permette all'utente di esplorare il corpus con un concordancer dinamico. La procedura è semplice e inizia da una lista di parole chiamati seeds, tipici del dominio di interesse e per evitare che il sistema ricerchi testi non utili i seeds dovrebbero essere specializzati e inequivocabili. Per determinare le caratteristiche della costruzione del corpus l'utente può decidere altri parametri, come il dominio, la lingua, il formato e i numero dei testi che si devono scaricare. Una lista di URL viene presentata all'utente che decide decide manualmente quali tenere e quali eliminare. Alcuni test hanno mostrato che è

possibile costruire corpora di grandi dimensioni (80, 100 testi) ma la qualità potrebbe risentirne in quanto non supervisionati. Per quanto concerne l'estrazione terminologica, CorpusMode ha dei metodi di estrazione ibridi che combinano la conoscenza linguistica e le misure statistiche, utilizzando un algoritmo per ridurre il numero di costruzioni sbagliate e mantenere solo i termini specializzati e più frequenti (lo strumento assegna un tag a ogni parte del discorso, estrae tutti i termini candidati creando, infine, una lista di termini con delle frequenze statistiche ed euristiche per classificare i termini candidati e selezionare quelli più appropriati). Oltre alla lista dei termini, si può generare anche una lista di collocations e frequenza per ogni termine. Valutazione. E' stato condotto un test con le lingue inglese e tedesco per valutare la qualità del corpus e dei testi. L'argomento è stato scelto a caso da venti possibili temi, sono state estratte due liste di termini specializzati usando l'algoritmo e mantenendo le impostazioni di default. I seeds utilizzati sono stati ottenuti selezionando due termini specializzati nella ricerca su Wikipedia di biogas. Ai soggetti è stato chiesto di valutare l'attendibilità di dieci testi per ogni corpus ( un testo si definisce appropriato quando più del 50% dei soggetti lo valuta come "definitivamente appropriato " o "probabilmente appropriato "): la percentuale di accuratezza raggiunge l'84% per l'inglese e l'86% per il tedesco. I testi estratti sono stati divisi in tre gruppi in base ai livelli di specializzazione: i testi specializzati, i testi generali e i testi non completi. I risultati non sono stati completamente soddisfacenti perché il numero dei testi specializzati è basso e la lista finale dei termini candidati sembra sbilanciata verso le forme generali o incomplete. Si è visto che i dati del corpus presentavano molto "rumore" (p.e, sillabazione e linguaggio sbagliati). Tutto ciò ha un impatto negativo sulla qualità dei risultati. Conclusioni. I corpora devono essere allineati con le necessità degli interpreti soprattutto in termini di facilità di utilizzo, velocità e flessibilità (p.e.,invece di selezionare i seeds appropriati, si potrebbe definire il dominio del corpus indicando una ricerca su Wikipedia o su un sito particolare, così che la ricerca degli URL venga fatta in automatico; un'altra caratteristica è che la possibilità di inserire il metodo di allineamento per la lista dei termini monolingue estratti crei una prima bozza di un glossario bilingue). TECNOLOGIE PER L'INTERPRETAZIONE Speech Recognition in the Interpreter Workstation (Fantinuoli) Abstract. Negli ultimi anni, i CAI sono sono stati usati dagli interpreti professionisti per prepararsi, condividere informazioni ai colleghi e organizzare i dati. Una delle caratteristiche chiave di questi strumenti è la capacità di supportare gli utenti nell’accedere alla terminologia durante l’interpretazione simultanea mentre lo svantaggio principale è che si possono svolgere ricerca sul database manualmente, aumentando lo sforzo cognitivo nel processo interpretativo. Questo svantaggio può essere risolto automatizzando il sistema di ricerca attraverso l’uso dell’ASR, dato che ultimamente la qualità della AI ( intelligenza artificiale, Artificial Intelligence) è aumentata considerevolmente. Tuttavia, entrambi gli strumenti CAI e ASR hanno bisogno requisiti specifici: ASR deve essere completamente speaker-indipendent, deve essere reattivo e deve essere preciso nel riconoscimento del vocabolario specializzato; CAI devono supportare le varianti morfologiche e offrire nuovi modi di presentare dati estratti. Lo scopo di questo articolo è di analizzare un framework per l’integrazione ASR-CAI, presentare un prototipo e discuterne le prospettive di sviluppo. 1.Introduzione. Con i CAI attuali (2017), gli interpreti devono inserire manualmente un termine o una parte di esso per cercarlo; questo meccanismo di ricerca manuale è considerato il primo svantaggio di questo approccio perché svolgere questo compito durante la SI potrebbe creare distrazioni. Nonostante studi empirici abbiano dimostrato che gli interpreti in cabina hanno sia il tempo che la capacità mentale per fare una ricerca manuale, tuttavia un sistema automatico rappresentare e indubbiamente un passo avanti nella riduzione dello sforzo cognitivo, migliorando anche la resa dell’interprete nei testi specializzati.

• Ambiguità: il linguaggio naturale è ambiguo di sua natura, p.e. Omofonie come “cite” vs “site”

vs “sight” o difficoltà nel distinguere i limiti delle parole;

• Discorso continuo: uno dei maggiori problemi è riconoscere i confini tra le parole. Il discorso

non ha pause naturali tra le parole e questo può influire sulla ricerca automatica, dato che questa necessità delle corrette parole;

• Rumori di sottofondo: un discorso è pronunciato in un ambiente con la presenza di altri suoni.

Questa è una informazione non desiderata nel discorso e ha bisogno di essere identificata per essere eliminata. Nella SI questo problema non si pone ma in altri contesti, come gli incontri faccia a faccia, sì;

• Velocità del discorso:^ gli oratori possono parlare con diverse velocità, più alta o bassa, e ciò

rappresenta un problema sia per gli esseri umani che per l’ASR, dato che quando parlando velocemente gli oratori possono pronunciare male le parole;

• Linguaggio del corpo: gli esseri umani non comunicano solo con il discorso ma anche con la

postura, gesti, espressioni facciali e tutto ciò è completamente assente nel sistema ASR. Tuttavia, ciò non sembra giocare un ruolo importante nell’integrazione ASR e CAI, dato che lo scopo è quello di ricercare unità terminologiche e non “completare” un discorso. Ci sono diverse applicazioni per il riconoscimento del parlato che dipendono anche dai limiti che possono essere presenti, come il tipo delle frasi. Le soluzioni ASR si dividono in due sistemi: uno riconosce parole isolate (se le parole sono precedute e seguite da una pausa) mentre il secondo riconosce il discorso continuo (se le frasi sono pronunciate naturalmente e lo strumento deve riconoscere i confini delle parole). Questi due sistemi possono essere ulteriormente divisi sulla base della grandezza del vocabolario, spontaneità del discorso etc etc. Per essere usato con un CAI, l’ASR deve soddisfare i seguenti criteri minimi:

• Essere speaker- independent;

• Essere capace di gestire il discorso continuo;

• Supportare il riconoscimento di un vasto vocabolario;

• Supportare la personalizzazione del vocabolario e il riconoscimento di termini specialistici;

• Avere un’alta abilità performativa, p.e. Un basso margine di errore (WER);

• Essere veloce, p.e. Avere un basso fattore in tempo reale (RTF).

Sistemi ASR possono essere sia applicazioni standalone installate sul proprio computer (p.e. Dragoncelli Naturally Speaking) oppure si possono trovare su servizi cloud (p.e. Bling Speech API) ma, per ragioni di privacy, sono meglio i primi. Per quanto riguarda i CAI, questi devono soddisfare i seguenti requisiti:

• Alta precisione;

• Alto richiamo;

• Se si dare una priorità, la precisione la ha sul richiamo, per evitare di produrre risultati che non

sono utili all’interprete;

• Avere a che fare con le variazioni morfologiche senza aumentare il numero dei risultati;

• Deve essere graficamente semplice per evitare di distrarre l’interprete.

  1. Prototipo. Il prototipo descritto in questo studio è stato progettato e implementato nel framework di InterpterBank, Lo strumento legge la trascrizione data da un sistema ASR e automaticamente dà all’interprete le seguenti informazioni: voci del database terminologico e i numerali. Lo strumento è stato progettato con un’interfaccia aperta tra CAI tool e ASR; la struttura aperta, permette agli utenti di scegliere il sistema ASR con la migliore qualità di output nella lingua di partenza, il dominio e il sistema operativo, senza dover cambiare o adattare l’interfaccia CAI.Dato che lo strumento è basato su algoritmi language-independent, il prototipo supporta qualsiasi lingua. Il segnale acustico del sistema è lo stesso che gli interpreti ricevono in cuffia. La procedura di lavoro può essere divisa in due fasi principali: lo strumento legge la trascrizione fornita e pre- processa il testo; successivamente manda una ricerca nel database terminologico, cercando le parole dal testo, visualizzando i risultati in un’interfaccia creata apposta per l’interprete. Gli algoritmi si attivano per ogni pezzo di testo nuovo per poi normalizzare il testo. Quest’ultimo viene “tokenizzato” (segnato) per distinguere sezioni di una stringa di caratteri e produrre una lista di parole (tokens) contenute nel testo trascritto. I token vengono usati per cercare i numeri e le parole. L’approccio usato è basato sulla combinazioni di n-gram, che vengono poi combinati contro parole semplici e complesse; è stato implementato anche un fuzzy match che funziona bene con la maggior parte delle lingue europee e si spera che in futuro questo possa avvenire anche per le lingue agglutinanti.

Il sistema deve comunque essere migliorato sia dal punto di vista della precisione che della componente grafica. L’informazione viene divisa in tre sezioni, una per la trascrizione, una per la terminologia e una per i numeri. La visualizzazione appare in ordine cronologico e l’utente può impostare il colore di sfondo, la grandezza del font e usare i colori per indicare determinati parametri. L’arco di tempo tra il momento in cui la frase è stata detta e la sua visualizzazione dipende dalla velocità del sistema ASR e dalla sua latenza. 5.Valutazione. La qualità di un sistema CAI integrato con ASR dipende da due fattori: la qualità della trascrizione fornita dall’ASR e l’abilità del CAI di trovare ed identificare informazioni utili. Per lo scopo di questo articolo, sono state misurate i punteggi della precisione e di richiamo (recall) per l’identificazione della terminologia e dei numeri. Il test è stato condotto usando tre discorsi in inglesi pieni di terminologia specifica, riguardanti la l’energia rinnovabile. Il glossario bilingue era formato da 421 voci; il sistema doveva riconoscere 119 parole e 11 numeri. Nella tabella 1 si riporta la metrica testuale. Idealmente il sistema dovrebbe raggiungere un altro livello di recall, per cui sarebbe in grado di identificare le unità terminologiche indipendentemente da differenze ortografiche; oltre a questo, avrebbe anche un’alta precisione (pochi errori), assicurando che l’interprete non avesse risultati superflui. Nella tabella 2 si riporta la performance dell’ASR che si mostra molto efficace nel riconoscere le unità terminologiche, con un tasso di errore del 5,04% (prima era 10,92%). Nella tabella 3 si riportano i risultati della terminologia ricercata sul testo trascritto dall’ASR: il sistema è stato in grado di riconoscere 112 unità terminologiche su 119(94,11%) mentre i numeri sbagliati ammontavano a 3. Tra i termini mancanti/sbagliati vi erano i plurali complessi, i quasi sinonimi etc etc. La ricerca fuzzy è riuscita a identificare e correggere gli errori (p.e. Malting al posto di moulding). L’identificazione dei numeri non si è rivelata essere un problema né per gli ASR che nel i CAI.

  1. Conclusioni. Questo articolo aveva lo scopo di indagare come l’interazione tra un CAI e un ASR potevano migliorare il meccanismo di ricerca.Sebbene i modelli ASR non sono ancora perfetti raggiungono comunque un’alta precisione. L’integrazione ASR-CAI testata nell’esperimento ha raggiunto un valore F1 di 0,97 per la terminologia e di 1 per i numerali. Questo valore è promettente e sembra suggerire che l’uso di questa tecnologia è già possibile. Nel futuro, con la migliore qualità che ci si aspetta dall’ASR, ci si aspetta che questa tecnologia possa essere usata anche in contesti più difficili con pronunce sbagliate, rumore di fondo etc etc. Questi sistemi hanno il potenziale di cambiare il modo di interpretare ma bisogna fare ancora altre ricerche per capire se tali tecnologie possano essere a vantaggio o meno dell’interprete ( per il carico cognitivo). Computer-assister interpreting: challenges and future perspectives (Fantinuoli) Abstract. Negli ultimi anni, la tecnologia dell’informazione ha svolto un ruolo centrale nei settori di servizi linguistici, ci cui usufruiscono in particolare i traduttori e gli scrittori tecnici. Lo scopo principale è migliorare la qualità e produttività. Anche se la tecnologia dell’informazione non ha avuto lo stesso impatto sull’interpretazione di conferenza, la professione sta cambiando grazie ai CAI che hanno già influenzato il modo in cui gli interpreti lavorano. Questo processo potrebbe avere un impatto dal punto di vista cognitivo, anche sulle teorie e lavori più semplici. Il dibattito accademico sta prendono in considerazione solo ora questi cambiamenti e le loro implicazioni. 1.Introduzione. Negli ultimi anni, la tecnologia dell’informazione e comunicazione (ICT) ha avuto un ruolo centrale in molte professioni che relative alla lingua, tanto che traduttori e scrittori tecnici hanno tratto vantaggio da software duciate per riusare parti di testi o frasi già tradotte. Per quanto riguarda l’interpretariato, invece, l’ICT non ha avuto lo stesso impatto, come si nota dal fatto che le tecniche non sono cambiate durante gli anni. Inoltre, la professione ha subito cambiamenti importanti, soprattutto con la nascita del web che ha cambiato come gli interpreti preparano i lavori. I computer e i tablet in cabina permettono agli interpreti di guardare i materiali di riferimento e alla terminologia specializzata mentre interpretano; inoltre, l’interpretazione da remoto sta diventando sempre più diffusa.Tuttavia, molti praticanti hanno una visione negativa delle tecnologie per l’interpretariato, una tendenza che sembra essere presente anche nel dibattito accademico. Quando parliamo dell’ICT nell’interpretariato, bisogna differenziare le tecnologie in