Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Informatica Umanistica - Di Buono, Dispense di Fondamenti di informatica

Università degli Studi di Napoli L'Orientale (UNIOR)Fondamenti di informatica

Prof. Maria Pia Di Buono

File completo per sostenere l'esame di Informatica Umanistica con Di Buono. Lascia una recensione se il file ti è stato utile! :)

Tipologia: Dispense

2022/2023

In vendita dal 04/06/2023

madyum 🇮🇹

4.3

(4)

12 documenti

1 / 85

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

Informatica umanistica

1. Definizione

L’informatica umanistica (o Digital Humanities) è una disciplina nata a metà del 1950, con le prime

applicazioni di analisi testuale. Il nome fa riferimento al fatto che le scienze umane, ovvero le

cosiddette scienze molli, si stanno appropriando di strumenti informatici per produrre dei

software, delle applicazioni che servono a migliorare lo studio e l’accesso alle informazioni.

Abbiamo diverse definizioni di informatica umanistica:

• Costruzione e uso di tecnologie digitali avanzate e metodologie per condurre ricerca nelle

scienze umane;

• Usare i media digitali per esplorare, creare, analizzare e decodificare significati nei prodotti

culturali;

• Una maniera di esplorare un testo su livelli multipli, affinché vi sia una comprensione

perfezionata.

2. Obiettivi

Utilizzare le tecnologie informatiche per trasformare un oggetto analogico in formato digitale

(come l’OCR) non è l’unico compito delle Digital Humanities. Gli studiosi cercano soprattutto di

analizzare gli aspetti differenti di un testo, o di un altro oggetto delle scienze umane, attraverso

l’analisi letteraria o linguistica, che sono metodologie proprie delle scienze umane. È quindi una

coniugazione della testualità con l’informatica, intesa come scienza dell’elaborazione

dell’informazione.

Il compito delle DH è inserire i dati in una rete di conoscenza che permette di connetterli ad altri

oggetti della conoscenza, adeguandoli alle macchine. Bisogna quindi trasformare gli oggetti in

questione secondo delle regole ben precise, adottando il linguaggio delle macchine, ovvero quello

binario (in cui 0 è l’assenza di impulso e 1 è la presenza).

Esistono vari aspetti da tenere in considerazione:

• I metodi → la modalità dell’approccio computazionale a una fonte di informazioni che

riguarda l’analisi, il trattamento, l’elaborazione e l’uso da parte dell’utente;

• I modelli → i sistemi formali che sono più adatti a descrivere una sorgente di dati;

• I sistemi di formalizzazione → riguardano i linguaggi formali;

• Gli strumenti teorici, metodologici e tecnici → la realizzazione di sistemi informatici, che

possano trattare oggetti digitali complessi.

Convenzionalmente si utilizza il 1949 come anno di nascita di questa disciplina. Un ecclesiastico,

Padre

Roberto Busa,

decise di lavorare sulla

Summa Tehologiae

di Tommaso d’Aquino e in assenza

di computer, lo fece manualmente. Questo lavoro gli avrebbe occupato 30 anni della sua vita, e

c’era il rischio di incappare in numerosi errori. Per questo motivo, entrò in contatto con il

presidente IBM Thomas Watson, al quale chiese di utilizzare i calcolatori dell’IBM per terminare

quest’analisi, che riguardava circa 9 milioni di parole.

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

pf35

pf36

pf37

pf38

pf39

pf3a

pf3b

pf3c

pf3d

pf3e

pf3f

pf40

pf41

pf42

pf43

pf44

pf45

pf46

pf47

pf48

pf49

pf4a

pf4b

pf4c

pf4d

pf4e

pf4f

pf50

pf51

pf52

pf53

pf54

pf55

Scopri Dispense di Fondamenti di informatica Università degli Studi di Napoli L'Orientale (UNIOR)

Documenti correlati

Informatica Umanistica - possibili domande esame

Sbobine di Traduttologia generale con la Di Buono

(1)

Appunti corso Informatica umanistica

(2)

Appunti Prof Alessandro Buono

Letterature Francofone: Un'analisi comparativa e interculturale - Prof. Buono

arte 34 buono buono ,buono buono

informatica umanistica

La Cultura Polinesiana: Oralità, Identità e Letteratura - Prof. Buono

Le politiche linguistiche del Canada: una panoramica storica - Prof. Buono

DOMANDE TRADUTTOLOGIA PROF DI BUONO

(2)

Informatica umanistica

Tecnologie e Metodi di Traduzione Automatica: Un'Analisi Approfondita - Prof. Di Buono

Anteprima parziale del testo

Scarica Informatica Umanistica - Di Buono e più Dispense in PDF di Fondamenti di informatica solo su Docsity!

Informatica umanistica

1. Definizione

L’informatica umanistica (o Digital Humanities) è una disciplina nata a metà del 1950, con le prime applicazioni di analisi testuale. Il nome fa riferimento al fatto che le scienze umane, ovvero le cosiddette scienze molli, si stanno appropriando di strumenti informatici per produrre dei software, delle applicazioni che servono a migliorare lo studio e l’accesso alle informazioni. Abbiamo diverse definizioni di informatica umanistica:

Costruzione e uso di tecnologie digitali avanzate e metodologie per condurre ricerca nelle scienze umane;
Usare i media digitali per esplorare, creare, analizzare e decodificare significati nei prodotti culturali;
Una maniera di esplorare un testo su livelli multipli, affinché vi sia una comprensione perfezionata.

2. Obiettivi

Utilizzare le tecnologie informatiche per trasformare un oggetto analogico in formato digitale (come l’OCR) non è l’unico compito delle Digital Humanities. Gli studiosi cercano soprattutto di analizzare gli aspetti differenti di un testo, o di un altro oggetto delle scienze umane, attraverso l’analisi letteraria o linguistica, che sono metodologie proprie delle scienze umane. È quindi una coniugazione della testualità con l’informatica, intesa come scienza dell’elaborazione dell’informazione. Il compito delle DH è inserire i dati in una rete di conoscenza che permette di connetterli ad altri oggetti della conoscenza, adeguandoli alle macchine. Bisogna quindi trasformare gli oggetti in questione secondo delle regole ben precise, adottando il linguaggio delle macchine, ovvero quello binario (in cui 0 è l’assenza di impulso e 1 è la presenza). Esistono vari aspetti da tenere in considerazione:

I metodi → la modalità dell’approccio computazionale a una fonte di informazioni che riguarda l’analisi, il trattamento, l’elaborazione e l’uso da parte dell’utente;
I modelli → i sistemi formali che sono più adatti a descrivere una sorgente di dati;
I sistemi di formalizzazione → riguardano i linguaggi formali;
Gli strumenti teorici, metodologici e tecnici → la realizzazione di sistemi informatici, che possano trattare oggetti digitali complessi. Convenzionalmente si utilizza il 1949 come anno di nascita di questa disciplina. Un ecclesiastico,

Padre Roberto Busa, decise di lavorare sulla Summa Tehologiae di Tommaso d’Aquino e in assenza

di computer, lo fece manualmente. Questo lavoro gli avrebbe occupato 30 anni della sua vita, e c’era il rischio di incappare in numerosi errori. Per questo motivo, entrò in contatto con il presidente IBM Thomas Watson, al quale chiese di utilizzare i calcolatori dell’IBM per terminare quest’analisi, che riguardava circa 9 milioni di parole.

Precedentemente, anche Alan Turing, considerato padre dell’informatica moderna, utilizzò i

calcolatori. La sua opera iniziò a metà degli anni ’30 e lavorò sugli aspetti della crittografia (tecnica con la quale si codifica il linguaggio naturale con dei numeri o un linguaggio artificiale). Negli anni

’80 fu creato un linguaggio standard per il markup generalizzato (SGML). Questo linguaggio

diventa uno standard ISO, riconosciuto ufficialmente, quindi condivisibile. All’inizio degli anni ’ viene proposto il progetto per rendere in formato elettronico l’opera del Beowulf.

3. Word Wide Web

Il Word Wide Web nasce nel 1991 e diventa presto necessario diffonderlo, così come i PC. Questo avvento cambia drasticamente le DH, poiché aumenta la disponibilità di materiali accessibili a tutti. Abbiamo un passaggio dal Web 1.0 al 3.0 che si può riassumere in:

Web 1.0 – Content delivery → dal 1991 ai primi anni del 2000. In questa fase i contenuti sul

web sono statici, prodotti da una fonte top-down, ed è detta fase della consegna dei

contenuti (content delivery)

Web 2.0 – Sharing/User generated content → fase in cui l’utente, da ricettore passivo di informazioni, inizia a produrle. In questa fase nascono i blog e i social media.
Web 3.0 Semantic Web → dal 2010 fino ad oggi; è chiamato anche web semantico ed è ciò che si crea adesso, poiché si è in grado di processare certi contenuti.

4. AIUCD

L’ AIUCD (associazione per l’informatica umanistica e cultura digitale) ha il compito di diffondere la

riflessione metodologica e teorica, lo sviluppo di determinate pratiche, risorse e strumenti condivisi. Vengono studiati anche fenomeni che riguardano le culture digitali e l’analisi di modifiche nella comunicazione scientifica e infrastrutture di ricerca.

5. Linguistica computazionale vs informatica umanistica

“La Linguistica Computazionale è una disciplina scientifica e ingegneristica che ha a che fare con

la comprensione del linguaggio scritto e parlato da una prospettiva computazionale e ha a che fare

con la costruzione di artefatti che processano e producono in maniera automatica il linguaggio, in

diversi setting”.

Quando si parla di linguistica computazionale, si pensa a Harris che aveva scritto una grammatica dell’inglese su basi matematiche. C’è una vicinanza tra linguaggio naturale e matematica, perciò ne consegue la possibilità di processare il linguaggio attraverso dei simboli. La linguistica computazionale si occupa principalmente di creare regole descrittive del linguaggio naturale in modo da poterlo rappresentare in un formato adatto al suo trattamento (semi)automatico da parte delle macchine. La linguistica computazionale quando si intende che si occupa di linguaggio naturale (NLP) è costituita di due processi: fase di understanding (comprensione) e fase di generation (produzione): si crea conoscenza attraverso la comprensione del testo o del linguaggio; si genera linguaggio e si crea conoscenza che avviene in questo scambio tra understanding e generation; questo è proprio ciò che devono fare le macchine. la Linguistica Computazionale si basa sulla linguistica formale, ossia sulla rappresentazione e formalizzazione del linguaggio naturale; essa si incentra inoltre sulla matematica, sulla logica, sulle scienze cognitive e sull’informatica.

6. Apprendimento macchina

L’apprendimento macchina è un sistema per il quale le macchine a partire da dati conosciuti riescono a produrre nuova conoscenza. diamo alla macchina questi esempi, come l’utente potrebbe formulare una domanda per avere delle informazioni e a partire da questi dati la macchina dev’essere in grado di riconoscere dei dati nuovi mai visti. Quindi, si da un piccolo set di dati conosciuti che ci si immagina come prima ipotesi e si dice alla macchina: “questi dati significano questo”. Un importante contributo che ha dato la spinta alle Digital Humanities è la disponibilità di contenuti e di dati su cui lavorare. Esistono i cosiddetti “open data” che sono i dati aperti, cioè i dati prodotti

da istituzioni pubbliche e resi disponibili perché i dati aperti così come i dati giusti, “ fair data ”, fanno

parte di uno sviluppo sostenibile ed equo delle informazioni e della conoscenza.

Il Publication Office dell’Unione Europea, ha lanciato nel 2017 il Datathon, è una competizione basata sui dati. Il Publication Office mette a disposizione un portale di open data europei dove i provider, le istituzioni, forniscono le loro informazioni, L’Unione Europea poi li raccoglie tutti in un grande portale che si chiama Open Data Europa e li mette a disposizione dei ricercatori delle persone che vogliono utilizzarli.

7. Processamento base dei testi

Il processamento base dei testi si riferisce a delle operazioni preliminari che si effettuano su testo prima di procedere con analisi più specifiche relative a determinati task. Esiste un problema di lemmatizzazione e di forme di parola. Se noi produciamo una frase nel linguaggio naturale, Alexa

inizia con una lemmatizzazione. C’è un problema anche sulla lemmatizzazione e le Word Form, si è

fatta una distinzione dove, ad esempio, in una frase ci sono delle ripetizioni e ci si chiedeva come considerare le parole e dire quante parole ci sono nella frase se la parola è ripetuta. si è giunti alla conclusione in cui si afferma l’esistenza di una differenziazione tra il lemma e i lemmi e le Word

Form, dove le “Word Form sono la rappresentazione superficiale del linguaggio”, mentre il lemma

è la parte sotto, cioè la parte di significato. Un altro problema è quello dei Token, ovvero quanti Token ci sono in una frase e quanti Type ci sono nella frase e la differenza che esiste tra Type e Token, dove Type è l’elemento che si trova all’interno del vocabolario. I Token sono le istanze, ovvero la realizzazione di un Type all’interno del testo. Di conseguenza da un punto di vista linguistico probabilmente verranno chiamati “lemma” e Word Form”, e nella parte di trattamento automatico del linguaggio, si parlerà di token.

8. Corpora

La parola “corpus” ossia corpo, si riferisce a una raccolta di testi digitali. Quest’ultimi possono possedere alcune caratteristiche:

autore/i
momento storico
varietà (libro, romanzo, saggio)
lingua specifica
funzione Queste informazioni sono essenziali al fine di riuscire a contestualizzare le parole. Le caratteristiche da esso possedute influenzano la conoscenza, il linguaggio utilizzato e il tipo di trattamento a esso correlato. Il corpus è una raccolta in formato elettronico di materiale

linguistico. Il materiale linguistico ha lo scopo di servire da base per la ricerca linguistica. I testi pertanto vengono raccolti sotto forma di corpus, selezionando i dati di modo che siano rappresentativi di un fenomeno. I corpora possono variare in base alla:

lingua;
varietà → rilevanza di varietà linguistiche;
code switching → cambiamento di un codice, ossia il passaggio da una lingua ad un’altra che avviene dallo stesso parlante e si verifica maggiormente in culture di confine;
genere → fiction, articoli scientifici, romanzi;
informazioni demografiche → età, genere, etnia I corpora vengono suddivisi per mezzo del/della:
mezzo di veicolazione della lingua → corpora scritti o parlati (considerano l’asse diamesico come criterio di veicolazione della lingua)
la tipologia di testi→ generici o specialistici;
asse temporale → sincronici o diacronici;
numero di lingue → monolingue o multilingue; I corpora multilingui si dividono a loro volta in due tipologie:
comparabili → contengono lo stesso testo tradotto in più lingue;
paralleli → corpora allineati, posseduti da una stretta corrispondenza e contenenti un’informazione aggiuntiva. Un’unità traduttiva di una lingua viene posta a paragone con un’unità minima di significato dell’altro testo. Materialmente si ha la frase in una lingua e la frase nell’altra e sono messe vicino, quindi si riconosce quale unità di una certa lingua corrisponde all’unità nell’altra lingua. La differenza tra comparabili e paralleli è che in realtà si sa dove sta la traduzione, come se fosse un testo a fronte. Si sa precisamente che se si prende la prima frase in italiano, composta per esempio da 10 tokens, quella corrisponde a una frase in francese composta da 12 tokens. I corpora paralleli si usano per le traduzioni automatiche in quanto si sa precisamente che corrispondenza c’è. I corpora si usano per le “liste di frequenza”. Traggono informazioni su quanto frequentemente un lemma occorre all’interno di un testo. I numeri più elevati si riferiscono prettamente a parole funzionali. Altro aspetto fondamentale sono le concordanze, estraibili dal testo. Padre Busa difatti voleva studiare i concetti religiosi espressi da Tommaso D’Aquino. Con Clarin si fa riferimento a un’infrastruttura fisica, creata a livello europeo e poi sviluppata per ogni singolo paese, sia materiale che immateriale. Materiale perché devono esistere gli elaboratori che siano in grado di processarlo, immateriale perché esistono anche le risorse linguistiche. Il dato è accessibile in maniera non materiale attraverso questi portali. È un’infrastruttura digitale che offre dati, strumenti e servizio per tutto quello che riguarda le risorse linguistiche. I Token costituiscono il vocabolario di un certo testo, quindi il vocabolario è formato da un insieme di Type e la dimensione di questo vocabolario è dato dal numero di Type che ci sono. Ogni task di TAL richiede una normalizzazione del testo:
Tokenizzazione delle parole
Normalizzazione del formato delle parole
Segmentazione delle frasi

Si tratta di processi legati alla morfologia, perché per portare la parola alla forma base, al lemma, dobbiamo ricavare la radice, cioè la parte del lessema lessicale che porta il significato principale. Il parsing morfologico effettua questo processo: riconosce la parola, la scompone nel morfema lessicale (più piccola unità di significato che forma la parola) e nell’affisso grammaticale e riporta il tutto alla forma base. L’ultimo passaggio è quello della lemmatizzazione: si passa dal token al type, alla forma base. La

trasformazione nella forma base è resa possibile grazie al parsing morfologico, il processo

attraverso il quale i token vengono riportati alla loro forma di lemma, un processamento che avviene carattere per carattere. in un primo momento si punta alla tokenizzazione, dopodiché la parola viene analizzata carattere per carattere e viene individuata la radice. Il sistema dev’essere consapevole dell’esistenza di questi elementi, ed è per questo motivo che si devono dare delle regole in cui vengono descritti i vari affissi esistenti per tutte le parole in italiano.

10. Normalizzazione del testo

Il processo successivo è la normalizzazione, ossia la trasformazione dei token in un formato standard. Possono essere utilizzate diverse modalità per scrivere le stesse parole. Ad esempio, U.S.A. come acronimo è uguale a USA e bisogna normalizzarlo, cioè portarlo allo stesso tipo di forma superficiale. Si applica a tutti i testi, perché bisogna renderli uniformi prima di processarli. La normalizzazione si basa in genere sulla trasformazione di tutte le lettere maiuscole in lettere minuscole, perché il più delle volte c’è una tendenza da parte degli utenti a utilizzare le minuscole. Tendenzialmente si normalizza per uniformare il testo per alcuni tipi di applicazioni ci sono delle differenze, se si considera l’acronimo USA scritto in maiuscolo, fa chiaramente riferimento agli Stati Uniti. Se utilizziamo “usa” in minuscolo, esso può indicare il verbo usare. C’è, quindi, una differenza, per cui il processo di normalizzazione ha anche dei risvolti negativi, che risiedono anche nell’ambiguità del linguaggio. Per certi task è importante differenziare i caratteri maiuscoli da quelli minuscoli. Ci sono dei casi in cui la normalizzazione causa una perdita di informazioni. Ci sono una serie di soluzioni che possono essere adottate: si può non normalizzare, ma sono problemi che si risolvono con l’aggiunta di informazioni ulteriori, che possono essere relative a informazioni di tipo grammaticali, morfologiche o informazioni semantiche. Si può tokenizzare, normalizzare e poi utilizzare ulteriori informazioni per risolvere i problemi causati dalla normalizzazione.

11. Segmentazione delle frasi

Un altro problema riguarda la segmentazione delle frasi, perché se bisogna processare un testo si deve anche capire come riconoscere le frasi, oltre che le parole, perché le frasi sono separate da segni che non sono spazi bianchi, ma segni di punteggiatura. Anche questo crea problemi, ma ci sono anche delle soluzioni. Generalmente si utilizza un dizionario di abbreviazioni o una lista di acronimi. Questi si danno alla macchina e si trasformano in una sorta di algoritmo, una serie di istruzioni che vengono date come sequenza per raggiungere uno scopo, per compiere un’azione. Sono una forma descrittiva di come un’azione deve essere compiuta. Bisogna rappresentare il testo in qualche modo per permettere alla macchina di processare questo testo e questa rappresentazione si deve basare sui linguaggi formali.

12. Linguaggi formali

Con linguaggio formale si intende un insieme di stringhe costruite sopra un alfabeto, cioè sopra un insieme di oggetti tendenzialmente semplici che vengono chiamati caratteri, simboli o lettere. Sovente si suppone che l'alfabeto sul quale è costruito il linguaggio sia un insieme finito. La teoria dei linguaggi formali nasce negli anni ’50 nell’ambito della linguistica, ed è utilizzata come modo per comprendere e descrivere le regolarità dei linguaggi naturali. Ci sono degli aspetti, delle regolarità del linguaggio che possono essere descritti come combinazioni di caratteri, prima di arrivare a parlare di significati si ha un insieme di caratteri che possono essere combinati in stringhe e questi sono effettivamente degli oggetti. La teoria dei linguaggi formali considera un linguaggio come un oggetto matematico. In linguistica ci sono molti altri tentativi di descrivere un linguaggio su base matematica, proprio perché gli studi linguistici tendono ad analizzare il linguaggio anche in maniera generale oppure a generalizzare sulle modalità di funzionamento di un linguaggio. Un linguaggio può essere definito come un set di stringhe, a partire da un alfabeto finito. Questo set di stringhe è presumibilmente infinito poiché non vi è effettivamente un limite alle combinazioni che possiamo fare tra i diversi caratteri per formare le parole, ma nella realtà questo set di stringhe è finito ed è anche definito da un vocabolario. nella crittografia si associa un numero a una lettera, quindi i numeri si concatenano in sequenza per formare una parola. Ad esempio, si potrebbe dire che:

C = 1
A = 3
S = 5 Per scrivere la parola “casa” bisogna scrivere 1353. Al posto dei numeri, ovviamente, si possono associare alle lettere anche dei simboli, degli oggetti, si tratta di una semplice forma di rappresentazione: Ogni stringa concatenata dai simboli è chiamata “parola”. Le parole appartengono ad un particolare linguaggio formale e vengono chiamate “well-formed words” oppure “well formed formulas”, dove il termine “formula” si utilizza per distinguerle dalle parole del linguaggio naturale. Vengono definite “ben formate” per fare riferimento all’accettabilità della parola creata, quindi la parola è ben formata secondo le regole del linguaggio. I linguaggi formali sono usati per analizzare i linguaggi umani, soprattutto con un approccio generativo, perché si definiscono un set di regole per esprimere una grammatica in base alla quale ogni frase di un linguaggio può essere costruita. La formazione e la combinazione delle frasi sottostanno a tutta una serie di regole grammaticali. La grammatica viene utilizzata per descrivere la forma delle frasi, “sintassi” nel linguaggio naturale, mentre nel linguaggio formale riguarda le regole di combinazione delle stringhe di caratteri.

Famosa è la frase di Chomsky “Colorless green ideas sleep furiously”. È un esempio utilizzato per

dimostrare che la correttezza sintattica non implica che la frase sia dotata di significato, restando pur sempre una frase grammaticalmente corretta. Il problema di questa frase è che, pur essendo grammaticalmente corretta (well-formed), in realtà non significa nulla, non ha un significato. Ciò porta a dire che, attraverso il linguaggio formale, rappresentiamo delle informazioni che sono prettamente grammaticali, ma in realtà non stiamo ancora rappresentando i significati.

13. Gerarchia Chomsky - Schützenberger

La gerarchia di Chomsky-Schützenberger descrive quattro classi di linguaggi formali, corrisponde a un tipo di grammatica e a un tipo di analizzatore automatico, quindi un parser. Un parser verifica se una parola o una frase appartengono o meno a un linguaggio, verifica se le regole del linguaggio

macchina l’istruzione di considerare entrambe potrebbe essere mettere la s tra parentesi tonde. Quello che bisogna fare è quindi ricavare l’elemento comune tra queste due sequenze di caratteri e utilizzare dei simboli per segnalarlo alla macchina, segnalando la presenza di un ulteriore carattere che le distingue. Facciamo ciò se si vuole vedere quante volte occorre questa parola all’interno di un testo. Se si volessero recuperare sia “woodchuck” che “Woodchuck”, bisognerebbe dire alla macchina che il carattere iniziale è lo stesso, ma può essere sia maiuscolo che minuscolo: lo si fa inserendo tra parentesi quadre entrambe le forme. ( es. [wW]oodchuck) Se si volesse invece recuperare tutte e quattro le parole elencate, bisognerebbe comunicare alla macchina [wW]oodchuck(s) → unendo due tipi di informazioni. Attraverso l’uso delle espressioni regolari si fa un’astrazione, cioè dai caratteri si va verso una forma di rappresentazione delle informazioni più astratta. Il simbolo ^ (carat) indica che non deve essere trovato quanto segue all’interno delle parentesi quadre. Per cercare dei sinonimi si usa il simbolo | (pipe). Si parla in questo caso di disgiunzioni.

15. Annotazione del testo

Bisogna annotare un testo perché le parole tokenizzate non stanno portando altre informazioni, sono solo sequenze di caratteri. Nel momento in cui si desidera processare un testo che ha delle

parole che portano un significato, tra gli obiettivi per cui si annota c’è l’ analisi linguistica e l’ analisi

testuale. Si fa riferimento a dei processi automatici con l’analisi linguistica, ad esempio se si

dispone di un testo in formato digitale che contiene una serie di informazioni, queste ultime possono essere processate in maniera automatica con l’analisi testuale. Un altro motivo è la creazione di risorse linguistiche, una serie di risorse di diverso tipo, che possono essere database, basi terminologiche e corpora che contengono una serie di informazioni sul testo. Attraverso l’annotazione si può inoltre recuperare ed estrarre una serie di informazioni; nel momento in cui si annota si possiedono delle informazioni sul testo e attraverso queste annotazioni è possibile recuperare altre informazioni all’interno della rete di conoscenza. Infine, si usa per l’addestramento dei sistemi di machine learning. Alla macchina vengono fornite una serie di parole, i dati di esempio, e su quello deve essere fatto l’addestramento. Dopodiché la macchina sarà capace di riconoscere dei dati che non ha mai visto e quindi classificarli.

Esistono tre tipi di annotazione: le annotazioni informali, le annotazioni formali, e le annotazioni

ontologiche.

Le annotazioni informali non sono legate a un linguaggio formale;
Le annotazioni formali sono fatte utilizzando un linguaggio formale e quindi in un formato

machine readable;

Le annotazioni ontologiche sono anche queste in formato machine readable ma sono basate su delle rappresentazioni concettuali, le ontologie. In senso informatico sono la rappresentazione di un concetto e vengono utilizzate perché la rappresentazione di un concetto è condivisibile tra esseri umani e risulta maggiormente condivisibile rispetto ad una rappresentazione linguistica. All’interno del testo può essere rilevante identificare quale sequenza di carattere rappresenta, ad esempio, una persona. Tendenzialmente si fa manualmente almeno per i dati iniziali. c’è la parte in

cui queste etichette sono convertite in un linguaggio formale, machine readable, e lo si capisce dal fatto che ci sono dei collegamenti. È possibile annotare i morfemi, le parole, i gruppi di parole, frasi, paragrafi e testi completi e dunque tutto ciò che è all’interno del testo, a partire dall’unità più piccola: il morfema. In alcuni casi si può annotare soltanto una parte della parola e via salendo di grado; il morfema è la parte più piccola, le parole e i gruppi di parole sono intermedi e poi paragrafi e testi completi sono i livelli più alti di annotazione. Se si volesse annotare una frase per indicare se sia una frase con un sentimento positivo o un sentimento negativo, dovrà essere preso tutto il blocco. A livello di annotazione linguistica esistono diversi livelli che si possono identificare e che riguardano tutti gli aspetti di analisi linguistica. Possiamo annotare gli aspetti di sintassi e dunque le parole per selezionare il verbo, il nome e fare un’analisi linguistica testuale, oppure per vedere un autore come e quante volte utilizza i nomi o che utilizzo si fa dell’aggettivo. È possibile annotare anche gli aspetti di fonologia e fonetica quando si tratta di trascrizioni del parlato, il lessico, il discorso così come la pragmatica e la struttura del testo. Tutto quello che costituisce un’analisi linguistica può essere annotato in un testo. Se si parla di cosa sono le hate speech detection si hanno la lecture di un intented speaker, e in questo caso l’annotazione iniziale che si deve fare per riconoscere questi dati è un’annotazione di tipo semantico e si fa a livello di frase a cui viene assegnata una polarità positiva o negativa. Può essere una frase discriminante oppure le viene assegnato un valore neutro, o addirittura un valore positivo come a indicare che quella frase non contiene messaggi d’odio. Se si dicesse “brutti bastardi questi razzisti” non si starebbe scrivendo una frase d’odio, anzi il contrario, però se si facesse un’annotazione a livello di parola comparirebbero una serie di parole negative e quella frase verrebbe associata a un sentimento negativo. Vi è una lista di diversi fenomeni linguistici che possono essere annotati, i quali sono identificabili come task difficili, task più facili e task più difficili. Un esempio molto in voga è quello della co-referenza, cioè l’utilizzo di un elemento come il pronome relativo “che”, il quale fa riferimento a un altro elemento all’interno

della frase. Per evitare ripetizioni, nella frase “Ho sentito Mario che mi ha detto che verrà stasera”

quel “che” prima di “mi ha detto” è un elemento co-referente con la parola Mario. Per le macchine è molto difficile riconoscere quell’elemento a che cosa fa riferimento, mentre per un parlante è chiaramente facile riconoscere nel filo del discorso se il primo che è un elemento che si riferisce a una persona o che introduce una dichiarativa. Si creano dei dati che possono essere messi a disposizione della macchina per la fase di apprendimento o che possono servire anche a noi per certe analisi automatiche o semi automatiche che possiamo fare, però esistono dei task che possono essere molto più difficili, come ad esempio l’assegnazione di un valore positivo o negativo ad una frase e dunque il “maledetti razzisti” può essere sia una frase positiva che negativa; i dati sono fatti da esseri umani e ci sono una serie di task che riguardano anche le opinioni o la soggettività, quindi, sono soggetti ad annotazione anche dagli annotatori il che può creare dei problemi. Elementi che sono molto più difficili da annotare, come ad esempio il sarcasmo, l’ironia, che tra l’altro è una cosa culturalmente legata e può essere ad esempio valida per un soggetto, ma non per un altro. Esistono le annotazioni informali, perché tendenzialmente non sono machine readable e non sono condivisibili in una situazione più ampia, il trattamento dei testi che bisogna fare è dunque un trattamento automatico o semiautomatico, ma che permetta anche ad altri di utilizzare questi dati.

flessibile, , dice che gli elementi possono essere creati a discrezione di chi sta utilizzando quel linguaggio. Non si devono necessariamente utilizzare etichette esistenti, ma possono essere personalizzate, quindi per esempio, se si vogliono identificare certi elementi in un testo, anche elementi extra-testuali, lo si può fare definendo dei tag all’interno del linguaggio XML e utilizzando questi ultimi. Questi linguaggi sono quelli che permettono di condividere informazioni con altre persone. Ovviamente si considera che, se si utilizzano etichette personali, è chiaro che la macchina, anche se addestrata, può sbagliare. Se si mettono delle annotazioni su un testo senza adeguarsi a certi schemi, ovviamente poi non è detto che questo testo sia comprensibile anche in altre situazioni.

16. Text Encoding Initiative (TEI)

Questi linguaggi di marcatura sono estremamente importanti perché hanno dato vita ad altre iniziative come la TEI (iniziativa di codifica del testo). La TEI è un’iniziativa estremamente importante perché è la prima iniziativa che ha creato delle linee guida per classificare e inserire una serie di informazioni sui testi digitali. All’interno di un testo c’è un titolo, che è una sequenza di caratteri e poi di parole che rappresenta il titolo del libro, oppure, la parte in cui viene fatta la dedica. Quando poi si va a processare il testo con una macchina queste informazioni possono tornare utili, ad esempio se si vuole vedere se un autore ogni volta che ha scritto il libro, lo ha dedicato sempre alla stessa persona; oppure se si vuole vedere se la casa editrice Feltrinelli nelle sue edizioni economiche ha sempre una prefazione del traduttore. Quella potrebbe essere un tipo di analisi e queste informazioni devono essere aggiunte su un testo digitale inizialmente attraverso l’annotazione manuale e attraverso gli elementi della TEI che permettono di conoscere questi aspetti. Se si vuole organizzare un task di annotazione, l’annotazione inizialmente è manuale, anche per quella che poi viene fatta automaticamente dalle macchine in un secondo momento, però i dati iniziali sono a opera degli umani. Si ha uno schema proposto nel 2013 da Pustejovsky e Stubbs che viene chiamato Ciclo MATTER. Le MATTER sono le iniziali delle diverse fasi: una fase del modello/modellazione, una fase di annotazione, una fase di training, una fase di test, una fase di valutazione e una fase di revisione e poi si ricomincia. Il ciclo è circolare, perché alcuni task sono difficili da svolgere come annotazione ed esistono certi aspetti che sono soggettivi, per cui non sempre i modelli sono adeguati.

Model - Obiettivo dell’annotazione (cosa annotare per quali risultati) e valutazione di aspetti preliminari/Definizione dello schema di annotazione

Annotate - Definizione delle linee guida/Costruzione del corpus da annotare/Scelta degli strumenti di annotazione/Annotazione di prova/Selezione e addestramento degli annotatori/Annotazione & Discussione dei casi dubbi
Train - processo relativo ai sistemi di machine learning
Test - processo relativo ai sistemi di machine learning
Evaluate - Valutazione del sistema di ML e dell’inter-annotator agreement
Revise - Revisione dell’intero processo La parte di modellazione è praticamente quella in cui si decide cosa annotare, per quale motivo e con quali risultati. Uno schema di annotazione affidabile è un fattore importante per il successo del processo. Dipende dall’obiettivo e comprende: ◦ una teoria linguistica ◦ creazione o adozione di un modello astratto relativo al fenomeno sotto osservazione ◦ specificazioni relative al formato di annotazione ◦ linee guida che servono agli annotatori per applicare il modello e le specificazioni È talvolta necessaria una fase di annotazione di prova per verificare e validare lo schema adottato. Una volta trovati gli obiettivi bisognerà cercare la parola o gli aggettivi. La fase di modellazione in realtà consiste in prima istanza in una ricerca su internet perché esistono diversi modelli di schemi e se esistono già non c’è bisogno che ci si applichi per creare uno schema. Dopodiché c'è la fase di annotazione, in questa fase si devono definire le linee guida. Si costruisce quindi un corpus da annotare, lo si costruisce mettendo insieme dei testi che possano essere rappresentativi del fenomeno. Per costruire il corpus da annotare bisogna:
Raccolta di testi o individuazione di un corpus già esistente
Formato dei file
Decisioni riguardanti la correzione o meno di errori ortografici presenti nel corpus
Valutazione di una eventuale fase di pre-processing del corpus: ad es. Se bisogna annotare solo le preposizioni di un testo è necessario in italiano una fase di pre-processing in cui si scompongono le preposizioni articolate. Il corpus è una raccolta digitale di testi di qualsiasi tipo e lunghezza che può essere caratterizzato da certe caratteristiche, quindi si costruisce il corpus da annotare come rappresentativo del fenomeno che si vuole rilevare, scegliendo gli strumenti per l’annotazione (che non si fanno a mano, ma con una serie di tool: FoLiA, GATE, Annotate. L’annotazione non viene fatta da una sola persona, ma sono più persone a farla. Si selezionano le persone che devono fare l’annotazione, questo perché servono determinate caratteristiche, infatti se il task è particolarmente soggettivo c’è bisogno che chi fa l’annotazione abbia certe conoscenze. Ad esempio, se si volessero annotare le categorie sintattiche dell’italiano non si potrà prendere un parlante nativo americano, ma italiano. Queste persone devono essere addestrate, deve essere spiegato cosa devono annotare, quale modello devono utilizzare e che informazioni bisogna raccogliere. Si fa poi una fase di annotazione di prova per vedere se gli annotatori hanno capito che cosa bisogna fare. Ci sono poi altri processi che vengono fatti rispetto all’annotazione perché si fa l’addestramento e capita un caso che non era stato previsto, perché il linguaggio non è un sistema finito e non si possono prevedere tutti i casi. La fase di training e di test è una parte relativa soprattutto al machine learning. La parte di training è la parte in cui si addestrano le macchine, quindi dopo l’annotazione umana, questi dati si danno alle macchine per far vedere quali sono gli esempi da utilizzare e dopodiché si fa il test, cioè si dà

annotare quello come aggettivo quando eventualmente è un nome utilizzato in funzione di aggettivo, quindi, è l’etichetta a essere sbagliata. Esiste anche il caso in cui non viene annotato un elemento che doveva essere annotato. Esistono task oggettivi e soggettivi, dove i più semplici sono quelli oggettivi. Un esempio è il POS tagging (part of speech tagging), cioè l’annotazione delle categorie grammaticali. Se un’annotazione non risponde il 100 % vuol dire che gli annotatori umani non sono in grado di avere un accordo al 100% su quali sono le categorie grammaticali. Quando andiamo sul significato delle parole l’accordo scende al 70% (fino al 70% c’è accordo, oltre no). Il risultato di un’annotazione di

questi tipo crea dei dati discordanti. Ad esempio: annoto la parola cane come nome all’interno di

un testo e un altro annotatore annoterà la parola cane con un’altra etichetta perché quello

secondo lui è un verbo. Significa che stiamo dando alla macchina dei dati non congruenti, non coerenti. Nel caso di una annotazione a più mani è necessario calcolare il grado di IAA. Il grado di accordo tra gli annotatori stabilisce anche il grado di qualità/affidabilità della risorsa annotata, ovvero se gli annotatori prendono coerentemente le stesse decisioni. Si calcola l’agreement, cioè l’accordo. L’inter-annotator agreement è un calcolo, è una formula matematica che si fa anche in modo automatico. Esistono dei tool per calcolarlo, per vedere quanto gli annotatori sono d’accordo sulle annotazioni, cioè quanto due o più annotatori utilizzano la stessa etichetta per annotare un certo elemento. Il grado di accordo si può stabilire in vari modi:

Un set di dati viene annotato da un singolo annotatore con delle verifiche fatte in modo casuale (≈ seconda annotazione)
Un set di dati viene annotato da due o più annotatori (procedura generalmente usata)
Un set di dati viene annotato da due o più annotatori - segue una fase di riconciliazione da parte di un super-annotatore (esperto) Si utilizza un set di dati identico (mentre per il resto del task ognuno annota dati diversi). Per vedere se c’è un accordo su come va fatta quest’annotazione, si prende quindi un piccolo set di dati che sono uguali per tutti gli annotatori e vengono annotati. Ogni annotatore annota quei dati e poi si vanno a comparare e si vede se all’interno della stessa frase hanno annotato tutti la stessa cosa, come elementi selezionati e come etichetta. L’accordo serve a dimostrare se c’è accordo o meno su quello che bisogna annotare e come. Si può fare in diversi modi: il primo è quando c’è un singolo annotatore, però generalmente questo sistema non si usa perché un unico annotatore produce bias. Bisogna essere certi che le informazioni che si stanno annotando siano valide anche per altre persone. Il secondo caso che è quello più comune: un set di dati viene annotato da due o più annotatori e poi si va a fare questo calcolo automatico per vedere se si sono capiti su quello che stanno annotando e come. Poi un terzo caso in cui si fa un’annotazione con due o più annotatori e un utente umano dirime i dati dove c’è divergenza (c’è un terzo annotatore esperto). Tutto questo serve per proseguire nelle fasi di annotazione successive. Ci sono vari modi per calcolare l’IAA tra 2 annotatori:
Precision
Recall
F-measure
Cohen’s kappa Ci sono diversi sistemi per calcolare l’accordo tra gli annotatori. Ad esempio, le cosiddette precision, che è la precisione e il recall, cioè la quantità di dati richiamati. C’è anche Il mix di queste due, che dà la cosiddetta misura F (anche F1 o F1 score) o ancora un’altra formula che si chiama

Cohen’s kappa. L’accordo tra annotatori è quello che rende valide le annotazioni. Al di sotto di certe cifre non si presentano i dati. Il calcolo dell’accordo tra annotatori si fa con una serie di calcoli che permettono di dire quanto due o più annotatori concordano sul fatto che quella porzione di testo sia una certa informazione. La Precision calcola la qualità delle annotazioni effettuate: la precision e recall sono due concetti che non si usano solo per l’annotazione, ma anche per i motori di ricerca, cioè il calcolo della precision, del recall e poi della misura F, in realtà sono dei valori che si usano in tante situazioni per vedere la quantità e la qualità delle informazioni, Ciò significa, per le annotazioni, quante annotazioni corrette ci sono rispetto al numero totale di annotazioni eseguite. Il recall invece va rispetto alla quantità, cioè numero di annotazioni corrette eseguite su numero totale di annotazioni corrette attese, cioè su 1000, se ne sono fatte 90 corrette, ma dovevano essere 110.

17. L’inter-Annotator Agreement (IAA)

Il grado di accordo tra gli annotatori si calcola su un sottogruppo di dati totali per vedere se gli annotatori interpretano allo stesso modo i dati linguistici da annotare. Due annotatori annotano un set comune di dati, se si ha un set di 10 mila frasi da annotare, ogni annotatore dovrebbe annotare 5 mila frasi diverse, però per controllare che il modello e il sistema di annotazione sia chiaro si effettua il calcolo dell’accordo. Si prende un piccolo set e vengono annotati due volte, cioè da entrambi gli annotatori, su queste annotazioni si calcola quanto gli annotatori siano d’accordo cioè si va a vedere se abbiano selezionato le stesse parole, se abbiano applicato la stessa categoria. Per esempio, se si parla di annotazione sintattica con le classi grammaticali, si possono considerare una frase dove c’è una parola ambigua che può essere un nome o un verbo. Questo calcolo permette di vedere quanto concordano i due annotatori e se il modello di annotazione sia chiaro. Quando il modello non è chiaro si andrà a vedere i casi dubbi, cioè dove gli annotatori hanno annotato in maniera diversa. Si danno una serie di informazioni agli annotatori per distinguere questi casi, ad esempio se prima c’è un articolo. Le indicazioni che vengono date agli annotatori sono molto specifiche sia per il task che per la lingua, non esistono delle regole assolute che possono essere applicate a tutte le lingue o a tutti i task. L’accordo è importante perché è quello che ci dà il valore dei dati annotati. Al di sotto di un certo grado di accordo tra gli annotatori il dataset non è considerato valido e si deve annotare di nuovo, in generale un agreement corretto è tra il 60% e il 70%. Si va ad inserire:

Un valore su quando entrambi gli annotatori sono d’accordo sull’annotazione
Un valore su quando entrambi gli annotatori decidono di non annotare
I casi in cui solo il primo annotatore ha deciso di includere l’annotazione
I casi in cui solo il secondo annotatore ha deciso di includere l’annotazione Quando si va a eseguire il calcolo, ci sono dei valori di riferimento:
0.01 – 0.20 accordo basso (non viene preso in considerazione)
0.21 – 0.40 accordo giusto
0,41 – 0,60 accordo moderato
0,61 – 0,80 accordo sostanziale
0,81 – 1,00 accordo quasi perfetto o perfetto Di solito il valore di riferimento che si può considerare valido è 0,60, però dipende dai casi perché per dei casi molto semplici lo 0,60 non basta, così come per task più complicati ci si può

◦ Nomi e verbi nuovi come iPhone or to fax Ci sono delle parole che possono essere a metà tra la classe aperta e la classe chiusa ad esempio gli ausiliari che vengono considerate parole funzionali ma inizialmente appartengono ai verbi e quindi dovrebbero essere nella classe aperta. Il PoS Tagging consiste nell’assegnare una part-of-speech a ogni parola in un testo, cioè ad una categoria grammaticale. Viene considerato un task di disambiguazione perché le parole hanno spesso più di una part-of-speech. Esempio: in inglese, “book” può essere un nome o un verbo. E in questo caso la differenza tra verbo e nome non è data dalla posizione della parola, ma dal contesto frastico. Da un punto di vista della macchina, questa deve mappare da una sequenza di parole X1, ..., Xn (a seconda di quante parole ci sono nel testo) a una sequenza di Y1, …, Yn di PoS tag, che corrisponde al numero di parole. Il PoS Tagger associa ad ogni parola la categoria grammaticale.

Esiste un Tagset delle Universal Dependencies, ovvero un set di etichette che contrassegna le

principali categorie grammaticali. È stato creato nel 2016 ed è uno dei più utilizzati. È chiamato Universal Dependencies perché fa riferimento a degli universali linguistici comuni a tutte le lingue. Per determinate categorie, è necessario essere più specifici per descrivere il linguaggio in maniera precisa. Un esempio sono i verbi con gli ausiliari, che sono delle sottocategorie. Tra le varie categorie abbiamo:

PROPN = Proper Noun, ovvero nome proprio. C’è una differenziazione, perché è importante riconoscere non solo che una determinata sequenza di caratteri sia un nome. Ad esempio, se si sta parlando di una persona o un oggetto, è necessario sapere se si tratta di un nome proprio o comune.
X = Other (altro) racchiude anche i typo, cioè errori di ortografia, parole nuove o, in generale, casi che non sono stati previsti. Il PoS Tagging può essere utile come task di TAL per:
Parsing sintattico dei testi.
Traduzione automatica: ad esempio, nelle traduzioni inglese-italiano, identificare una parola come aggettivo permette di effettuare l’inversione aggettivo-nome.
Task di Sentiment Analysis: valutare un atteggiamento di un utente verso un oggetto o un argomento e distinguere gli aggettivi rispetto ad altre part-of-speech.
Sintesi dal testo al parlato (Text-to-speech) o viceversa. Anche per task di analisi computazionali linguistiche o del linguaggio, per capire come si evolve il linguaggio stesso. In inglese, circa il 15% delle parole (word type) sono ambigue. Quindi l’85% delle parole non lo sono. La problematica è che questo 15% include parole molto comuni. Back à Può essere usato come aggettivo, nome, verbo, avverbio, participio. Questo crea problemi nella tag accuracy, cioè nell’affidabilità del PoS Tagging. Per l’inglese, l’agreement massimo raggiunto è del 97%. il numero di riferimento (baseline) per il PoS Tagging inglese è più basso, è del 92%. Questo perché la baseline più utilizzata consiste nel taggare ogni parola con il suo tag più frequente e ogni parola sconosciuta come nome. Per esempio, considerando “back”, può avere cinque diverse etichette, secondo questo principio, la macchina applicherà l’etichetta che avrà una frequenza più alta a livello statistico nei corpora. in caso di refusi, questi vengono classificati come nomi, quando in realtà sono altro. Tali elementi influenzano i valori di correttezza e per questo motivo la percentuale si abbasserà.

Per provare a risolvere tali problemi e migliorare l’accuratezza è possibile inserire informazioni aggiuntive per disambiguare. Ci sono tre fonti di informazioni che servono per migliorare questo valore di accuratezza nel PoS tagging. Innanzitutto la probabilità apriori secondo cui una certa parola presenta un certo tag (will è generalmente un avverbio); altra fonte sono le ide si fa la differenza fra gli algoritmi supervisionati (Supervised Machine Learning Algorithsms) e non supervisionati (Unsupervised Machine Learning Algorithsms). Gli algoritmi supervisionati sono così chiamati perché hanno dei dati iniziali di riferimento che servono per apprendere e riconoscere i nuovi dati; quelli non supervisionati, al contrario, non hanno dati di esempio. Possiamo quindi dire che tutte queste operazioni di trattamento automatico del linguaggio sono semi-automatiche perché c’è sempre una fase iniziale in cui vengono prodotti dei dati iniziali da umani e poi ci sono gli algoritmi supervisionati che lavorano e apprendono a parte da quei dati. ntità delle parole vicine; vi è poi la morfologia e le forme di parole.

19. Named Entity Recognition (NER)

Per distinguere i nomi propri esiste un task, quello del riconoscimento delle entità nominate. Le

entità nominate ( named entity) indicano qualsiasi oggetto del mondo reale che è dotato di un

nome proprio. I tag più comuni sono: PER (person) per indicare la persona LOC (location), ORG (Organization) per le organizzazioni, GPE (Geo-Politcal Entity) per le entità geopolitiche. Il task di Named Entity Recognition (NER) trova porzioni (span) di testo che costituiscono un nome proprio e tagga il tipo di entità.

La NER serve quindi alla Sentiment Analysis, l’atteggiamento dei consumatori verso una particolare

azienda o persona, alla Question Anwering, quindi riconoscere le entità di un utente se fa una

domanda, alla Information Extraction, ovvero all’estrarre fatti sulle entità del testo.

La NER è un task difficile:

c’è un problema di segmentazione perché le entità nominate sono, la maggior parte dei casi, parole composte (non si taggano parole singole, ma gruppi di parole);
vi è il problema dell’ambiguità (es. Washington è una persona, un’organizzazione, una località, uno Stato). Per risolvere questi problemi bisogna trasformare la NER in una sorta di PoS tagging, ovvero bisogna annotare le entità nominate come se fossero parole singole. Il BIO tagging considera, invece, che ogni parola possa essere etichettata con una singola etichetta per cui, qualcosa che dovrebbe essere etichettato tutto insieme, il BIO tagging tagga la prima parola con una B (B-PER) e la seconda parola con una I (I-PER).

B: dal quale inizia (begins) lo span, cioè la persona;
I: token all’interno (inside) di uno span;
O: token al di fuori (out) di qualsiasi span.

20. Parsing sintattico

Il Parsing sintattico è un task che consiste nell’assegnare una struttura sintattica a una frase. Se il PoS Tagging serve ad assegnare delle categorie grammaticali alle singole parole all’interno di una frase, il Parsing lavora su un livello più alto: dalla singola parola a cui si può associare una categoria grammaticale, si ragiona in termini di frase di cui si vuole descrivere la struttura sintattica.