Scarica Da Harris ai Large Language Models e più Sintesi del corso in PDF di Linguistica solo su Docsity!
LIBRO
CAPITOLO 2 = HARRIS E CHOMSKY
Alla fine degli anni Cinquanta, Noam Chomsky pubblicò un libro destinato a cambiare per sempre la linguistica: Syntactic Structures (1957). Egli propose una nuova teoria detta Grammatica generativo- trasformazionale (GGT) ed ebbe il merito di rendere la linguistica una disciplina scientifica vera e propria. Il successo della GGT oscurò rapidamente le teorie precedenti, in particolare quelle degli strutturalisti e dei comportamentisti, che vennero etichettati da Chomsky come semplici catalogatori meccanici ( taxonomic linguists ). Questi approcci si concentravano sulla classificazione sistematica dei dati linguistici, ma ignoravano i processi mentali sottostanti. Al contrario, Chomsky proponeva un modello che cercava di spiegare come la mente umana genera e comprende il linguaggio. Uno dei principali critici di Chomsky fu Maurice Gross , il quale studiò a fondo il lessico del francese e si rese conto che il modello generativista, pur ambizioso, non riusciva a descrivere la lingua reale: analizzando migliaia di verbi francesi, notò che le irregolarità superavano di gran lunga le regolarità, e che il comportamento sintattico di un verbo dipendeva in modo cruciale dalle sue proprietà lessicali. Questa osservazione portò Gross a riavvicinarsi alle teorie di Zellig Harris , che fu uno dei maestri di Chomsky e la sua influenza sulla nascita della GGT è ben documentata. Chomsky stesso ha ammesso di aver preso da Harris i concetti di trasformazione e frase kernel. In sostanza, le differenze tra Harris e Chomsky sono legate soprattutto agli scopi delle loro teorie: descrittivi per Harris, che voleva descrivere il linguaggio, cioè analizzare le strutture linguistiche così come appaiono, ed esplicativi (e innatisti ) per Chomsky, che, invece, voleva spiegare come il linguaggio è appreso e prodotto dalla mente. Tuttavia, entrambi riconoscono l’importanza di partire da frasi semplici per generare strutture più complesse. A differenza dei generativisti, sia Harris che Gross si mostrarono fin dagli anni Cinquanta interessati all’uso dei computer per l’analisi linguistica. Gross, seguendo le idee di Harris, sviluppò la metodologia lessico- grammaticale, che consiste nello studio sistematico delle proprietà sintattiche e semantiche dei verbi. Il suo lavoro fu fondamentale per i primi sviluppi della linguistica computazionale, perché cercò di formalizzare una grande quantità di dati linguistici in modo trattabile dai calcolatori. CAPITOLO 3 = ANALISI DISTRIBUZIONALE E ANALISI TRASFORMAZIONALE 3.1. ANALISI DISTRIBUZIONALE Nel 1954 Harris formulò un’ipotesi molto importante, chiamata Ipotesi distribuzionale: se due parole si trovano in contesti molto simili, probabilmente hanno significati simili. Se invece compaiono in contesti diversi, avranno anche significati diversi. Per esempio, Harris paragona i termini oculist e eye-doctor (entrambi indicano lo stesso tipo di medico): poiché possono apparire negli stessi tipi di frasi, possono essere considerati sinonimi. Al contrario, oculist e lawyer appaiono in contesti molto diversi, quindi hanno significati diversi. Ma Harris non si limitò a proporre questa ipotesi: descrisse anche un vero e proprio metodo per identificarne le basi, che prende il nome di analisi distribuzionale e ha l’obiettivo di raggruppare le parole in classi di sostituzione (o classi di equivalenza ), cioè gruppi di parole che possono essere scambiate tra loro in contesti simili. Questa analisi si basa su cinque concetti chiave:
- Elementi : il linguaggio può essere scomposto in elementi più piccoli (parole, morfemi, ecc.). Questa divisione rende possibile trovare regolarità nel modo in cui questi elementi si combinano.
- Similarità : due o più parole sono simili se si distribuiscono in modo analogo rispetto ad altre parole. Ad esempio, cane e gatto.
- Dipendenza : alcune parole tendono ad apparire insieme. Questa “dipendenza” può variare in intensità.
- Sostituibilità : se due parole possono essere scambiate in una frase senza cambiare troppo la grammatica o il significato, allora appartengono alla stessa classe di sostituzione.
- Dominio : si riferisce al contesto , i “vicinati linguistici” di una parola, cioè le parole che la circondano e le relazioni tra argomenti (come soggetti e oggetti) e operatori (come i verbi o le strutture grammaticali). I parlanti non scelgono le parole a caso, ma tendono a usare parole che di solito compaiono in certi contesti. Harris formalizza questa idea parlando di verosimiglianza (in inglese likelihood): la probabilità che una parola appaia in una certa posizione dipende dalle parole che la precedono e la seguono. Per esempio, il verbo dormire è spesso accompagnato da soggetti come bambino, cane, Antonio, professore – tutte parole che indicano esseri animati. Queste parole formano una classe semantica coerente. 3.2. I VINCOLI Nella sua ultima grande opera, A Theory of Language and Information (1991), Harris raccoglie e organizza le idee principali sviluppate nella sua carriera, proponendo una visione del linguaggio come un sistema regolato da vincoli che determinano quali combinazioni di parole sono possibili per formare le frasi corrette di una lingua e funzionano uno dopo l’altro, a cascata. 1. Il vincolo dell’ordine parziale Secondo Harris, le parole in una frase non stanno insieme a caso, ma sono collegate da una gerarchia: alcune parole sono “più importanti” di altre perché ne richiedono la presenza. Queste parole vengono chiamate operatori (come certi verbi), mentre le parole che completano il loro significato sono dette argomenti (come il soggetto o l’oggetto del verbo). Per esempio, nella frase Antonio dorme , il verbo dorme è l’operatore, perché per avere senso ha bisogno di un soggetto come Antonio. Anche se sembrano “dipendere” l’uno dall’altro, in realtà è il verbo a guidare la struttura della frase: solo certi nomi possono “dormire”. Esistono anche operatori che agiscono su altri operatori, ossia operatori di livello superiore, perché introducono un’altra intera proposizione. Parole come sleep, fall, up o because sono considerate operatori (classe “o”) e richiedono uno o più argomenti (classe “N”), cioè parole che si combinano in modo coerente con l’operatore. Esaminando parole più complesse Harris nota che servono due argomenti o più. 2. Il vincolo di verosimiglianza Una volta stabilita la gerarchia tra parole, bisogna chiedersi: quanto è probabile che certi argomenti compaiano con certi operatori? Questo è il compito del vincolo di verosimiglianza. Non tutte le combinazioni di parole sono ugualmente probabili. Per esempio, dire La montagna dorme è grammaticalmente corretto, ma suona strano: perché le montagne, di solito, non dormono. Tuttavia, capiamo comunque il senso della frase. La verosimiglianza non è un sì o no, ma un continuum : alcune combinazioni sono molto probabili ( Il bambino dorme ), altre meno ( La pietra dorme ), altre ancora quasi impossibili ( L’è dorme ). Inoltre, Harris mostra che grazie alla verosimiglianza possiamo anche capire quando certe frasi sono metaforiche, perché capiamo che una parola è usata in modo diverso dal solito.
- Unione di frasi: mette insieme due frasi con una congiunzione.
- Riduzione: elimina parti della frase che si possono intuire.
- Aggiunta di parole singole : inserisce parole che aggiungono significato, ma che non derivano da un’altra frase.
- Nominalizzazione di frasi: trasforma un’intera frase in soggetto o oggetto di un’altra.
- Permutazione di parole: cambia l’ordine delle parole senza cambiare il significato di base, ma con leggere variazioni. Tutte le frasi complesse di una lingua si possono generare combinando queste trasformazioni di base. Harris propone anche un modo visivo per rappresentare come una frase è costruita: le griglie di scomposizione. Sono grafi (cioè schemi a rami) in cui ogni nodo rappresenta una frase semplice (kernel) o una trasformazione. Per esempio, nella frase A man talked and walked slowly , Harris parte da due frasi semplici:
- A man walked
- A man talked Poi mostra passo dopo passo come queste vengono modificate: ogni passaggio è rappresentato da un nodo nella griglia. In questo modo è possibile ricostruire l’intera frase partendo dalle sue basi e visualizzarne anche eventuali ambiguità (per esempio, se slowly si riferisce a walked, talked o a entrambi). 3.3.3. TRASFORMAZIONI ED INFORMATION RETRIEVAL Nel suo articolo del 1958, Zellig Harris discute come le trasformazioni linguistiche possano essere usate per analizzare e recuperare informazioni dai testi scritti. Questo approccio permette di descrivere il linguaggio usando poche unità di base. La cosa importante è che la somma del significato delle frasi kernel e delle trasformazioni è uguale al significato della frase di partenza. Harris però nota che in alcuni casi, come nella poesia o nei testi espressivi , questa equivalenza può non valere, perché in quei contesti si enfatizza il modo in cui si dice qualcosa, non solo il contenuto (è la cosiddetta funzione poetica, secondo Jakobson). Nel linguaggio scientifico , invece, questa equivalenza funziona molto meglio. Harris propone quindi di scomporre i testi scientifici in kernel e trasformazioni, per poi:
- confrontare parti di testo simili,
- eliminare ripetizioni,
- separare le frasi più informative da quelle meno rilevanti. L’obiettivo è costruire un sistema capace di recuperare solo le informazioni essenziali , anche senza conoscere il contenuto scientifico specifico del testo. Questo è uno dei primi tentativi di Information Retrieval , cioè di far capire, appunto, ad un computer come trovare le informazioni importanti in un testo. CAPITOLO 4 = ANALISI DISTRIBUZIONALE E SEMANTICA DISTRIBUZIONALE 4 .1. ELEMENTI DEI MODELLI DISTRIBUZIONALI La semantica distribuzionale è una parte della linguistica computazionale che cerca di capire quanto due parole sono simili, guardando i contesti in cui appaiono all’interno di grandi raccolte di testi ( corpora ). Questi modelli analizzano grandi quantità di testo e misurano quanto spesso le parole si trovano insieme nella stessa frase o nello stesso documento. Queste informazioni vengono raccolte in una tabella chiamata matrice di co-occorrenza , dove ogni riga (o vettore) rappresenta una parola e indica con quali altre parole quella parola appare. Qui si assegna un punteggio che decresce man mano che la distanza tra le parole aumenta.
Dopo, i modelli confrontano questi vettori per vedere quanto sono simili tra loro, usando metodi matematici specifici. Il risultato della Semantica distribuzionale è un valore di similarità : questo permette di stimare quanto sono simili i significati delle parole. 4.1.1. SEMATICA DISTRIBUZIONALE E IPOTESI DISTRIBUZIONALE Una differenza importante tra i modelli di semantica distribuzionale e l’idea originale di Harris riguarda le dipendenze tra le parole:
- I primi modelli sD guardavano solo l’ordine lineare delle parole, cioè quelle vicine nella frase, senza considerare legami sintattici diretti. Ad esempio, usavano come contesto o l’intero testo o una finestra con alcune parole vicine alla parola target. Ma questo può essere un problema , come mostra la frase: (4.2) “ L’uomo che entrò nella banca con la pistola e il passamontagna uccise il poliziotto .” Qui, il soggetto “ uomo ” è molto lontano dal verbo “ uccise ”. Un modello che usa una finestra di parole (come HAL) non riesce a collegare bene queste due parole, perché sono troppo distanti.
- Harris invece dice che l’ordine delle parole non è l’unico modo per analizzare una frase. Per Harris, le parole che dipendono l’una dall’altra non devono essere semplicemente vicine nel testo, ma devono essere parte di sequenze ben formate, cioè unità sintattiche chiamate kernel. Questi kernel sono piccole frasi semplici che rappresentano informazioni chiave: mantengono i legami sintattici e semantici anche se la frase cambia forma, e riflettono meglio l’idea originale dell’Ipotesi distribuzionale, cioè di analizzare le relazioni tra operatori (verbi) e argomenti (soggetti, oggetti). Se misuriamo la distanza tra parole come “ uomo ” e “ uccise ” guardando la struttura sintattica ( distanza sintattica), questa distanza resta la stessa anche se cambia l’ordine delle parole. Ma se misuriamo la distanza solo guardando la posizione delle parole nel testo ( distanza lineare), la distanza cambia molto. Un altro problema della semantica distribuzionale riguarda i tipi di relazioni semantiche che essa può catturare. Ad esempio, se cerchiamo parole simili a “ gatto ”, il modello tende a restituire “ cane ” (perché spesso appaiono insieme), ma non “ felino ” o “ siamese ”, che sono invece sinonimi o iponimi più precisi. Sahlgren distingue due tipi di relazioni tra parole:
- Relazioni sintagmatiche (in presentia) : parole che appaiono insieme nelle stesse sequenze lineari (es. “ carta ” e “credito” in “ carta di credito ”).
- Relazioni paradigmatiche (in absentia) : parole che possono sostituirsi l’una all’altra in contesti simili (es. “ gatto ” e “ felino ”). I modelli distribuzionali tradizionali catturano soprattutto le relazioni paradigmatiche. 4.2. LE ORIGINI DELLA SEMANTICA DISTRIBUZIONALE La Semantica distribuzionale si basa sull’Ipotesi distribuzionale formulata da Harris, anche se i primi modelli importanti sono stati sviluppati in modo abbastanza indipendente da questa teoria. Alcuni studi precoci sono stati molto influenti perché hanno creato dataset di giudizi di similarità tra parole da parte di esseri umani: - Rubenstein e Goodenough hanno raccolto punteggi di similarità tra 65 coppie di nomi, valutati da gruppi di soggetti con punteggi che andavano da 0 (nessuna somiglianza) a 4 (massima somiglianza). Le coppie includevano parole con somiglianze molto basse (come cord e smile ), medie ( magician e oracle ) e alte ( gem e jewel ). Inoltre, hanno fatto produrre frasi contenenti queste parole per creare un corpus utile a calcolare i contesti di uso delle parole.
5.1. I MODELLI PREDITTIVI E QUELLI CONTESTUALIZZATI
Il punto di svolta arriva nel 2013 con Word2Vec di Mikolov et al., un modello che introduce due algoritmi:
- CBOW (Continuous Bag-of-Words): cerca di prevedere una parola analizzando le parole che la precedono e la seguono.
- Skip-gram : fa l’opposto, parte da una parola e cerca di prevedere le parole intorno ad essa. Una delle loro funzioni più sorprendenti è la capacità di rispondere a relazioni analogiche tra parole. Ad esempio: “re è a uomo come regina è a donna”. Gli autori di Word2Vec hanno verificato questo meccanismo su vari tipi di parole: Semantiche e Sintattiche Fino al 2018, tutti i modelli assegnavano un solo vettore a ogni parola. Questo creava problemi con le parole polisemiche, cioè con più significati. Tutti questi significati finivano nello stesso vettore, rendendolo poco preciso. Dal 2018 in poi, sono arrivati i modelli contestualizzati (contextualized models), che apprendono i vettori come funzione degli stati interni della rete neurale, che cambia a seconda del contesto. Ogni parola, quindi, ha una rappresentazione diversa in base alla frase in cui si trova. I due modelli contestualizzati più importanti all’inizio sono stati:
- ELMO
- BERT Un altro modello fondamentale è GPT (Generative Pre-trained Transformer) , che è alla base di ChatGPT. Innovazione centrale in questi modelli è il meccanismo dell’ attenzione , che permette al modello di focalizzarsi sulle parole più importanti del contesto per prevedere quella successiva. Il modello dà maggiore importanza alle parole più “rilevanti”, un po’ come fa un lettore umano. L’attenzione rende questi nuovi modelli più vicini alla teoria linguistica, perché riescono a cogliere anche le strutture sintattiche profonde del linguaggio. È per questo che modelli come ELMO, BERT e GPT sono così efficaci nella comprensione del linguaggio naturale. 5.2 – I LARGE LANGUAGE MODELS (LLM) I Large Language Models (LLM ) sono un’evoluzione diretta dei modelli contestualizzati come BERT ed ELMO , e funzionano in modo molto simile. Secondo Lenci (2023), gli LLM devono molto alla Semantica distribuzionale, in particolare ai modelli predict, ma ci sono anche importanti differenze:
- Tipo di rappresentazione : gli LLM non rappresentano semplici parole, ma concetti più profondi e legati al contesto.
- Dimensioni del modello : sono reti neurali gigantesche, addestrate su quantità enormi di testi.
- Quantità di informazione: non trattano solo il significato delle parole (semantica), ma anche la loro struttura nella frase (sintassi). Lenci evidenzia che la capacità degli LLM di produrre un linguaggio simile a quello umano ha acceso un dibattito su due principali limiti che li distinguono profondamente dagli esseri umani: 1. Mancanza di collegamento con il mondo esterno Gli LLM apprendono solo dal testo , quindi il significato che danno alle parole non è collegato al mondo reale. Non hanno esperienza del mondo fisico e quindi non possono comprendere veramente concetti che per noi sono legati alla percezione e all’esperienza. Ad esempio, provare a spiegare il significato di “ sedia ” ad una macchina richiederebbe molte altre spiegazioni: cos’è sedersi, perché ci si siede, cosa significa “essere
stanchi”, e così via. Questo porta a una catena infinita di concetti da chiarire, che una macchina non può comprendere se non ha un corpo o un’esperienza simile alla nostra.
2. Il problema della sistematicità Gli esseri umani sanno generare e capire un numero infinito di frasi nuove combinando parole in modo logico. Questa è la sistematicità : se capisco “ il gatto nero insegue il cane marrone ”, capisco anche “ il cane nero insegue il gatto marrone ”. Questo avviene perché usiamo rappresentazioni simboliche , che nei LLM non esistono. I LLM usano vettori continui, cioè rappresentazioni che si basano su quanto una parola è simile ad altre. Tuttavia, questa critica può essere ridiscussa. Alcuni studi suggeriscono che il linguaggio naturale non è sempre pienamente composizionale (cioè fatto da pezzi fissi da combinare rigidamente). A volte, il significato dipende più dal contesto che dalla struttura. Un esempio è la frase “ la montagna dorme ”. Non è un significato letterale, ma i modelli come BERT riescono comunque a catturare la sfumatura del significato, colgono differenze di significato anche tra usi metaforici e letterali. 5.4. UN MODELLO BASATO SUL LESSICO I modelli distribuzionali (come Word2Vec o BERT) fanno fatica a rappresentare bene la conoscenza enciclopedica , cioè tutto ciò che sappiamo sul mondo e che spesso non è esplicitato nei testi. Questo problema si nota soprattutto quando si cerca di classificare parole poco frequenti nei corpora. Un esperimento fatto con ChatGPT-4 ( marzo 2024) ha mostrato questi limiti. È stato chiesto al modello di classificare una lista di 131 animali secondo “similarità semantica”. Il modello ha provato a creare gruppi basati su criteri generali come l’aspetto, l’habitat o il comportamento. Il 77% delle classificazioni era accettabile, ma il restante 23% conteneva errori sorprendenti. L’esperimento è stato ripetuto con Word2Vec e BERT, ottenendo risultati peggiori. Il motivo del fallimento è che questi modelli non hanno una rappresentazione strutturata dei concetti: non distinguono tra caratteristiche importanti, che si possono rappresentare meglio usando un approccio basato sulle features, cioè attributi semantici discreti. Per migliorare la qualità della rappresentazione semantica, l’autore ha sviluppato una nuova strategia: creare matrici lessicali specializzate , cioè matrici di co-occorrenza costruite solo su parole appartenenti a una certa classe semantica (es. animali, cibi, strumenti), utilizzando il dizionario dei nomi concreti creato all’Università di Salerno, ispirato al Lexique-Grammaire di Maurice Gross. Questo dimostra che limitare i contesti a un certo dominio aiuta a ridurre l’ambiguità delle parole polisemiche. 5.5. I LLM COME MODELLO DEL LINGUAGGIO Le critiche generativiste Una delle critiche più note arriva da Chomsky , insieme a Roberts e Watumull (2023). Secondo loro, i LLM sono solo macchine statistiche che, dopo aver analizzato enormi quantità di dati, prevedono la risposta più probabile. A questa critica ha risposto Piantadosi (2023) con un articolo provocatorio. Secondo lui, gli LLM mettono in crisi molte idee centrali del generativismo. In particolare: - Non c’è separazione tra sintassi e semantica , come invece sostenevano le teorie generative: i LLM usano rappresentazioni condivise per entrambi gli aspetti. - Il concetto di probabilità , che Chomsky riteneva inutile per lo studio del linguaggio, è invece fondamentale nei LLM.
Il Web 3.0 non si limita a rendere le informazioni accessibili, ma mira a comprendere il significato dei dati , rendendoli utilizzabili da applicazioni intelligenti indipendentemente dal loro formato o dalla loro collocazione. Si va così verso un web personalizzato, capace di monitorare il comportamento dell’utente e fornire contenuti su misura. Questo salto di qualità è reso possibile dall’uso delle ontologie , cioè strutture concettuali che consentono ricerche basate su significati e relazioni piuttosto che su semplici parole chiave. I Big Data In parallelo all’evoluzione del web, si è affermato il fenomeno dei Big Data , che rappresentano una risorsa strategica: la loro corretta gestione consente alle imprese di ottenere vantaggi competitivi attraverso l’analisi del comportamento dei consumatori e l’ottimizzazione dei processi decisionali. Il concetto di Big Data è definito attraverso sei caratteristiche fondamentali :
- Volume : la quantità enorme di dati generati ogni minuto (es. tweet, email, contenuti social).
- Velocità : la rapidità con cui i dati vengono prodotti e devono essere processati.
- Varietà : la natura eterogenea dei dati, spesso non strutturati (testi, immagini, video).
- Viralità : la capacità dei dati di propagarsi rapidamente, generando reazioni a catena.
- Variabilità : il significato di un’informazione può cambiare a seconda del contesto in cui si inserisce.
- Valore : la reale utilità che può essere estratta da questi dati attraverso un’analisi adeguata. Per far fronte a questa complessità, si ricorre a tecnologie specifiche come il text mining , il data mining e piattaforme open source come Hadoop , in grado di elaborare grandi quantità di dati su server distribuiti. Applicazioni e casi aziendali I Big Data permettono di generare valore attraverso varie applicazioni, tra cui le analisi predittive e l’ intelligence. Un esempio è Raytheon, che ha sviluppato un sistema chiamato RIOT (Rapid Information Overlay Technology), capace di analizzare dati provenienti dai social network per tracciare abitudini, relazioni e spostamenti delle persone, una mappa interattiva della nostra vita, con possibile predizione del futuro in pochi click. Un altro campo di applicazione centrale è la Sentiment Analysis , nota anche come Opinion Mining. Questa tecnologia permette di monitorare le opinioni espresse online, analizzando testi per identificare se il giudizio dell’utente è positivo, negativo o neutro. Nel testo sono citati anche casi aziendali concreti. Netflix usa l’algoritmo CineMatch per proporre contenuti personalizzati sulla base delle preferenze di utenti con gusti simili, mentre Target analizza le abitudini d’acquisto per identificare clienti in gravidanza e proporre promozioni mirate. La valorizzazione dei Big Data richiede competenze avanzate in discipline come la linguistica computazionale , che permette di strutturare testi in formato leggibile per le macchine, il Natural Language Processing (NLP) , che consente ai sistemi di analizzare e comprendere il linguaggio umano e il machine learning , ovvero l’apprendimento automatico basato su algoritmi che individuano schemi nei dati. Infine, il testo evidenzia l’importanza della figura del data scientist , un professionista che unisce competenze informatiche, statistiche e di business per trasformare i dati in decisioni strategiche.
Statistiche vs Regole
La linguistica computazionale vive da sempre una dicotomia tra linguisti e informatici, che ha comportato la nascita di due principali filoni che prediligono rispettivamente:
- i metodi basati sulle regole , che cercano di imitare il modo in cui l'uomo utilizza e comprende il linguaggio, riproducendo le strutture sintattiche che sono alla base di questo processo di comprensione
- i modelli basati sulla statistica , che al contrario trattano la lingua come un insieme di parole, quantificando queste in modo matematico e cercando di estrarre informazioni senza la necessità di individuare le strutture sintattiche **Concetti base:
- Token e Type** La frase è composta da tot token in base al numero di parole presenti nella stessa, i Type invece sono le singole parole senza contare le loro ripetizioni (es. una frase ha 10 token ma sei Type) 2. part of speech e lemma Part of speech (POS) si intende la classe grammaticale o categoria lessicale alla quale appartiene una specifica parola. Il POS tagging consiste appunto nell'attribuire ad ogni token la propria parte del discorso. Il lemma, invece, rappresenta la forma canonica delle parole, cioè la forma in cui troviamo una determinata parola nel dizionario (per nomi e aggettivi, il maschile singolare e l'infinito per i verbi) La lemmatizzazione consiste nel ridurre alla forma canonica tutti i token che compongono un testo in modo da poter ridurre il numero di Type non considerando tutte le differenti forme flesse di una determinata parola (es. “essere” “è” “fu” “siamo” vengono considerati come un unico Type “essere”) 3. Pre processing Insieme alle due operazioni che abbiamo visto ci sono alcune operazioni di pre-processamento dei testi, tra queste:
- normalizzazione del testo , che consiste nel sostituire le maiuscole in modo da rendere uniforme il testo e l'eliminazione della punteggiatura
- rimozione delle stop word, che consiste nella rimozione tutti quei token semanticamente vuoti (es.articoli) La statistica testuale La statistica testuale comprende una serie di operazioni che, quantificando in termini numerici o matematici le parole che compongono un determinato testo, cercano di estrarre da questo le informazioni necessarie a descriverlo e a classificarlo. Una delle prime operazioni che è possibile effettuare su un testo è il calcolo delle occorrenze. Dopo aver creato una lista dei Type che compongono il testo, si contano i token presenti relativi a ciascun Type. I primi elementi di una lista di questo tipo, calcolata su un testo contenente ancora le stop Words, sono nella quasi totalità dei casi articoli e preposizioni. Già eliminando anticipatamente le stop words, riusciamo a ottenere classifiche più significative ed informative, cioè che ci offrono maggiori informazioni riguardo il testo che stiamo analizzando. Confrontando due capitoli di un libro in base al numero di occorrenze dei types, è possibile effettuare alcune inferenze che, però potrebbero risultare sbagliate senza considerare la dimensione del testo analizzato. Per confrontare testi di lunghezza diversa è necessario introdurre il concetto di frequenza. La Term frequency è uguale al rapporto tra il numero di occorrenze della parola nel testo e la dimensione del testo. Nel caso volessimo analizzare tutti i capitoli di un libro ci servirà invece la Term Frequency - Inverse document frequency (TF-IDF) , dove il valore sarà più alto quando una parola appare in pochi o in un solo capitolo, caratterizzandolo. Essa riporta dunque valori che ci danno informazioni più dettagliate su ciò che viene descritto in un capitolo. In conclusione, l'analisi statistica dei testi offre una visione generale generica di un determinato testo, presenta il vantaggio di essere completamente indipendente dal linguaggio, di essere rapida, di non presupporre competenze linguistiche avanzate e di essere computazionalmente molto vantaggiosa.
● In base all’ aggiornamento : Chiusi , se il loro contenuto è fisso, o aperti (dinamici) , se vengono continuamente aggiornati con nuovi testi. Tra i principali corpora per l’italiano si menzionano il LIF (per lo scritto), il LIP (per il parlato), e EULOGOS o Paisà (per l’italiano del web). I Dizionari Elettronici A differenza delle versioni digitalizzate dei dizionari cartacei , i dizionari elettronici sono database lessicali creati specificamente per applicazioni informatiche e non quindi per un’ampia utenza. Si distinguono per tre concetti chiave :
- Completezza : Devono contenere tutte le informazioni possibili, devono essere esaustivi, non possono tralasciare le conoscenze enciclopediche.
- Esplicitazione : Ogni istruzione per il computer deve essere completamente esplicita.
- Codificazione : Tutte le informazioni devono essere codificate in modo preciso , coerente e leggibile da una macchina ( machine-readable ). Esempi noti sono WordNet per l’inglese, che raggruppa parole in insiemi di sinonimi ( synsets ), e BabelNet , una vasta rete semantica multilingue. Le Risorse del DISPC Il DISPC dell’Università di Salerno ha sviluppato una collezione di dizionari elettronici per l’italiano. Questi dizionari sono basati su un metodo lessico-grammaticale , sviluppato nel dipartimento da oltre 30 anni. I lemmi (parole semplici, composte, affissi o idiomi) vengono descritti tramite proprietà grammaticali, semantiche, sintattiche, distribuzionali e trasformazionali , rappresentate in matrici con simboli “+” o “−” per indicare presenza o assenza delle proprietà. Tra i dizionari principali ci sono lo Sdic_it e il Cdic_it. A questi si aggiungono altre risorse come i dizionari di acronimi , nomi propri , parole alterate , e un dizionario delle forme flesse , che comprende oltre un milione di voci, generate con automi a stati finiti. Ogni forma flessa è associata a etichette grammaticali che specificano genere, numero, modo e tempo verbale. Le polirematiche (come “donna cannone”) sono considerate unità lessicali con significato proprio e sono annotate per struttura, dominio semantico e comportamento flessionale. Ogni lemma può inoltre essere arricchito da due tag: il Sem , che descrive la distribuzione semantica (es. Ncibo per cibo, Nvei per veicoli), e il Trait , che indica tratti semantici fondamentali come Um (umano), Anl (animale), Conc (concreto) o Astr (astratto). Un ulteriore dizionario raccoglie nomi astratti , come emozioni, discipline o qualità, e li classifica con tag specifici (es. Npsic, Nproc). Infine, tutte queste risorse possono essere collegate e convertite nel formato CoNLL , uno standard internazionale per la codifica dei dati linguistici, che permette di rappresentare ogni parola con informazioni su lemma, parte del discorso, morfologia e struttura sintattica.
Logica e Ontologie
Quando si cominciò a parlare di Intelligenza Artificiale (IA), durante la conferenza di Dartmouth del 1956 , i suoi ideatori erano pieni di entusiasmo. Erano convinti che nel giro di pochi anni sarebbe stato possibile creare macchine intelligenti, capaci di ragionare come esseri umani. Tuttavia, le aspettative si rivelarono troppo ambiziose. I risultati tardarono ad arrivare e l’interesse diminuì, portando al cosiddetto “inverno dell’IA” , un periodo di stallo e disillusione. Questo però spinse i ricercatori a rivedere i metodi usati fino a quel momento.
Fino ad allora, l’IA si era concentrata su problemi semplici, come i giochi, ma trascurava un aspetto fondamentale: per ragionare, una macchina deve rappresentare il mondo in cui si muove. Non basta avere delle regole logiche, serve anche una buona descrizione della realtà. Logica Uno dei primi strumenti usati per simulare il ragionamento è stata la logica , già anticamente usata per descrivere come ragiona l’essere umano. In particolare, si è fatto ampio uso di:
- logica proposizionale , che lavora con frasi semplici (es. “piove”, “il cielo è grigio ”) e connettivi come: negazione ( non ), congiunzione ( e ), disgiunzione ( o ), condizionale ( se...allora ).
- logica dei predicati del primo ordine , che permette di esprimere frasi più complesse, usando: o costanti per indicare oggetti (es. fido ), o predicati per attribuire proprietà o relazioni (es. Cane(x) ), o variabili (x, y, z), o quantificatori come “ tutti ” o “ almeno uno ”. Questi strumenti permettono un tipo di ragionamento deduttivo , dove le conclusioni sono sempre vere se le premesse lo sono. Tuttavia, non bastano per gestire situazioni reali, che spesso sono incomplete, incerte o cambiano nel tempo. Nella realtà, usiamo spesso altri modi di ragionare:
- il ragionamento induttivo , che generalizza da esempi (es. “ tutti i cigni visti finora sono bianchi, quindi tutti i cigni sono bianchi ”);
- il ragionamento abduttivo , che cerca la spiegazione più probabile per un fatto osservato;
- il ragionamento per default , che parte da assunzioni comuni (es. “ se non so nulla di un uccello, suppongo che voli ”). Questi sono ragionamenti non-monòtoni , cioè possono cambiare se arrivano nuove informazioni. Per esempio, posso pensare che un cigno sia bianco, ma cambiare idea se ne vedo uno nero. Per rappresentare la conoscenza in modo più simile a come funziona la mente umana, sono stati introdotti modelli come le reti semantiche , che permettono di organizzare la conoscenza gerarchicamente. Questo consente di ereditare proprietà : se so che i mammiferi respirano, allora anche i cani respirano, a meno che non ci siano eccezioni (es. i delfini vivono in acqua, non sulla terra come la maggior parte dei mammiferi). Un modello simile alle reti semantiche è quello dei frame , una specie di “scheda” che descrive un concetto. I frame permettono di gestire casi tipici (prototipi) e di adattarsi a situazioni specifiche. Ad esempio, il frame “essere umano” può essere usato come base, ma uno specifico individuo avrà un’età precisa, dei genitori noti, ecc. Strumenti come la logica , le reti semantiche e i frame sono stati creati per aiutare le macchine a organizzare, collegare e usare le informazioni, in modo più simile al pensiero umano. Ontologie Il concetto di ontologia ha origini antiche: già Aristotele, nella Metafisica , si interrogava sull’essenza delle cose, cercando ciò che le accomuna al di là delle differenze esteriori. L’ Intelligenza Artificiale ha ripreso questa idea per rappresentare formalmente la conoscenza, ma con un approccio più pratico e applicato. Nell’IA, un’ontologia è una struttura che descrive in modo formale e condiviso i concetti di un determinato ambito e le relazioni tra essi. Definizione:
Question Answering: Il progetto BIG.4.M.A.S.S.
Il progetto BIG.4.M.A.S.S. ha l’obiettivo di sviluppare un sistema avanzato di Question Answering (QA) , cioè un software in grado di comprendere e rispondere in modo intelligente a domande formulate in linguaggio naturale. Lo scopo è quello di affiancare o persino sostituire gli operatori umani nella gestione delle richieste dei clienti, in particolare in ambito aziendale (Customer Operation), trattando grandi quantità di dati diversi e complessi. A differenza dei tradizionali motori di ricerca che si basano su semplici parole chiave , un sistema QA mira a comprendere realmente il significato della domanda e a trovare risposte pertinenti e precise. Un sistema di Question Answering è composto da tre parti essenziali:
- Knowledge Base : è la base di conoscenza, cioè il contenuto su cui il sistema si basa per fornire risposte. Si costruisce partendo da un corpus e tutti i testi devono essere codificati in UNICODE , uno standard che assicura che ogni carattere – compresi accenti ed emoticon – venga riconosciuto correttamente. Può essere: o closed-domain (specializzata in un solo argomento), o oppure open-domain (in grado di rispondere su qualsiasi tema).
- Modulo di analisi delle query : interpreta la domanda dell’utente, identifica le parole chiave, la struttura sintattica e semantica, e la trasforma in un formato che il sistema può elaborare.
- Modulo di recupero delle informazioni : cerca nella Knowledge Base i dati più rilevanti e li organizza per generare una risposta comprensibile. Prima di poter usare i testi nel sistema, bisogna prepararli tramite diverse fasi di analisi linguistica automatica :
- Tokenizzazione : suddivisione del testo in parole e segni di punteggiatura (token).
- POS tagging : assegnazione di un'etichetta grammaticale a ciascun token (es. nome, verbo).
- Lemmatizzazione : riduzione di ogni parola alla sua forma base (lemma), es. attivato → attivare.
- Parsing sintattico : analisi della struttura della frase per individuare le relazioni grammaticali (come soggetto, oggetto, verbo...). Uno dei problemi principali per un sistema QA è la variabilità del linguaggio. Il sistema deve quindi affrontare:
- Gap lessicale : riconoscere sinonimi, sia generici (es. offerta e promozione ) sia specifici del settore (es. sim e scheda ).
- Ambiguità : o polisemia : parole con più significati correlati (es. albero come pianta o parte della nave); o omonimia : parole con significati non collegati (es. lira come moneta o strumento musicale). Per risolvere questi problemi, il progetto usa dizionari elettronici avanzati come Sdic_it e Cdic_it , sviluppati all’ Università di Salerno , pensati appositamente per l’uso in sistemi informatici e molto più completi dei dizionari tradizionali.
LETTURE
To Build Truly Intelligent Machines, Teach Them Cause and
Effect
Judea Pearl , una figura pionieristica nel campo dell' intelligenza artificiale , sostiene che l'IA sia bloccata in una fase di stallo da decenni. La sua soluzione per il progresso è insegnare alle macchine a capire la domanda "perché". Negli anni '80, Pearl guidò gli sforzi che permisero alle macchine di ragionare in modo probabilistico, sviluppando le reti bayesiane per associare cause potenziali a condizioni osservabili. Questo lavoro gli valse il Premio Turing nel 2011, il più alto riconoscimento nell'informatica. Nel suo libro, " The Book of Why: The New Science of Cause and Effect ", Pearl propone che per costruire macchine veramente intelligenti sia fondamentale sostituire il ragionamento per associazione con il ragionamento causale. Invece di limitarsi a correlare febbre e malaria, le macchine dovrebbero capire che la malaria causa la febbre. Una volta stabilito questo quadro causale, le macchine potrebbero porre domande controfattuali, il che è considerato da Pearl la pietra angolare del pensiero scientifico. Egli propone anche un linguaggio formale per rendere possibile questo tipo di pensiero. Pearl è convinto che il ragionamento causale possa fornire alle macchine un' intelligenza a livello umano , per comunicare in modo più efficace con gli esseri umani. Pearl si interroga sul futuro : il passo successivo è avere un "robot scienziato" in grado di pianificare esperimenti e trovare nuove risposte a domande scientifiche. Questo richiederà che le macchine abbiano un modello dell'ambiente e condividano la nostra intuizione sulla causa e l'effetto. Pearl prevede che nei prossimi 10 anni i modelli concettuali di realtà saranno programmati dagli umani, e in seguito le macchine postuleranno e affineranno tali modelli autonomamente. Ritiene che i robot avranno il libero arbitrio , evidenziato dalla loro capacità di comunicare in modo controfattuale, ad esempio dicendo "Avresti dovuto fare di meglio". La capacità di commettere il male, per un'IA, si manifesterebbe quando il robot ignora costantemente i componenti software che mantengono le norme di comportamento programmate.
WordNet
WordNet è una grande banca dati lessicale per la lingua inglese, sviluppata dal 1986 all’Università di Princeton sotto la guida dello psicolinguista George A. Miller. L’idea centrale era che il nostro lessico mentale fosse organizzato gerarchicamente, con concetti specifici che ereditano proprietà dai concetti più generali. Ad esempio, la caratteristica “avere le piume” non va ripetuta per ogni singolo uccello, ma memorizzata una sola volta col concetto di “uccello”. Sebbene oggi WordNet non abbia più l’ambizione di riprodurre fedelmente il funzionamento mentale umano, è diventato un punto di riferimento per la linguistica computazionale e per molte applicazioni nel campo dell’Elaborazione del Linguaggio Naturale (NLP), come traduzione automatica, recupero di informazioni e risposte automatiche alle domande. L’unità base di WordNet è il synset (synonym set), ovvero un insieme di parole che condividono lo stesso significato in un dato contesto. Ogni synset include: sinonimi, una breve definizione ( gloss ), esempi d’uso. WordNet gestisce anche la polisemia , cioè i diversi significati che una stessa parola può avere in contesti diversi. WordNet è organizzato in quattro categorie che seguono proprie relazioni semantiche:
- Nomi : organizzati gerarchicamente tramite iponimia ("è un tipo di") e meronimia ("è parte di"). Tutti discendono dal synset radice entity. È prevista anche la distinzione tra tipi (es. city ) e istanze (es. New York ).
- Verbi : collegati da relazioni come troponimia (es. mumble è un modo di talk ), causalità (es. show causa see ) e implicazione temporale (es. divorce implica marry ).
L’analisi si basa su 91 articoli scientifici pubblicati tra il 2010 e il 2017 e selezionati da fonti autorevoli. Le tecniche individuate sono classificate in tre grandi categorie:
- Apprendimento supervisionato : utilizza testi già etichettati per addestrare i modelli. Offre alta precisione ma richiede grandi quantità di dati etichettati e un forte intervento umano.
- Apprendimento non supervisionato : lavora con dati non etichettati, raggruppandoli in cluster. È adatto a grandi quantità di dati ma è più complesso da interpretare.
- Apprendimento semi-supervisionato : combina una piccola quantità di dati etichettati con una grande quantità di dati non etichettati. Questo approccio, sempre più diffuso, cerca di bilanciare efficacia e costi. Non esiste un algoritmo valido per ogni situazione. La scelta del classificatore più efficace dipende dal tipo di testo e dall’obiettivo finale. Ogni tecnica presenta vantaggi e limiti, e la loro efficacia dipende dal contesto d’uso e dalla qualità del pre-processing ha un impatto cruciale sulla qualità dei risultati. Infine, il documento propone suggerimenti concreti: ai professionisti si consiglia di applicare queste tecniche in ambiti come la diagnosi medica o l’analisi dei contenuti sui social; ai ricercatori si raccomanda di semplificare gli algoritmi, migliorare il supporto per i testi multilingue e integrare meglio la conoscenza di dominio.