Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione all'informatica: Storia, concetti chiave e tecnologie, Appunti di Fondamenti di informatica

Appunti completi del corso di Linguistica Computazionale tenuto dal professor Milanese, anno accademico 2020-2021

Tipologia: Appunti

2019/2020

Caricato il 07/08/2021

VitRi
VitRi 🇮🇹

4.1

(10)

5 documenti

1 / 27

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Linguistica Computazionale – II semestre Milanese Guido
Lezione 1-2-3 – 24/02/2021
C’è la possibilità col computer di riconoscere le immagini e di associarle ad altre immagini in
automatico. Il computer non ha solo la velocità di un’azione, ma permette di fare cose diverse
rispetto alla realtà, o a mano.
Es. Il computer è in grado di confrontare immagini e di risalire ad altre immagini simili a partire da
un’immagine di partenza; questo è anche positivo e ha ampliato molto le prospettive della storia
dell’arte.
Es. Dante continua nella sua Commedia a parlare di “occhi” e “vedere” il computer è in grado di
identificare strutture, ricorrenze che noi a mano non riusciamo a vedere.
Es. Il computer ci aiuta a capire se un’opera è vera o falsa, se si può attribuire a un autore rispetto
all’altro. Il computer, studiando caratteristiche dello stile e opere datate, ha scoperto differenze
anche all’interno dello stesso autore (Platone giovane scrive in un modo, Platone vecchio scrive in
un altro).
Es. Anche in musica si possono fare grandi lavori con il computer. Il computer è in grado di
riconoscere a chi appartiene una melodia, o permette di confrontare melodie e autori.
Il computer cambia l’approccio alla ricerca e la vita dello studioso.
Lezione 4-5-6 – 03/03/2021
1° TEMA: IL SENSO DELL’INFORMATICA UMANISTICA
L’informatica è umanistica quando è pratica e teorica, quando è legata cioè sia alla pratica che alla
teoria, alla cultura del tempo. È importante il rapporto tra teoria e pratica.
Citazione di Tito Orlandi, maestro dell’informatica umanistica: “Mi sembra evidente che quando il
computer nelle scienze umane è adoperato in quanto imita comportamento di macchina
tradizionale, allora non si pone alcun problema di tipo metodologico” le macchine da scrivere
erano sistemi che permettevano di scrivere su carta attraverso il premere un tasto. Se uno usa un
programma di scrittura e lo usa come se fosse una macchina da scrivere, egli non usa il computer.
È come se usasse il computer come una macchina da scrivere. Se noi usiamo il computer solo per
simulare una macchina, allora il computer non svolge più il suo lavoro, viene adoperato senza
domandarsi quali siano le caratteristiche del computer. “In questo caso non c’è nessuna differenza
dalle procedure tradizionali, se non la velocità e modalità d’uso. Al contrario, quando il computer è
utilizzato nella sua piena capacità di eseguire algoritmi, le scienze umane si confrontano con
situazione nuova per la quale non esiste al momento metodologia riconosciuta comunemente”.
Che cos’è un algoritmo?
1. Ordine di un insieme di passi
Es. Ricetta di cucina caratterizzata da alcune caratteristiche: insieme di step in un certo
ordine preciso.
Fare le cose in un certo ordine è fondamentale per tutte le attività umane che prevedono
una sequenza di azioni.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Anteprima parziale del testo

Scarica Introduzione all'informatica: Storia, concetti chiave e tecnologie e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

Linguistica Computazionale – II semestre Milanese Guido

Lezione 1-2-3 – 24/02/

C’è la possibilità col computer di riconoscere le immagini e di associarle ad altre immagini in automatico. Il computer non ha solo la velocità di un’azione, ma permette di fare cose diverse rispetto alla realtà, o a mano. Es. Il computer è in grado di confrontare immagini e di risalire ad altre immagini simili a partire da un’immagine di partenza; questo è anche positivo e ha ampliato molto le prospettive della storia dell’arte. Es. Dante continua nella sua Commedia a parlare di “occhi” e “vedere”  il computer è in grado di identificare strutture, ricorrenze che noi a mano non riusciamo a vedere. Es. Il computer ci aiuta a capire se un’opera è vera o falsa, se si può attribuire a un autore rispetto all’altro. Il computer, studiando caratteristiche dello stile e opere datate, ha scoperto differenze anche all’interno dello stesso autore (Platone giovane scrive in un modo, Platone vecchio scrive in un altro). Es. Anche in musica si possono fare grandi lavori con il computer. Il computer è in grado di riconoscere a chi appartiene una melodia, o permette di confrontare melodie e autori. Il computer cambia l’approccio alla ricerca e la vita dello studioso.

Lezione 4-5-6 – 03/03/

1° TEMA: IL SENSO DELL’INFORMATICA UMANISTICA

L’informatica è umanistica quando è pratica e teorica, quando è legata cioè sia alla pratica che alla teoria, alla cultura del tempo. È importante il rapporto tra teoria e pratica. Citazione di Tito Orlandi, maestro dell’informatica umanistica: “Mi sembra evidente che quando il computer nelle scienze umane è adoperato in quanto imita comportamento di macchina tradizionale, allora non si pone alcun problema di tipo metodologico”  le macchine da scrivere erano sistemi che permettevano di scrivere su carta attraverso il premere un tasto. Se uno usa un programma di scrittura e lo usa come se fosse una macchina da scrivere, egli non usa il computer. È come se usasse il computer come una macchina da scrivere. Se noi usiamo il computer solo per simulare una macchina, allora il computer non svolge più il suo lavoro, viene adoperato senza domandarsi quali siano le caratteristiche del computer. “In questo caso non c’è nessuna differenza dalle procedure tradizionali, se non la velocità e modalità d’uso. Al contrario, quando il computer è utilizzato nella sua piena capacità di eseguire algoritmi, le scienze umane si confrontano con situazione nuova per la quale non esiste al momento metodologia riconosciuta comunemente”. Che cos’è un algoritmo?

  1. Ordine di un insieme di passi Es. Ricetta di cucina  caratterizzata da alcune caratteristiche: insieme di step in un certo ordine preciso. Fare le cose in un certo ordine è fondamentale per tutte le attività umane che prevedono una sequenza di azioni.
  1. Tutti questi passi siano descritti in maniera quantitativa Es. Unisci al composto un uovo intero  operazione che va fatta una volta sola; se la ripeto 10 volte, la ricetta non esce. L’algoritmo è una successione di operazioni svolte in un ordine preciso e quantificate con chiarezza.
  2. Devi sapere che cosa vuoi fare Es. Segui questa ricetta perché vuoi fare una torta al cioccolato, c’è un fine nell’azione L’algoritmo è una descrizione di serie di azioni orientate ad un fine, descritte in modo sequenziale e con una quantificazione esatta di tutte le operazioni che si devono svolgere. Può capitare di fare le cose senza sapere che cosa si otterrà, ma quello non è un algoritmo. Un algoritmo, inoltre, deve essere replicabile, prevedibile e ripetibile. Ogni essere agisce per un fine. Ogni azione umana ha un fine. L’informatica umanistica è questo spazio tra l’umanità e la capacità del computer di svolgere operazioni. Orlandi continua: “Due punti sembrano essenziali dell’informatica umanistica: la formalizzazione dei dati e delle procedure; la rappresentazione dei dati in input e output” Formalizzazione dei dati  i dati devono essere descritti in maniera esatta, formalizzata. Non “un po’ di farina”, ma “tot grammi di farina”; Rappresentazione dei dati  sapere come descrivere i dati che tu hai in input. Dire che devi adoperare 2cc di rum per la ricetta è una formalizzazione rappresentata in modo esatto. Il dato in input viene rappresentato in modo esatto, perfettamente riconoscibile. Nulla è lasciato alla casualità dell’approccio. Tutto questo è esigenza moderna o antica? Nell’epoca ellenistica nascono le biblioteche in senso moderno, già dopo Alessandro Magno (fine IV e III secolo a.C.). nasce il problema di dove collocare i libri e dove sapere dove si trovino i libri. La biblioteca di Alessandria avrà avuto centinaia di migliaia di rotoli. Per sapere dove sono, nascono dei modi per formalizzare la descrizione del libro e la sua posizione. Questa formalizzazione del dato porta alla formazione di cataloghi. Questo è un primo modo di dominare i dati bibliografici, senza il cui ordine non sarebbero raggiungibili. Biografie e testi scolastici = necessitano di una formalizzazione precisa dei dati. Dominare i dati: il dizionario Da un dizionario noi ci aspettiamo una formalizzazione elevata. Intorno al IV secolo d.C., un autore africano Nonio Marcello è uno studioso che si rende conto della difficoltà dei lettori del suo tempo nella lettura di testi di latino antico. Quest’uomo aveva dei pezzetti di papiro in cui scriveva la parola e la citazione da cui prendeva la parola. Faceva una scheda per ciascuna di queste parole e poi le metteva in ordine alfabetico per poi stamparle. Questo dizionario funziona dicendo che l’autore (Nonio Marcello) mette in ordine queste schedine, le ricopia e fa il suo dizionario. Esso ebbe un successo strepitoso, diffuso anche in età umanistica. È stato il modello di tutti i dizionari moderni. I dizionari sono fatti così: con una formalizzazione precisa dei dati.

Se io ho una piccola opera di 20 pagine che è stata copiata su 5 manoscritti e un’ edizione a stampa, confronto i vari manoscritti e stabilisco qual è il testo più antico. Ma se io ho un’opera complessa, di più di 600 pagine a stampa, tramandata da 170 manoscritti più edizioni a stampa, è impossibile fare lo stesso lavoro a mano. Se dovessi fare questo lavoro con la Bibbia, ecco che allora il computer diventa indispensabile. Il problema è confrontare migliaia di manoscritti tra loro e cercare di dare un senso a questi confronti. Nell’800 c’era un monastero nel nord della Francia a Saint-Pierre de Solèsmes che venne rifondato da un giovanissimo sacerdote. Qui iniziarono diversi progetti di studio di testi tramandati in tanti testimoni: Bibbia, martilogi (vite dei santi), testi liturgici e canti liturgici. A Solèsmes iniziarono ad avere un rapporto con la tecnologia dell’epoca più avanzata, la fotografia. Se uno avesse voluto studiare i manoscritti della Bibbia non avrebbe dovuto girare per mezza Europa e copiare a mano i manoscritti che trovava, ma si stabilì un uso della fotografia e mandavano in giro i monaci a fotografare in modo da ottenere delle copie che permettevano loro di eseguire tutti i confronti, confrontando in maniera efficace il manoscritto di Berlino con quello di Napoli. È importante come la tecnologia cambi la ricerca. Questi monaci non avevano paura della tecnologia, la tecnologia permette di fare delle cose che non saremmo in grado di fare senza. Non facciamo le stesse cose in maniera più comoda, ma facciamo cose diverse. Henri Quentin, altro monaco di Solèsmes, idea un altro sistema per confrontare i manoscritti quasi sognando l’esistenza di un computer: non più errori, ma differenze, perché così posso raggruppare vari testimoni in base alle differenze, non importa se giusto o sbagliato. In questo modo, sia Quentin nel 1922 e uno studioso inglese Greg (Calcolo delle varianti) sognavano che dando in input tutti i manoscritti ci fosse un sistema per individuare dove si differenziassero tra loro. L’individuazione di queste differenze portava a individuare dei gruppi e raggrupparli in questo modo. L’idea di Quentin trovò nel corso degli anni una realizzazione effettiva: Jacques Frogé nel 1968 scrive un libro “la critica dei testi e la sua automatizzazione”  sogno di Quentin diventa realtà. Frogé fu il primo a tentare di fare a computer quello che Quentin aveva sognato 40 anni prima. Questi sono i primi casi dell’uso del computer che permette di fare cose che a mano non si riuscirebbe a fare. Hesbert fa poi una raccolta delle antifone d’ufficio (le lodi religiose). Ci sono diversi manoscritti che riportano questi testi. H usò 800 manoscritti che il computer ordinò e di cui catalogò le differenze. Questi sono i primi casi di risultati ottenuti grazie al computer. Negli stessi anni si era ritornati sui lessici e si cominciavano a fare i primi lavori ed esperimenti di lessicografia realizzata col computer. Il vantaggio è che il computer rende possibile un’analisi di una massa di dati impensabile; non è soltanto maggior velocità o praticità, il lavoro è un altro. L’analisi del lessico e lo studio della critica testuale sono i due grandi campi che hanno fatto nascere l’informatica umanistica. L’esempio di Solèsmes è un esempio di rapporto tra umanità e tecnologia. Intuirono che la tecnologia permette di fare un salto, di cambiare proprio il paradigma del lavoro.

Lezione 7-8-9 – 10/03/

Come trattare i testi Corpus (corpora)  raccolte di oggetti che hanno una certa omogeneità Es. I romanzi francesi dell’Ottocento  testi accessibili, computerizzati che raccolgono i romanzi francesi dell’ Es. I numeri del quotidiano La Stampa del 2001 Es. Raccolta di opere di Mozart o quadri di Raffaello La parola corpus, ora usata in ambito informatico, è utilizzata spesso in ambito culturale, nello studio del diritto, nella lingua latina. È una raccolta omogenea, ma per “omogeneità” ci si può riferire a parametri diversi: opere teatrali, collezioni, articoli di quotidiani ecc. ecc. Dal punto di vista storico, è molto importante il Corpus Thomisticum: san Tommaso, uno dei più grandi geni della storia umana e l’intelligenza più lucida della filosofia occidentale sempre in grado di cogliere il centro del problema. San Tommaso scriveva con facilità e moltissimo; la produzione di Tommaso è stata quantitativamente spaventosa  studiare il suo lessico, nelle sue opere, vuol dire studiare tutto e farlo a mano è impossibile. 71 anni fa, uno studioso italiano, Roberto Busa, sacerdote e studioso di filosofia, voleva studiare il lessico della interiorità in San Tommaso (vita interiore dell’uomo) e si era reso conto che per farlo a mano sarebbe stato impossibile. Ebbe allora l’idea di utilizzare i nascenti computer  si mise d’accordo con una grande società di computer (IBM) e fa partire questa idea: inizia a trasferire su schede perforate ( si identificava una lettera o una parola a seconda della disposizione dei buchi) il materiale (scritti di San Tommaso) in modo tale da riuscire a identificare tutte le parole del santo in quel contesto particolare e classificarle. Padre Busa osservò che se lui avesse dovuto continuare questa opera non adoperando i nastri, i floppy disk e tutti gli strumenti apparsi successivamente, sarebbero state 500 tonnellate di carta. Oggi, tutto quello che c’è nel corpus Thomisticum può stare tranquillamente in una chiavetta ed essere accessibile attraverso un sito web curato da una università della Spagna del Nord (Navarra). La raccolta di questo corpus è stata l’apripista che ha permesso di elaborare tecnologie che servono tutt’ora per lo sviluppo dei concetti che riguardano lo studio dei testi. L’errore più grave è immaginare il computer come uno strumento che permette di fare le stesse cose in modo più veloce. Non è questo  il computer permette di fare altre cose, di immaginare cose diverse. Oggi la possibilità di muoversi ha reso possibile immaginare un certo modo di vivere che prima era inimmaginabili. E la stessa cosa vale per il computer. Non si tratta più di fare le stesse cose, ma di rendersi conto che il computer ci permette di impostare ricerche diverse. Il progetto iniziato da Busa rappresenta un tipo di ricerca che senza l’approccio al computer non sarebbe stato pensabile. Possiamo costruire il corpus e accedervi in maniera molto rapida. E non si tratta solo di quantità, ma anche di qualità. Strumenti fondamentali per analisi dei testi

  1. Gli elenchi di parole : semplice lista degli elementi lessicali contenuti in un corpus di testi, tecnicamente complessa. È importante saper identificare le parole, che non è facile (Reggio Calabria, 1 parola, ho parlato 1 parola). Il computer deve essere in grado di fare questo

o Case  alloggiamento dei vari componenti o Alimentatore o batterie o Scheda madre  parte del computer che fa il lavoro vero e proprio: comprende il processore, le memorie (mantengono le info che verranno elaborate dal computer), la scheda grafica (elaborazione delle immagini), la scheda di rete (permette di connettersi alla rete). o Schede di espansione  aumentano la memoria del dispositivo o Memorie di massa  memorie che permettono di archiviare i dati:

- Disco rigido (magnetico o allo stato solido)  allo stato solido funzionano un po’ come chiavette, che non hanno parti in movimento; quelli magnetici hanno una testina che gira _- Penne USB

  • Floppy disk (non più usati)_  sistema di archiviazione dati molto rigidi e poco pratici (1,44 mega di spazio) - Nastri magnetici (ancora usati dai grandi centri di calcolo)  sistemi usati per molti anni che permettevano di archiviare una certa quantità di info con un sistema simile a quello dei nastri dei registratori. Aveva pochissimo spazio di archiviazione, dovevano essere tanti nastri magnetici per fare l’equivalente di una chiavetta. Un tipo di nastro magnetico è la cassetta.  Le periferiche o Input  tastiera, mouse, touch screen, scanner, microfono, videocamera… o Output  monitor, stampante, altoparlanti  Software: o Dati  file contenenti testi, immagini, video, spesso indicati da diciture come PDF, DOCX, JPG ecc… o Programmi  files che contengono le istruzioni per svolgere un compito: browser, elaboratori di testi o immagini ecc… o Licenze: - Programma aperto (Free software) In un programma aperto (free-open) la serie di istruzioni è liberamente studiabile e modificabile, è possibile scaricare la source, sorgente, del programma e studiarla, proporre delle modifiche agli autori per esempio sugli errori. Oppure trovi che mancano determinate caratteristiche e vorresti inserire possibilità diverse: hai il diritto di usare il codice del programma aperto per costruire il tuo programma. Free non vuol dire gratis, ma libero (Free per freedom). Un software aperto si può vendere. Il punto è che ci sia l’accesso libero. Es. Wikipedia
  • Programma proprietario  il programma non è liberamente accessibile e modificabile e i dati non sono liberamente accessibile. Richard Stallman negli anni 80 ebbe l’idea che il software dovesse essere “un’opera d’ingegno totalmente condivisibile”. Personaggio curioso, fondamentalista: si è sempre rifiutato di usare un cellulare. Ci sono attualmente nel campo del free software 2 tendenze: una è molto dura nei confronti della scelta della libertà di accesso ai dati (Stallman non usa il cellulare perché entrano in casa tua), l’altra è legata a Torvalds (turvalds) il quale ha un’idea del software aperto di tipo

pragmatico: io voglio usare free software, se esso funziona meno bene di un altro, uso il software commerciale, perché il punto è che funzioni bene. Un driver proprietario funziona anche meglio di un free software, ma l’idea del free software è legata alla condivisione delle idee, non legata all’economia dell’acquisto.

Lezione 10-11-12 – 17/03/

I corpora di testi Il primo grande corpus di testi è sicuramente il web. Il web contiene una serie di testi talmente ampia che dimenticare il web significa non usare la risorsa più straordinaria che noi abbiamo a disposizione. Es. Credo che sia giusto  italiano corretto. Se noi cerchiamo sul web questa voce, otteniamo 216 mila risultati; se cerchiamo “credo che è giusto”, otteniamo più di 1 milione di risultati, 5 volte tanto. Questo ci insegna che il congiuntivo in italiano sta perdendo ultimamente e la ricerca sul web mostra che espressioni come “credo che è giusto” o “credo che è importante” danno risultati maggiori. Il congiuntivo resiste nelle proposizioni di II grado, mentre non ce la fa più nelle proposizioni di I grado. C’è un costrutto che sta superando il problema del congiuntivo: l’infinito. Es. “Vieni anche te”  italiano scorretto ha 26mila risultati; “vieni anche tu” ha più di 170mila risultati. In questo caso, l’italiano corretto resiste. Attraverso il web, risorsa assolutamente gratuita, possiamo ottenere dei risultati che non sono esaustivi dal punto di vista (ho solo quei risultati numerici), ma cominciamo a orientarci per fare una ricerca in una determinata materia. Es. Segreteria studenti/incrocio autostrada  2 sostantivi, il primo viene specificato dal secondo, che restringe l’ambito del primo. Questa struttura è stata descritta per la prima volta nel 1963: un linguista, Antonino Pagliaro, si accorse della presenza di questa struttura in un momento tragico. Ci fu in quell’anno un grande disastro, la Diga del Vaiont, dove un paese intero venne distrutto perché una montagna cedette, precipitò dentro un lago artificiale e l’acqua fuoriuscì distruggendo il paese sottostante. Pagliaro aveva notato un cartello che dava indicazione ai parenti che venivano a chiedere notizie delle persone dei paesi colpiti: “Attesa parenti”  Pagliaro aveva osservato che c’era questa nuova struttura, dove il secondo sostantivo specificava il primo. Se cerchiamo segreteria studenti sul web, abbiamo 24 milioni di risultati; ma se scrivo “segreteria studenti” con le virgolette, abbiamo 400 mila risultati: nel motore di ricerca di Google vale la logica booleiana, la logica che unisce affermazioni con unione, accostamento, alternativa o alternativa secca:  noi possiamo scrivere alcuni operatori, indicazioni che dicono al programma cosa vogliamo fare. Se scrivo segreteria studenti senza virgolette, c’è un “and” implicito, segreteria e studenti (segreteria AND studenti).  Se invece lo scrivo con le virgolette, chiediamo a Google di cercare tutto il testo nella totalità, questa sequenza esatta di caratteri (“segreteria studenti”).  Io potrei anche cercare segreteria o studenti, e allora il motore mi cercherà o segreteria o studenti o tutti e due (segreteria OR studenti).  Se io voglio segreteria o studenti, o l’uno o l’altro, insieme non le voglio (segreteria XOR studenti).

Ho dunque costruito un corpus: scaricato la divina Commedia da un sito e l’ho messa dentro. su questo corpus, grazie a semplici forme di analisi, posso fare dei lavori di tipo professionale. Con questo programma possiamo fare ricerche significative: collocazioni di parole (disse; donna, contestualizzandole)… Ma come indicare le diverse funzioni delle parti del testo? o AntConc  Programma free multipiattaforma, ma non open-source. Anche qui possiamo guardare le concordanze, parole segnate da colori diversi. La differenza da T. è sostanzialmente una questione di gusti, ma funzionano più o meno allo stesso modo. Dal punto di vista dell’impatto grafico, questo funziona meglio anche per distinzione delle parole con colori. È possibile scrivere (Ell(ai))  voglio cercare sia “elli” che “ella”. Liste di parole, concordanze, grafico. Ma anche qui se io prendo un verso non mi fa vedere in quale canto e in quale cantica si trova, quindi per questo è limitato. Questi programmi permettono lavori di tipo professionale, permettono ricerche approfondite La lemmatizzazione dei testi Dire è un lemma del vocabolario, disse è una forma  lemmatizzazione dei testi. Ci sono dei programmi che permettono di passare da una lista non lemmatizzata e una lemmatizzata di parole, con tutte le parole messe in una lista secondo i lemmi del vocabolario (andarono, vanno, vadano tutti sotto lo stesso lemma). o Word Cloud  risorsa che rappresenta la frequenza delle parole in un testo con una rappresentazione grafica. Più una parola è frequente e più viene scritta con carattere grande e vanno via via rimpicciolendosi in base alla frequenza. I word clouds sono importanti perché hanno portato a un’influenza incredibile nel discorso politico, quando nell’attuale PD vi erano due candidati che si contendevano la segreteria, Bersani e Renzi. Qualcuno fece il Word Cloud dei due discorsi, che misero in risalto parole completamente diverse e questo andò a favore di Renzi, perché esaltava un mondo politico più innovativo e giovane. Il fatto di utilizzare WC è più una questione di grafica, non cambia nulla del testo, è solo graficamente più piacevole. I Word Cloud possono essere lemmatizzati o no: in un caso lemmatizzato di Divina Commedia ho i termini più grandi o più piccoli in base alla frequenza disposti in ordine alfabetico. Un Word Cloud lemmatizzato senza esclusioni mi mette in evidenza parole come “che” “essere” “e” “la”; un word cloud lemmatizzato con esclusioni mi permette di eliminare quelle parole basilari come articoli e congiunzioni e questo mette in risalto altre parole come “vedere”, “cielo”, “Dio”, “stare”, “occhi”... Tutti questi rilievi ci dicono qual è il mondo poetico di Dante. Anche il non lemmatizzato è importante, perché mi fa vedere le collocations, le parole nel proprio contesto; la lemmatizzazione mi dice la semantica del testo.

Lezione 13-14-15 – 24/03/

Sistema operativo

Viene spesso chiamato OS ed è il software di base che permette di accedere all’hardware di un sistema informatico, di controllare input e output, le periferiche ed è necessario perché gli altri programmi operativi (applicativi, apps) possano funzionare. Software di base  vuol dire che senza di esso il computer non funziona, si vede solo schermo nero. È necessario un software di base che metta in contatto il processore con tutte le altre periferiche e che permetta di fornire un input al processore del computer che a sua volta darà un output. Solitamente i computer hanno già un sistema operativo installato al momento della vendita, ma deve essere precedentemente installato. Non esiste un solo sistema operativo: si parla di “famiglie di sistemi operativi”. I sistemi operativi di oggi sono divisi in 2 famiglie:

  1. Sistemi operativi Unix da cui derivano altri sistemi come Linux, Android, Apple OS X, Apple IOS.
  2. Microsoft Windows e varietà annesse  quando si compra un sistema windows è ormai windows 10 oggi. o Unix  famiglia di sistemi operativi che deriva da un sistema che è stato sviluppato ormai 50 anni fa da due sviluppatori americani, Thompson e Richie. Da Unix derivano sostanzialmente tutti i sistemi operativi in uso a parte Windows. Grazie a Richie sono state sviluppate tutte le ossa del mondo informatico di oggi, è una persona importantissima. Morì 10 anni fa, pochissimi giorni dopo Steve Jobs. La differenza è che Ritchie è stato un grande studioso di informatica ma nessuno lo conosce, mentre gente pensa che gente come Steve Jobs fosse un grande personaggio dell’informatica. Jobs è stato un grande manager, ma non ha fatto chissà che come informatico. Ritchie era uomo di studio che insieme a Thompson ha sviluppato un sistema operativo che fa girare il mondo, e ha sviluppato poi un linguaggio di programmazione (sistema per dire al computer cosa deve fare) “Linguaggio C” che è quello che fa funzionare larga parte del mondo informatico di oggi. A Ritchie si deve anche parte dei protocolli di trasmissioni di dati che rendono possibile esperienza del web. “Linguaggio C” viene chiamato cosi semplicemente perché prima avevano creato un codice che si chiamava “B”. Tutte queste parole inglesi sono ormai entrate a far parte del nostro vocabolario quotidiano: la lingua italiana e tedesca si sono arrese all’utilizzo di questi termini, contrariamente al francese che invece si è difeso molto bene non sostituendo termini francesi con quelli inglesi. Sistemi UNIX I sistemi operativi basati su Unix sono veramente di tantissime tipologie. Unix emerge negli anni 70 circa, da cui poi esce sistema operativo BSD e diverse società come HP o Sun sviluppano il proprio sistema operativo. NextStep = sistema di computer con vita breve ma computer meravigliosi, più avanti di tutti, anche a Windows (fine anni 80 e anni 90) e costavano moltissimo; avevano una potenza di elaborazione grafica impensabile in quegli anni. Apple ha ereditato BSD e Nextstep e hanno creato sistema OS X della apple, chiaramente è un sistema proprietario, bloccato.

il programma era stato letto dal computer, toglievi il programma e infilavi un altro dischetto ci dati che volevi inserire, salvare ciò che scrivevi, togliere il dischetto e infilare di nuovo il dischetto col programma. Il primissimo PC IBM non aveva 2 buchi, ne aveva uno solo, per cui era un continuo “metti e togli” dischetti. È stato questo felice incontro tra IBM che produceva queste macchine e la Microsoft che ne produceva il sistema operativo che ha fatto nascere “l’informatica di massa” (primi anni 80). La Microsoft, entrando in alleanza con IBM, che permetteva la vendita di computer funzionanti a un prezzo più basso ha fatto nascere l’informatica di massa. La piccola ditta allora non avrebbe più portato i conti agli uffici di calcolo. o Windows  Microsoft Windows, famiglia di sistemi operativi che derivano da un’interfaccia grafica utente sviluppata nel 1981 e distribuita dal 1985. I sistemi windows sono i più diffusi nell’informatica personale. Unico modo di usarli era mediante interfaccia a linea di comando. Uso di interfaccia a linea di comando estremamente rapido e conveniente. Quelli che criticano Windows sono cretini perché senza non avremmo l’informatica di massa. Non dimentichiamoci poi che la Apple, in quegli anni di Microsoft IBM che permetteva di lavorare solo con linea di comando, aveva raggiunto un successo di vendite con un’interfaccia grafica; la Microsoft si ispira al sistema della Apple e inventa Windows. La Microsoft ha copiato da Apple, tanto è vero che Bill Gates è stato denunciato per aver copiato Windows da Apple. A sua volta la Apple era stata denunciata dalla Xeros perché aveva copiato dall’interfaccia grafica che avevano i computer della Xeros. Si tratta di tutta una serie di spionaggio industriale, ma la Apple ha dato sicuramente un’accelerata all’interfaccia grafica. Diffusione di informatica di massa grazie a IBM più Microsoft; dall’altra parte la Apple che punta sull’interfaccia grafica e che rappresenta un problema per la Microsoft che copiando fa nascere Windows. Tutti hanno dato il loro contributo nello sviluppo dell’informatica come quella che è oggi. L’Italia è stata, fino agli anni 80, una delle nazioni al mondo più capace di innovazioni in campo tecnico e tecnologico. Poi è successo che noi i brevetti non li vendiamo più ma li compriamo. La Olivetti negli anni 60 grazie a un gruppo di ingegneri aveva capito che il futuro non stava nelle grandi calcolatrici meccaniche, ma nell’elettronica. Ci fu un ingegnere Perotto che aveva fatto alleanza con un altro notevole personaggio di origine cinese, aveva sviluppato la prima macchina programmabile della storia (Programma 101), che aveva qualità straordinarie rispetto alle altre macchine: non era in grado di fare solo una certa cosa. Leggeva una scheda magnetica che si inseriva nella macchina, veniva letta e la macchina eseguiva l’informazione richiesta; il risultato veniva stampato su un rotolo di carta, siamo nel 1965. Questa macchina venne venduta dopo un grande successo negli Stati Uniti, in moltissimi esemplari (44.000 prodotti a 3200 dollari di prezzo). Il successo di vendita di questa macchina fu importantissimo. La NASA, tra 1969 e primi anni 70, fece diverse spedizioni lunari e tra i computer che le controllavano vi erano parecchi esemplari della “Perottina”  spedizione lunare con tecnologia italiana per quanto riguarda trattamento informatico dei dati. Che cosa sia successo all’Italia poi non si sa, non si sa come si sia passati dalla vendita all’acquisto dei brevetti. Tipi di interfaccia

 Interfaccia di comando  Command-line interface (CLI): grande rapidità e controllo assoluto da parte dell’utilizzatore; lo svantaggio è che uno deve ricordarsi molti comandi, anche centinaia.  Interfaccia grafica utente  Graphical user interface (GUI) permette all’utilizzatore di interagire con un sistema informatico mediante una serie di immagini (dette abitualmente icone) Analogico e digitale Molto spesso si usa parole “digitalizzazione” un po’ a caso. Una meridiana è sistema analogico perché è la riproduzione con un altro sistema dello spostamento del sole nel cielo  è un procedimento continuato, un’analogia. L’asticella della meridiana non si sposta di scatto, ma il suo è un movimento continuo. È lo stesso principio degli orologi o delle sveglie, in cui tra un minuto e l’altro si muove con un movimento continuato. Ma se io prendo un orologio digitale, tra il secondo 53 e il secondo 54 non c’è nulla in mezzo, non è un movimento continuo, ma c’è un salto da una posizione all’altra. Digitale significa semplicemente “numerico”. Si dice “digitale” qualcosa che ha a che fare con le dita  le dita servono per contare, e allora dita è diventato sinonimo di numero. La parola inglese “digital” significa semplicemente numerico, tanto è vero che i francesi, per indicare “digitale” usano l’aggettivo “numérique”. Tutto ciò che viene passato a computer diventa numerico: una serie di scatti discontinui, mentre i processi analogici sono processi di tipo continuo. Digitalizzazione significa trasferimento a computer che funziona come sistema numerico. Testo computerizzato Io riproduco su un altro mezzo del testo che è trasmesso con strumenti analogici: prendo un libro, lo passo nello scanner e ottengo una fotografia di questa pagina e la archivio. Cercare un’informazione in 1200 pagine cartacee o computerizzate è identico. Si tratta di cambiamento di supporto che non modifica il contenuto del testo. Nel momento in cui io voglio ottenere un file di testo utilizzabile, posso usare 2 processi:

  1. Lo scrivo a mano  ci sono grandi corpora di testi, come il Theraurus Linguae Graecae che sono stati realizzati copiando a mano dal testo greco, copiati a mano da chi non conosce il greco e quindi limitando la possibilità di errori perché copiano e basta. È un procedimento puramente meccanico. Modello primitivo ma non così efficiente
  2. Scansione e OCR  passo il libro allo scanner con il quale ottengo un’immagine grafica. Lo scanner esegue una fotografia e ottiene un file grafico che per il pc si tratta di un’immagine, composta da pixel (elementi della figura) che sono tanto più piccoli quanto è maggiore la risoluzione dell’immagine. Ci sono programmi che riescono poi a estrarre un testo da una fotografia di un testo. Se scelgo la parola “Generosum” e la mostro con una risoluzione a 75 dpi, non si legge molto bene, a 300 si legge bene, a 1200 dpi è ancora meglio. La differenza di risoluzione è molto diffusa nel mondo degli smartphone: un telefonino a basso prezzo renderà una fotografia in un modo, un telefono con prezzo maggiore avrà una qualità di foto maggiore. Una volta fatta la fotografia, ci sono programmi OCR (optical character recognition) che riconoscono le parole dall’immagine e, confrontando i dizionari delle diverse lingue già

scritti in piccolo. È la stessa logica del cartello stradale, così come di un giornale radio o di un telegiornale, che prevedono titoli iniziali. Le sequenze di caratteri hanno funzioni diverse a seconda del sistema grafico che adopero. La stessa cosa vale per i testi scritti di carattere letterario. Testo di divina commedia: inizio c’è scritto “Canto Primo” in grande; poi “Proemio generale, lo sviamento…” un po’ più piccolo; poi il testo di Dante, impaginato col primo verso a filo e gli altri due rientrano (organizzato in terzine); poi, in piccolissimo sotto il testo, le note. Ogni parte del testo svolge una sua funzione. Tutta l’informazione che ci circonda funziona in questo modo, attribuendo a ogni parte del testo una funzione trasmessa al lettore in diverse modalità. Altra versione di Tommaseo: in alto in grande “Canto I”, non “Canto Primo”; poi segue “argomento” e racconta la trama; poi “nota le terzine” in più piccolo. L’edizione di Tommaseo, al contrario di quella di Scartazzini, numera le terzine. Tutto quello che noi facciamo nella nostra vita quotidiana è indicare le funzioni, anche perché è un modo per gerarchizzare le informazioni. Il ruolo metalinguistico  La parola “house” è un sostantivo inglese  descrivo la lingua inglese usando la lingua italiana  “Essere” is an italian verb  descrivo la lingua italiana con la lingua inglese  Precipitevolissimevolmente è una parola molto lunga  uso l’italiano per descrivere l’italiano  NIXON SI è DIMESSO è un titolo  posso dirlo con il cambio di voce, con la pagina grafica di giornale o con i caratteri grandi Un metalinguaggio descrive una lingua. Quindi  io posso descrivere aspetti morfologici ma come spiego al computer tutto questo? Come faccio far sì che il computer sappia cosa c’è dentro ad un testo? L’attività metalinguistica di dire “questo è un verbo” la facciamo sempre implicitamente. Nel momento in cui noi non sappiamo una parola riportiamo la metalinguistica alla nostra coscienza, proprio perché non la capiamo subito. Trasferire questa cosa al computer non è semplice: il computer non è come un cervello umano che funziona più lentamente. Per far capire per esempio al computer che la Commedia è divisa in versi, è possibile usare un’etichetta fatta dal numero del verso seguito dall’underscore (_) accanto al verso. Il computer allora saprà computare che in una pagina ci sono, per esempio, tre versi. Questo è un esempio di linguaggio di marcatura. Il linguaggio di marcatura non indica solo alcune cose, ma posso marcare qualsiasi cosa. Per esempio posso decidere di codificare la morfologia del primo verso: Pra = preposizione articolata _  PRA_Nel SOS = sostantivo _  SOS _ mezzo AGG = aggettivo _  AGG_nostra

Alla fine di un lavoro del genere io avrò tutta la divina commedia marcata in questo modo. A questo punto posso chiedermi: quali sono gli aggettivi che usa? Quali sono i verbi che usa di più? Quest’analisi mi permette anche di disambiguare le informazioni: AMO è verbo o nome; CAMMINO è verbo o nome; io come parlante disambiguo automaticamente ascoltando o leggendo un testo, ma il computer non sa queste cose se non gliele dici in qualche modo. La marcatura, in questo caso, consente di codificare la morfologia. Ma, riprendendo l’indicazione del verso di prima, fin dove si estende “VERSO”?  dovremmo scrivere VERSO_PRA_Nel  è brutto e difficile  c’è un sistema semplice basato su ON/OFF. io posso scrivere Nel  il primo pra è ON, accendo il valore metalinguistico, segue valore di pra “nel”, /Pra OFF = fine della preposizione articolata Quindi: = Inizio di PRA ; = Fine di PRA  è come se scrivessi ON Nel OFF, aprendo e chiudendo quella sequenza di caratteri. Il grosso vantaggio è che io posso chiudere queste informazioni lasciando aperto “VERSO” (vedi slides lezione 6” e chiudendolo solo alla fine della sequenza: quindi ….. .

  1. La funzione è abilitata (aperta:ON) prima dell’oggetto con una notazione convenzionale
  2. La funzione è disabilitata (chiusa: OFF) dopo l’oggetto con una notazione convenzionale Questa forma di codifica si chiama XML: Extensible Markup Language. Con XML si possono descrivere non sono testi ma qualunque oggetto; essa e molto efficiente perché l’idea apro-chiudo è risolutiva per un sacco di campi diversi deriva dalla necessità negli USA di condividere informazioni di assicurazioni tra ospedali. Non vi è un’assicurazione sanitaria comune, e spesso era necessario lo scambio di dati tra diverse assicurazioni o tra assicurazioni e ospedali. L’idea di codificare le informazioni in questo modo semplice deriva proprio da qua. Noi non possiamo pensare di codificare tutto, codifichiamo quello che ci serve, che ci interessa. Se vado a una lezione, non mi ricordo in che fila ero in aula; ma se vado a un concerto, è importante la posizione dove sono (per acustica, per vedere…). Allo stesso modo noi non possiamo chiedere al computer di descrivere tutto, ma descriviamo quello che ci serve volta per volta. Questo sistema nasce tra 1997-1998: “Extensible” significa che la struttura di base è “apri, valore, chiudi”, poi ciascuno può costruire le proprie strutture di questo tipo. (vedi slides per esempi) Es. Jon Bosak ha codificato il teatro di Shakespeare con questa struttura (1998). Jon Bosak è una personalità che nessuno conosce, eppure è la persona alla quale XML deve di più. Addirittura viene considerato il XML father, perché è quello che ha inventato di più. Però, ecco, grandi manager aziendali si fanno la reputazione di essere grandi eroi dell’informatica che però non ha fatto nulla, mentre i veri eroi grazie ai quali l’informatica funziona non se li calcola nessuno. Grazie a queste sequenze di caratteri codificati riesco a sapere le funzioni dei vari caratteri.

di XML. Allo stesso tempo è una grande forza perché mi permette di fare quello che voglio, il che nelle mani di un competente va benissimo, nelle mani di un non competente viene un disastro. La TEI (Text Encoding Initiative) Nasce negli anni 80 a Oxford e ha sviluppato un’indicazione su come descrivere i testi, tutti i testi prodotti. Il manuale ha più di 400 pagine di indicazione, tradotto anche in italiano, poi più tradotto. Es. di Blake e Carme di Catullo (vedi slides)  line  line group  apertura e chiusura della poesia Questo significa che lo stesso programma mi permette di analizzare un testo di Blake o una poesia di Leopardi e la letteratura comparata avrà una marcia in più straordinaria con questo sistema, perché mi permette di comparare e di usare lo stesso sistema con testi diversi. È una subordinata di XML, e in essa riuniscono tutti i testi facendo si che si potessero trovare tutti in un punto e hanno creato un linguaggio standard per evitare quegli errori che si continuano a fare. Limite  XML funziona come le matriosche: poema, cantica, canto, terzina… ma questo non permette spesso di codificare una frase intera (lupa di Dante in slides). Come faccio a identificare una frase all’interno di una struttura basata su architettura inclusiva dal più grande al più piccolo? La frase può essere interna a un verso oppure andare da una terzina all’altra. Questo è un limite ed è il problema principale della codifica oggi: una risoluzione non c’è ancora. Se ho una struttura a incastro e io non ho un tipo di codifica che rientra in questa struttura a incastro ecco che il sistema non funziona.

Lezione 19-20-21 – 21/04/

Il computer non considera il file come lo consideriamo noi. Per noi il file è una serie di parole che siamo in grado di leggere, di stampare, di interpretare; il computer lo vede in maniera diversa (vedi slides) attraverso caratteri che per noi non hanno senso. Questi caratteri che noi non capiamo dicono al programma come impaginare e organizzare il testo  senza questi caratteri il computer non riuscirebbe a leggere un file o lo leggerebbe sbagliato. Ancora una volta è l’illusione dell’oggettività  pensare che un oggetto sia fatto così come lo vediamo noi, ma noi vediamo solo quello che ci serve vedere (per un bibliotecario sarà importante lo spessore e il peso di un libro, mentre a me lettore non mi interessa che peso abbia, mi interessa l’argomento o se è bello o meno, cose che a un bibliotecario non interessano); tutto in realtà è codificato. Noi abbiamo l’illusione di vedere oggetti statici, ma noi codifichiamo un testo e un oggetto in base a quello che ci serve. Noi vediamo parte della realtà, la parte della realtà di cui abbiamo bisogno. L’illusione di vedere tutto e di avere un rapporto totale è la causa dello scetticismo, perché si rende conto di non dominare tutta la realtà. Noi siamo in grado di cogliere alcuni aspetti di un oggetto, non tutto. La codifica dei caratteri

Es. Egli andò via perché finì l’attesa Spesso capita che i caratteri accentati non si leggano bene e vengano sostituiti da segni strani e incomprensibili. Questo vuol dire che quello che per noi è ovvio, per il computer non lo è. Il computer codifica le informazioni attraverso una serie di impulsi ON-OFF, una serie di 0- nell’alfabeto binario. Per il computer ogni carattere è una serie diversa di 0 e 1. Allora è necessario per il computer che ogni carattere che per noi è normale sia codificato come una serie di impulsi 0-

  1. Per cui, il computer si trova di fronte a quello che io scrivo sulla tastiera come lettera “A” e il computer deve essere in grado di sapere che questo mio input ha una sua codifica nel computer, ovvero una certa serie di 0 e 1. Se il computer non sa dare una corrispondenza a questo input, il risultato è che non sa rappresentarlo in maniera corretta. Per ogni carattere corrisponde un posto in una tabella caratterizzata da un numero e ciascuno di questi posti è realizzato in modo preciso dal computer (sistema operativo). Nei primi anni del computer (60 anni fa), ogni centro di calcolo aveva il suo sistema operativo  Il discorso è: se la lettera A corrisponde a un punto in una tabella che io uso nella mia università ma che l’altra università non ha, il computer di là non riesce a leggere quello che io invio. Ecco che allora c’era bisogno di un adattamento, di una conversione. Nel 1963 nasce la prima tabella di codifica condivisa, l’American Standard Code for Information Interchange (ASCII pronuncia “aschi”) che poi si estende a livello internazionale, in cui i caratteri condivisi erano 128. Di più, per questioni di potenza di calcolo dei computer del tempo, non potevano fare. Questa tabella comprendeva lettere, numeri, alcuni segni di interpunzione, alcuni tasti come cancella o invio. Il problema sorge con le lingue che non si basano soltanto sui caratteri di base latini (vocali accentate o umlaut o tilde)  si è fatto ricorso in quegli anni di sistemi (come scrivere perché con l’apostrofo o scrivere aendern per sostituire umlaut) per sopperire a questa mancanza di caratteri. Negli anni ’80, l’aumentata capacità di calcolo dei computer ha permesso di passare da 128 a 256 caratteri. Nascono nuove tabelle ASCII estese (anni 80-90), che portavano il numero 8859. Una era chiamata 8859-1: era la tabella delle lingue europee che permetteva di usare le vocali accentate della maggior parte delle lingue europee. Queste tabelle (8859-1 e 8859-15) presero già i 128 caratteri codificati nelle prime tabelle e aggiunsero altri caratteri, così anche testi precedenti erano ancora leggibili dalle nuove tabelle e arricchite da altri caratteri. In quegli anni però ci fu un problema dovuto all’isolazionismo della Apple che non volle accettare questa tabella di caratteri e se ne creò una sua. Il risultato fu che mandando mail da Apple a Microsoft, certi caratteri saltavano. Grazie a questa tabella di caratteri si ottennero dei buoni risultati ma non tutti i caratteri di tutte le lingue europee ci stavano. Ogni tabella estesa copriva solo alcuni caratteri  la parole oevre in francese letta giusta in una tabella 8859-15 veniva letto come ½ uvre da un programma che presuppone la codifica 8859-1, perché quella tabella di codifica associa a un input un carattere che in tabelle diverse o non aggiornate non sempre corrisponde. In una tabella 8859-1 il greco non esisteva. Il greco verrà introdotto poi nella tabella 8859-7. Differenza tra 8859-1 e 8859-15  nella 8859-15 abbiamo 10% di caselle occupate diversamente. I caratteri sono sempre 256.