



















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti completi del corso di Linguistica Computazionale tenuto dal professor Milanese, anno accademico 2020-2021
Tipologia: Appunti
1 / 27
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




















C’è la possibilità col computer di riconoscere le immagini e di associarle ad altre immagini in automatico. Il computer non ha solo la velocità di un’azione, ma permette di fare cose diverse rispetto alla realtà, o a mano. Es. Il computer è in grado di confrontare immagini e di risalire ad altre immagini simili a partire da un’immagine di partenza; questo è anche positivo e ha ampliato molto le prospettive della storia dell’arte. Es. Dante continua nella sua Commedia a parlare di “occhi” e “vedere” il computer è in grado di identificare strutture, ricorrenze che noi a mano non riusciamo a vedere. Es. Il computer ci aiuta a capire se un’opera è vera o falsa, se si può attribuire a un autore rispetto all’altro. Il computer, studiando caratteristiche dello stile e opere datate, ha scoperto differenze anche all’interno dello stesso autore (Platone giovane scrive in un modo, Platone vecchio scrive in un altro). Es. Anche in musica si possono fare grandi lavori con il computer. Il computer è in grado di riconoscere a chi appartiene una melodia, o permette di confrontare melodie e autori. Il computer cambia l’approccio alla ricerca e la vita dello studioso.
L’informatica è umanistica quando è pratica e teorica, quando è legata cioè sia alla pratica che alla teoria, alla cultura del tempo. È importante il rapporto tra teoria e pratica. Citazione di Tito Orlandi, maestro dell’informatica umanistica: “Mi sembra evidente che quando il computer nelle scienze umane è adoperato in quanto imita comportamento di macchina tradizionale, allora non si pone alcun problema di tipo metodologico” le macchine da scrivere erano sistemi che permettevano di scrivere su carta attraverso il premere un tasto. Se uno usa un programma di scrittura e lo usa come se fosse una macchina da scrivere, egli non usa il computer. È come se usasse il computer come una macchina da scrivere. Se noi usiamo il computer solo per simulare una macchina, allora il computer non svolge più il suo lavoro, viene adoperato senza domandarsi quali siano le caratteristiche del computer. “In questo caso non c’è nessuna differenza dalle procedure tradizionali, se non la velocità e modalità d’uso. Al contrario, quando il computer è utilizzato nella sua piena capacità di eseguire algoritmi, le scienze umane si confrontano con situazione nuova per la quale non esiste al momento metodologia riconosciuta comunemente”. Che cos’è un algoritmo?
Se io ho una piccola opera di 20 pagine che è stata copiata su 5 manoscritti e un’ edizione a stampa, confronto i vari manoscritti e stabilisco qual è il testo più antico. Ma se io ho un’opera complessa, di più di 600 pagine a stampa, tramandata da 170 manoscritti più edizioni a stampa, è impossibile fare lo stesso lavoro a mano. Se dovessi fare questo lavoro con la Bibbia, ecco che allora il computer diventa indispensabile. Il problema è confrontare migliaia di manoscritti tra loro e cercare di dare un senso a questi confronti. Nell’800 c’era un monastero nel nord della Francia a Saint-Pierre de Solèsmes che venne rifondato da un giovanissimo sacerdote. Qui iniziarono diversi progetti di studio di testi tramandati in tanti testimoni: Bibbia, martilogi (vite dei santi), testi liturgici e canti liturgici. A Solèsmes iniziarono ad avere un rapporto con la tecnologia dell’epoca più avanzata, la fotografia. Se uno avesse voluto studiare i manoscritti della Bibbia non avrebbe dovuto girare per mezza Europa e copiare a mano i manoscritti che trovava, ma si stabilì un uso della fotografia e mandavano in giro i monaci a fotografare in modo da ottenere delle copie che permettevano loro di eseguire tutti i confronti, confrontando in maniera efficace il manoscritto di Berlino con quello di Napoli. È importante come la tecnologia cambi la ricerca. Questi monaci non avevano paura della tecnologia, la tecnologia permette di fare delle cose che non saremmo in grado di fare senza. Non facciamo le stesse cose in maniera più comoda, ma facciamo cose diverse. Henri Quentin, altro monaco di Solèsmes, idea un altro sistema per confrontare i manoscritti quasi sognando l’esistenza di un computer: non più errori, ma differenze, perché così posso raggruppare vari testimoni in base alle differenze, non importa se giusto o sbagliato. In questo modo, sia Quentin nel 1922 e uno studioso inglese Greg (Calcolo delle varianti) sognavano che dando in input tutti i manoscritti ci fosse un sistema per individuare dove si differenziassero tra loro. L’individuazione di queste differenze portava a individuare dei gruppi e raggrupparli in questo modo. L’idea di Quentin trovò nel corso degli anni una realizzazione effettiva: Jacques Frogé nel 1968 scrive un libro “la critica dei testi e la sua automatizzazione” sogno di Quentin diventa realtà. Frogé fu il primo a tentare di fare a computer quello che Quentin aveva sognato 40 anni prima. Questi sono i primi casi dell’uso del computer che permette di fare cose che a mano non si riuscirebbe a fare. Hesbert fa poi una raccolta delle antifone d’ufficio (le lodi religiose). Ci sono diversi manoscritti che riportano questi testi. H usò 800 manoscritti che il computer ordinò e di cui catalogò le differenze. Questi sono i primi casi di risultati ottenuti grazie al computer. Negli stessi anni si era ritornati sui lessici e si cominciavano a fare i primi lavori ed esperimenti di lessicografia realizzata col computer. Il vantaggio è che il computer rende possibile un’analisi di una massa di dati impensabile; non è soltanto maggior velocità o praticità, il lavoro è un altro. L’analisi del lessico e lo studio della critica testuale sono i due grandi campi che hanno fatto nascere l’informatica umanistica. L’esempio di Solèsmes è un esempio di rapporto tra umanità e tecnologia. Intuirono che la tecnologia permette di fare un salto, di cambiare proprio il paradigma del lavoro.
Come trattare i testi Corpus (corpora) raccolte di oggetti che hanno una certa omogeneità Es. I romanzi francesi dell’Ottocento testi accessibili, computerizzati che raccolgono i romanzi francesi dell’ Es. I numeri del quotidiano La Stampa del 2001 Es. Raccolta di opere di Mozart o quadri di Raffaello La parola corpus, ora usata in ambito informatico, è utilizzata spesso in ambito culturale, nello studio del diritto, nella lingua latina. È una raccolta omogenea, ma per “omogeneità” ci si può riferire a parametri diversi: opere teatrali, collezioni, articoli di quotidiani ecc. ecc. Dal punto di vista storico, è molto importante il Corpus Thomisticum: san Tommaso, uno dei più grandi geni della storia umana e l’intelligenza più lucida della filosofia occidentale sempre in grado di cogliere il centro del problema. San Tommaso scriveva con facilità e moltissimo; la produzione di Tommaso è stata quantitativamente spaventosa studiare il suo lessico, nelle sue opere, vuol dire studiare tutto e farlo a mano è impossibile. 71 anni fa, uno studioso italiano, Roberto Busa, sacerdote e studioso di filosofia, voleva studiare il lessico della interiorità in San Tommaso (vita interiore dell’uomo) e si era reso conto che per farlo a mano sarebbe stato impossibile. Ebbe allora l’idea di utilizzare i nascenti computer si mise d’accordo con una grande società di computer (IBM) e fa partire questa idea: inizia a trasferire su schede perforate ( si identificava una lettera o una parola a seconda della disposizione dei buchi) il materiale (scritti di San Tommaso) in modo tale da riuscire a identificare tutte le parole del santo in quel contesto particolare e classificarle. Padre Busa osservò che se lui avesse dovuto continuare questa opera non adoperando i nastri, i floppy disk e tutti gli strumenti apparsi successivamente, sarebbero state 500 tonnellate di carta. Oggi, tutto quello che c’è nel corpus Thomisticum può stare tranquillamente in una chiavetta ed essere accessibile attraverso un sito web curato da una università della Spagna del Nord (Navarra). La raccolta di questo corpus è stata l’apripista che ha permesso di elaborare tecnologie che servono tutt’ora per lo sviluppo dei concetti che riguardano lo studio dei testi. L’errore più grave è immaginare il computer come uno strumento che permette di fare le stesse cose in modo più veloce. Non è questo il computer permette di fare altre cose, di immaginare cose diverse. Oggi la possibilità di muoversi ha reso possibile immaginare un certo modo di vivere che prima era inimmaginabili. E la stessa cosa vale per il computer. Non si tratta più di fare le stesse cose, ma di rendersi conto che il computer ci permette di impostare ricerche diverse. Il progetto iniziato da Busa rappresenta un tipo di ricerca che senza l’approccio al computer non sarebbe stato pensabile. Possiamo costruire il corpus e accedervi in maniera molto rapida. E non si tratta solo di quantità, ma anche di qualità. Strumenti fondamentali per analisi dei testi
o Case alloggiamento dei vari componenti o Alimentatore o batterie o Scheda madre parte del computer che fa il lavoro vero e proprio: comprende il processore, le memorie (mantengono le info che verranno elaborate dal computer), la scheda grafica (elaborazione delle immagini), la scheda di rete (permette di connettersi alla rete). o Schede di espansione aumentano la memoria del dispositivo o Memorie di massa memorie che permettono di archiviare i dati:
- Disco rigido (magnetico o allo stato solido) allo stato solido funzionano un po’ come chiavette, che non hanno parti in movimento; quelli magnetici hanno una testina che gira _- Penne USB
pragmatico: io voglio usare free software, se esso funziona meno bene di un altro, uso il software commerciale, perché il punto è che funzioni bene. Un driver proprietario funziona anche meglio di un free software, ma l’idea del free software è legata alla condivisione delle idee, non legata all’economia dell’acquisto.
I corpora di testi Il primo grande corpus di testi è sicuramente il web. Il web contiene una serie di testi talmente ampia che dimenticare il web significa non usare la risorsa più straordinaria che noi abbiamo a disposizione. Es. Credo che sia giusto italiano corretto. Se noi cerchiamo sul web questa voce, otteniamo 216 mila risultati; se cerchiamo “credo che è giusto”, otteniamo più di 1 milione di risultati, 5 volte tanto. Questo ci insegna che il congiuntivo in italiano sta perdendo ultimamente e la ricerca sul web mostra che espressioni come “credo che è giusto” o “credo che è importante” danno risultati maggiori. Il congiuntivo resiste nelle proposizioni di II grado, mentre non ce la fa più nelle proposizioni di I grado. C’è un costrutto che sta superando il problema del congiuntivo: l’infinito. Es. “Vieni anche te” italiano scorretto ha 26mila risultati; “vieni anche tu” ha più di 170mila risultati. In questo caso, l’italiano corretto resiste. Attraverso il web, risorsa assolutamente gratuita, possiamo ottenere dei risultati che non sono esaustivi dal punto di vista (ho solo quei risultati numerici), ma cominciamo a orientarci per fare una ricerca in una determinata materia. Es. Segreteria studenti/incrocio autostrada 2 sostantivi, il primo viene specificato dal secondo, che restringe l’ambito del primo. Questa struttura è stata descritta per la prima volta nel 1963: un linguista, Antonino Pagliaro, si accorse della presenza di questa struttura in un momento tragico. Ci fu in quell’anno un grande disastro, la Diga del Vaiont, dove un paese intero venne distrutto perché una montagna cedette, precipitò dentro un lago artificiale e l’acqua fuoriuscì distruggendo il paese sottostante. Pagliaro aveva notato un cartello che dava indicazione ai parenti che venivano a chiedere notizie delle persone dei paesi colpiti: “Attesa parenti” Pagliaro aveva osservato che c’era questa nuova struttura, dove il secondo sostantivo specificava il primo. Se cerchiamo segreteria studenti sul web, abbiamo 24 milioni di risultati; ma se scrivo “segreteria studenti” con le virgolette, abbiamo 400 mila risultati: nel motore di ricerca di Google vale la logica booleiana, la logica che unisce affermazioni con unione, accostamento, alternativa o alternativa secca: noi possiamo scrivere alcuni operatori, indicazioni che dicono al programma cosa vogliamo fare. Se scrivo segreteria studenti senza virgolette, c’è un “and” implicito, segreteria e studenti (segreteria AND studenti). Se invece lo scrivo con le virgolette, chiediamo a Google di cercare tutto il testo nella totalità, questa sequenza esatta di caratteri (“segreteria studenti”). Io potrei anche cercare segreteria o studenti, e allora il motore mi cercherà o segreteria o studenti o tutti e due (segreteria OR studenti). Se io voglio segreteria o studenti, o l’uno o l’altro, insieme non le voglio (segreteria XOR studenti).
Ho dunque costruito un corpus: scaricato la divina Commedia da un sito e l’ho messa dentro. su questo corpus, grazie a semplici forme di analisi, posso fare dei lavori di tipo professionale. Con questo programma possiamo fare ricerche significative: collocazioni di parole (disse; donna, contestualizzandole)… Ma come indicare le diverse funzioni delle parti del testo? o AntConc Programma free multipiattaforma, ma non open-source. Anche qui possiamo guardare le concordanze, parole segnate da colori diversi. La differenza da T. è sostanzialmente una questione di gusti, ma funzionano più o meno allo stesso modo. Dal punto di vista dell’impatto grafico, questo funziona meglio anche per distinzione delle parole con colori. È possibile scrivere (Ell(ai)) voglio cercare sia “elli” che “ella”. Liste di parole, concordanze, grafico. Ma anche qui se io prendo un verso non mi fa vedere in quale canto e in quale cantica si trova, quindi per questo è limitato. Questi programmi permettono lavori di tipo professionale, permettono ricerche approfondite La lemmatizzazione dei testi Dire è un lemma del vocabolario, disse è una forma lemmatizzazione dei testi. Ci sono dei programmi che permettono di passare da una lista non lemmatizzata e una lemmatizzata di parole, con tutte le parole messe in una lista secondo i lemmi del vocabolario (andarono, vanno, vadano tutti sotto lo stesso lemma). o Word Cloud risorsa che rappresenta la frequenza delle parole in un testo con una rappresentazione grafica. Più una parola è frequente e più viene scritta con carattere grande e vanno via via rimpicciolendosi in base alla frequenza. I word clouds sono importanti perché hanno portato a un’influenza incredibile nel discorso politico, quando nell’attuale PD vi erano due candidati che si contendevano la segreteria, Bersani e Renzi. Qualcuno fece il Word Cloud dei due discorsi, che misero in risalto parole completamente diverse e questo andò a favore di Renzi, perché esaltava un mondo politico più innovativo e giovane. Il fatto di utilizzare WC è più una questione di grafica, non cambia nulla del testo, è solo graficamente più piacevole. I Word Cloud possono essere lemmatizzati o no: in un caso lemmatizzato di Divina Commedia ho i termini più grandi o più piccoli in base alla frequenza disposti in ordine alfabetico. Un Word Cloud lemmatizzato senza esclusioni mi mette in evidenza parole come “che” “essere” “e” “la”; un word cloud lemmatizzato con esclusioni mi permette di eliminare quelle parole basilari come articoli e congiunzioni e questo mette in risalto altre parole come “vedere”, “cielo”, “Dio”, “stare”, “occhi”... Tutti questi rilievi ci dicono qual è il mondo poetico di Dante. Anche il non lemmatizzato è importante, perché mi fa vedere le collocations, le parole nel proprio contesto; la lemmatizzazione mi dice la semantica del testo.
Sistema operativo
Viene spesso chiamato OS ed è il software di base che permette di accedere all’hardware di un sistema informatico, di controllare input e output, le periferiche ed è necessario perché gli altri programmi operativi (applicativi, apps) possano funzionare. Software di base vuol dire che senza di esso il computer non funziona, si vede solo schermo nero. È necessario un software di base che metta in contatto il processore con tutte le altre periferiche e che permetta di fornire un input al processore del computer che a sua volta darà un output. Solitamente i computer hanno già un sistema operativo installato al momento della vendita, ma deve essere precedentemente installato. Non esiste un solo sistema operativo: si parla di “famiglie di sistemi operativi”. I sistemi operativi di oggi sono divisi in 2 famiglie:
il programma era stato letto dal computer, toglievi il programma e infilavi un altro dischetto ci dati che volevi inserire, salvare ciò che scrivevi, togliere il dischetto e infilare di nuovo il dischetto col programma. Il primissimo PC IBM non aveva 2 buchi, ne aveva uno solo, per cui era un continuo “metti e togli” dischetti. È stato questo felice incontro tra IBM che produceva queste macchine e la Microsoft che ne produceva il sistema operativo che ha fatto nascere “l’informatica di massa” (primi anni 80). La Microsoft, entrando in alleanza con IBM, che permetteva la vendita di computer funzionanti a un prezzo più basso ha fatto nascere l’informatica di massa. La piccola ditta allora non avrebbe più portato i conti agli uffici di calcolo. o Windows Microsoft Windows, famiglia di sistemi operativi che derivano da un’interfaccia grafica utente sviluppata nel 1981 e distribuita dal 1985. I sistemi windows sono i più diffusi nell’informatica personale. Unico modo di usarli era mediante interfaccia a linea di comando. Uso di interfaccia a linea di comando estremamente rapido e conveniente. Quelli che criticano Windows sono cretini perché senza non avremmo l’informatica di massa. Non dimentichiamoci poi che la Apple, in quegli anni di Microsoft IBM che permetteva di lavorare solo con linea di comando, aveva raggiunto un successo di vendite con un’interfaccia grafica; la Microsoft si ispira al sistema della Apple e inventa Windows. La Microsoft ha copiato da Apple, tanto è vero che Bill Gates è stato denunciato per aver copiato Windows da Apple. A sua volta la Apple era stata denunciata dalla Xeros perché aveva copiato dall’interfaccia grafica che avevano i computer della Xeros. Si tratta di tutta una serie di spionaggio industriale, ma la Apple ha dato sicuramente un’accelerata all’interfaccia grafica. Diffusione di informatica di massa grazie a IBM più Microsoft; dall’altra parte la Apple che punta sull’interfaccia grafica e che rappresenta un problema per la Microsoft che copiando fa nascere Windows. Tutti hanno dato il loro contributo nello sviluppo dell’informatica come quella che è oggi. L’Italia è stata, fino agli anni 80, una delle nazioni al mondo più capace di innovazioni in campo tecnico e tecnologico. Poi è successo che noi i brevetti non li vendiamo più ma li compriamo. La Olivetti negli anni 60 grazie a un gruppo di ingegneri aveva capito che il futuro non stava nelle grandi calcolatrici meccaniche, ma nell’elettronica. Ci fu un ingegnere Perotto che aveva fatto alleanza con un altro notevole personaggio di origine cinese, aveva sviluppato la prima macchina programmabile della storia (Programma 101), che aveva qualità straordinarie rispetto alle altre macchine: non era in grado di fare solo una certa cosa. Leggeva una scheda magnetica che si inseriva nella macchina, veniva letta e la macchina eseguiva l’informazione richiesta; il risultato veniva stampato su un rotolo di carta, siamo nel 1965. Questa macchina venne venduta dopo un grande successo negli Stati Uniti, in moltissimi esemplari (44.000 prodotti a 3200 dollari di prezzo). Il successo di vendita di questa macchina fu importantissimo. La NASA, tra 1969 e primi anni 70, fece diverse spedizioni lunari e tra i computer che le controllavano vi erano parecchi esemplari della “Perottina” spedizione lunare con tecnologia italiana per quanto riguarda trattamento informatico dei dati. Che cosa sia successo all’Italia poi non si sa, non si sa come si sia passati dalla vendita all’acquisto dei brevetti. Tipi di interfaccia
Interfaccia di comando Command-line interface (CLI): grande rapidità e controllo assoluto da parte dell’utilizzatore; lo svantaggio è che uno deve ricordarsi molti comandi, anche centinaia. Interfaccia grafica utente Graphical user interface (GUI) permette all’utilizzatore di interagire con un sistema informatico mediante una serie di immagini (dette abitualmente icone) Analogico e digitale Molto spesso si usa parole “digitalizzazione” un po’ a caso. Una meridiana è sistema analogico perché è la riproduzione con un altro sistema dello spostamento del sole nel cielo è un procedimento continuato, un’analogia. L’asticella della meridiana non si sposta di scatto, ma il suo è un movimento continuo. È lo stesso principio degli orologi o delle sveglie, in cui tra un minuto e l’altro si muove con un movimento continuato. Ma se io prendo un orologio digitale, tra il secondo 53 e il secondo 54 non c’è nulla in mezzo, non è un movimento continuo, ma c’è un salto da una posizione all’altra. Digitale significa semplicemente “numerico”. Si dice “digitale” qualcosa che ha a che fare con le dita le dita servono per contare, e allora dita è diventato sinonimo di numero. La parola inglese “digital” significa semplicemente numerico, tanto è vero che i francesi, per indicare “digitale” usano l’aggettivo “numérique”. Tutto ciò che viene passato a computer diventa numerico: una serie di scatti discontinui, mentre i processi analogici sono processi di tipo continuo. Digitalizzazione significa trasferimento a computer che funziona come sistema numerico. Testo computerizzato Io riproduco su un altro mezzo del testo che è trasmesso con strumenti analogici: prendo un libro, lo passo nello scanner e ottengo una fotografia di questa pagina e la archivio. Cercare un’informazione in 1200 pagine cartacee o computerizzate è identico. Si tratta di cambiamento di supporto che non modifica il contenuto del testo. Nel momento in cui io voglio ottenere un file di testo utilizzabile, posso usare 2 processi:
scritti in piccolo. È la stessa logica del cartello stradale, così come di un giornale radio o di un telegiornale, che prevedono titoli iniziali. Le sequenze di caratteri hanno funzioni diverse a seconda del sistema grafico che adopero. La stessa cosa vale per i testi scritti di carattere letterario. Testo di divina commedia: inizio c’è scritto “Canto Primo” in grande; poi “Proemio generale, lo sviamento…” un po’ più piccolo; poi il testo di Dante, impaginato col primo verso a filo e gli altri due rientrano (organizzato in terzine); poi, in piccolissimo sotto il testo, le note. Ogni parte del testo svolge una sua funzione. Tutta l’informazione che ci circonda funziona in questo modo, attribuendo a ogni parte del testo una funzione trasmessa al lettore in diverse modalità. Altra versione di Tommaseo: in alto in grande “Canto I”, non “Canto Primo”; poi segue “argomento” e racconta la trama; poi “nota le terzine” in più piccolo. L’edizione di Tommaseo, al contrario di quella di Scartazzini, numera le terzine. Tutto quello che noi facciamo nella nostra vita quotidiana è indicare le funzioni, anche perché è un modo per gerarchizzare le informazioni. Il ruolo metalinguistico La parola “house” è un sostantivo inglese descrivo la lingua inglese usando la lingua italiana “Essere” is an italian verb descrivo la lingua italiana con la lingua inglese Precipitevolissimevolmente è una parola molto lunga uso l’italiano per descrivere l’italiano NIXON SI è DIMESSO è un titolo posso dirlo con il cambio di voce, con la pagina grafica di giornale o con i caratteri grandi Un metalinguaggio descrive una lingua. Quindi io posso descrivere aspetti morfologici ma come spiego al computer tutto questo? Come faccio far sì che il computer sappia cosa c’è dentro ad un testo? L’attività metalinguistica di dire “questo è un verbo” la facciamo sempre implicitamente. Nel momento in cui noi non sappiamo una parola riportiamo la metalinguistica alla nostra coscienza, proprio perché non la capiamo subito. Trasferire questa cosa al computer non è semplice: il computer non è come un cervello umano che funziona più lentamente. Per far capire per esempio al computer che la Commedia è divisa in versi, è possibile usare un’etichetta fatta dal numero del verso seguito dall’underscore (_) accanto al verso. Il computer allora saprà computare che in una pagina ci sono, per esempio, tre versi. Questo è un esempio di linguaggio di marcatura. Il linguaggio di marcatura non indica solo alcune cose, ma posso marcare qualsiasi cosa. Per esempio posso decidere di codificare la morfologia del primo verso: Pra = preposizione articolata _ PRA_Nel SOS = sostantivo _ SOS _ mezzo AGG = aggettivo _ AGG_nostra
Alla fine di un lavoro del genere io avrò tutta la divina commedia marcata in questo modo. A questo punto posso chiedermi: quali sono gli aggettivi che usa? Quali sono i verbi che usa di più? Quest’analisi mi permette anche di disambiguare le informazioni: AMO è verbo o nome; CAMMINO è verbo o nome; io come parlante disambiguo automaticamente ascoltando o leggendo un testo, ma il computer non sa queste cose se non gliele dici in qualche modo. La marcatura, in questo caso, consente di codificare la morfologia. Ma, riprendendo l’indicazione del verso di prima, fin dove si estende “VERSO”? dovremmo scrivere VERSO_PRA_Nel è brutto e difficile c’è un sistema semplice basato su ON/OFF. io posso scrivere
di XML. Allo stesso tempo è una grande forza perché mi permette di fare quello che voglio, il che nelle mani di un competente va benissimo, nelle mani di un non competente viene un disastro. La TEI (Text Encoding Initiative) Nasce negli anni 80 a Oxford e ha sviluppato un’indicazione su come descrivere i testi, tutti i testi prodotti. Il manuale ha più di 400 pagine di indicazione, tradotto anche in italiano, poi più tradotto. Es. di Blake e Carme di Catullo (vedi slides)
Il computer non considera il file come lo consideriamo noi. Per noi il file è una serie di parole che siamo in grado di leggere, di stampare, di interpretare; il computer lo vede in maniera diversa (vedi slides) attraverso caratteri che per noi non hanno senso. Questi caratteri che noi non capiamo dicono al programma come impaginare e organizzare il testo senza questi caratteri il computer non riuscirebbe a leggere un file o lo leggerebbe sbagliato. Ancora una volta è l’illusione dell’oggettività pensare che un oggetto sia fatto così come lo vediamo noi, ma noi vediamo solo quello che ci serve vedere (per un bibliotecario sarà importante lo spessore e il peso di un libro, mentre a me lettore non mi interessa che peso abbia, mi interessa l’argomento o se è bello o meno, cose che a un bibliotecario non interessano); tutto in realtà è codificato. Noi abbiamo l’illusione di vedere oggetti statici, ma noi codifichiamo un testo e un oggetto in base a quello che ci serve. Noi vediamo parte della realtà, la parte della realtà di cui abbiamo bisogno. L’illusione di vedere tutto e di avere un rapporto totale è la causa dello scetticismo, perché si rende conto di non dominare tutta la realtà. Noi siamo in grado di cogliere alcuni aspetti di un oggetto, non tutto. La codifica dei caratteri
Es. Egli andò via perché finì l’attesa Spesso capita che i caratteri accentati non si leggano bene e vengano sostituiti da segni strani e incomprensibili. Questo vuol dire che quello che per noi è ovvio, per il computer non lo è. Il computer codifica le informazioni attraverso una serie di impulsi ON-OFF, una serie di 0- nell’alfabeto binario. Per il computer ogni carattere è una serie diversa di 0 e 1. Allora è necessario per il computer che ogni carattere che per noi è normale sia codificato come una serie di impulsi 0-