






















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti completi del corso di editoria digitale del prof. Mazzoli, anno 21-22
Tipologia: Schemi e mappe concettuali
1 / 30
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!























appunti del corso di editoria digitale l'informatica umanistica in Italia: problemi e prospettive "informatica umanistica" espressione degli anni '90 coniata sul modello di locuzioni già presenti in altre lingue, in analogia con i settori applicativi dell'informatica giuridica e medica. in questi anni il computer diventa un elettrodomestico indispensabile in una famiglia media boom della digitalizzazione. nasce questa nuova materia, giudicata inizialmente un po' strana. oggi si può fare riferimento al campo di studi che in ambito internazionale viene chiamato digital humanities si riferisce ai metodi e alle tecniche dell'informatica nelle diverse discipline umanistiche, individuabili nelle caratteristiche che presentano sia i dati, che devono essere identificati e descritti per divenire oggetto di elaborazione automatica, sia i metodi di indagine e le conseguenti ipotesi di lavoro (modelli) che devono essere resi espliciti e formalizzabili. nascono nuovi metodi come il distance reading necessità di un nuovo settore scientifico disciplinare che copre queste metodologie e unisce la cultura umanistica e le competenze informatiche. fine anni ‘40: nascono le prime macchine per il calcolo automatico negli studi umanistici la macchina di Alan Turing: un sistema meccanizzato che analizza il testo. punti di riferimento storici: (^) 1944 entra in funzione il calcolatore meccanico Mark 1, che riesce a sommare due numeri di 23 cifre in mezzo secondo; (^) 1946 entra in funzione l'ENIAC, effettua 5.000 addizioni al secondo; (^) 1947 nascita dei transistor. ricordiamo la storia di Padre Busa è considerato il padre della linguistica computazionale, grazie alla sua opera filosofica classificatoria condotta sugli scritti di san Tommaso, che porta alla creazione dell' Index Thomisticus l'indicizzazione completa di tutte le occorrenze di ogni singolo lemma usato nelle opere di san Tommaso. padre Busa è stata la prima persona a livello europeo che ha capito che si poteva pensare di usare gli strumenti informatici per delle materie umanistiche ha avuto la prima intuizione. dall'input di padre Busa possiamo arrivare al calcolatore elettronico permetteva di considerare e di elaborare quantità di dati che sarebbe stato impensabile gestire con gli strumenti di calcolo tradizionali. nascono nuovi settori di studio con il compito di elaborare e compendiare dati numerici e verbali e comprovare l'attendibilità di modelli teorici, soprattutto nello studio di fenomeni linguistici che, non potendo essere dimostrati sulla base di un'elaborazione esaustiva dei dati, presuppongono l'impiego di campionature esemplificative. l'accoglienza riservata dagli studiosi alle pubblicazioni che illustravano i risultati di ricerche compiute con metodi matematici e statistici non sempre è stata favorevole. lo sviluppo di programmi di gestione delle basi di dati è legato a due cose: o (^) la nascita dell'informatica distribuita; o (^) la realizzazione dei computer. anche se talvolta vengono ritenuti coincidenti per le conseguenze che hanno prodotto, i due fenomeni si sono verificati in tempi successivi, e solo indirettamente possono essere considerati interdipendenti. l'affermarsi dell'informatica dava riscontro all'esigenza sempre crescente di disporre di risorse di calcolo in ambito scientifico, amministrativo e commerciale, e consisteva nella realizzazione di reti capaci di collegare un determinato numero di unità terminali, dislocate nei luoghi di lavoro dei singoli utenti, a una grande elaboratore. solo in un secondo momento le unità terminali sono state dotate di risorse di calcolo autonome via via più consistenti, dando luogo prima ai cosiddetti "terminali intelligenti" e poi a veri e propri elaboratori dedicati all'uso individuale. all'innovazione tecnologica dell'hardware ha fatto seguito lo sviluppo o il potenziamento del software di gestione o applicativo, nella spirale di un processo evolutivo che, ingenerando sempre nuove esigenze, ha alimentato un mercato in continuo cambiamento.
esiste una distinzione tra i dati: (^) basi di dati testuali o linguistici (ambito degli studi linguistico-letterari o filologici); (^) basi di dati fattuali (trattamento di dati storici, archeologici, storico-artistici). questo tende a mettere in evidenza la peculiarità del trattamento di dati più dichiaratamente linguistici, rispetto ad altri che presuppongono in intervento descrittivo mediato dall'espressione linguistica: si tratta di acquisire dati relativi a oggetti. è interessante osservare come nel corso degli ultimi decenni si sia sviluppato un vivace dibattito sul tipo di linguaggio da utilizzare per la descrizione dei dati fattuali: dalla costituzione di codici per la descrizione delle differenti categorie di oggetti si è passati alla compilazione di vocabolari controllati e successivamente alla strutturazione di thesauri informatici che consentono all'utente di ottenere risposte soddisfacenti anche quando oggetti affini risultino descritti con termini diversi. negli ultimi anni si è registrato un notevole incremento delle ricerche orientate all'identificazione di strutture ontologiche, in vista di una più robusta categorizzazione dei dati. testi e ipertesti in rete la successione di eventi, progetti, idee e protagonisti che nel corso di oltre trent'anni hanno portato alla nascita di internet e alla sua evoluzione nella forma attuale, costituisce un capitolo molto affascinante, ma anche atipico, nella storia dello sviluppo tecnologico. parte del fascino è legato al ruolo determinante che questa tecnologia ha svolto e sta ancora svolgendo nella cosiddetta " rivoluzione digitale ". in pochissimi anni la rete da esoterico strumento di lavoro per pochi informatici è divenuta un mezzo di comunicazione di massa, che coinvolge quotidianamente decine e decine di milioni di persone. nessuno strumento di comunicazione ha mai avuto un tasso di espansione simile. come gran parte delle innovazioni tecnologiche nel settore delle telecomunicazioni e dell'informatica, anche le origini di internet si collocano nel terreno della ricerca militare il contesto in cui si colloca è quello della guerra fredda e della contesa tecnologica che ne derivò tra Stati Uniti e Unione Sovietica. un evento simbolico di questa contesa fu la messa in orbita del primo satellite artificiale da parte dei sovietici, lo Sputnik , nel 1957. dopo il rapido superamento del gap nucleare, questo successo della tecnologia sovietica seminò nel campo occidentale (soprattutto negli USA) una profonda inquietudine. per cercare di rispondere immediatamente a questi timori, nell'ambito dell'amministrazione statunitense si concepì l'idea di creare un'agenzia il cui compito fosse quello di stimolare e finanziare la ricerca di base in settori che avrebbero potuto avere una ricaduta militare nel 1958 in congresso approvò la costituzione e il finanziamento della Advance Research Projects Agency ( ARPA ) con sede a Washington indirizzò le sue attività di ricerca nella ricerca aerospaziale, ma dopo pochi mesi tutti i programmi spaziali vennero trasferiti alla NASA, e per i dirigenti dell'ARPA fu necessario trovare una nuova area di sviluppo la scienza dei calcolatori. tra tanti scienziati, un ruolo fondamentale fu svolto da Licklider , uno dei personaggi più geniali e creativi della storia dell'informatica uno psicologo che passò ad occuparsi di computer, ma a differenza di tanti altri ricercatori, il suo interesse si rivolse subito al problema delle interfacce uomo/computer e al ruolo che le macchine di calcolo avrebbero potuto avere per lo sviluppo delle facoltà cognitive e comunicative dell'uomo. iniziò a creare una rete di collegamenti tra i maggiori centri di ricerca universitari nel settore informatico, raccogliendo un gruppo di collaboratori che battezzò Intergalactic Computer Network. parallelamente nella West Coast in un altro dei centri legati alla ricerca militare, la Rand Corporation , viene assunto un giovane ingegnere che aveva lavorato nel settore delle valvole per computer: Paul Baran fu inserito nella divisione informatica, dove si mise a lavorare sul problema di come riuscire a garantire che il sistema di comando e controllo strategico dell'esercito statunitense rimanesse se non intatto almeno operativo in caso di attacco nucleare; infatti, le reti di comunicazione tradizionali su cui si basava l'intero apparato di controllo militare erano estremamente vulnerabili. lavorando su questo problema, giunse a due conclusioni:
della rete fu la posta elettronica l'idea venne per caso nl marzo del 1972 a un ingegnere, Ray Tomlinson, che provò ad adattare un sistema di messaggistica sviluppato l'anno prima per funzionare su un minicomputer multiutente (fu lui che ebbe l'idea di separare il nome dell'utente da quello della macchina con il carattere '@'). l'esperimento funzionò e il protocollo FTP venne integrato con le specifiche per mandare e ricevere messaggi indirizzati ai singoli utenti. nel frattempo la rete ARPANET continuava a crescere: i nodi del 1971 erano divenuti quindici, e gli utenti alcune centinaia. nel giro di pochi mesi tutti coloro che avevano accesso a un host iniziarono a usare la rete per scambiarsi messaggi, e si trattava di messaggi di tutti i tipi: da quelli di lavoro a quelli personali la rete dell'ARPA era divenuto un sistema di comunicazione tra una comunità di giovani ricercatori di informatica. intorno alla rete dell'ARPA andava prendendo forma una sorta di rete delle reti. a sancire la nascita definitiva di tale rete intervenne nel 1983 la decisione da parte della DCA di dividere ARPANET in due rami per motivi di sicurezza: uno militare e chiuso, inizialmente battezzato Defence Data Network e poi Milnet, e uno per la comunità scientifica, che ereditava il nome originario e che non avrebbe avuto limiti di interconnessione esterna; la vecchia ARPANET poteva così divenire a tutti gli effetti il cuore della neonata Internet. la storia dell'ipertesto nasce con Vannevar Bush , direttore dell'ufficio per la ricerca e lo sviluppo scientifico del governo americano nel 1945 scrive per Atlantic Monthly un articolo dal titolo As We May Think : l'elemento chiave della comunicazione è sì il testo, ma anche l'immagine. la mente umana opera per associazione di immagini, una dietro l'altra queste associazioni possono essere meccanizzate. l'articolo propone la realizzazione del Memex, una sorta di "scrivania meccanizzata". Douglas Engelbart , dello Stanford Research Institute, progetta e realizza il primo sistema ipertestuale funzionante. a fine anni '60 inizia a lavorare sul concetto di personal computing , utilizzando costose workstations IBM per realizzare un sistema di videoconferenza, editing di testi gerarchici ed ipertestuali e di supporto per il lavoro cooperativo dotato di interfaccia a finestre, mouse e altri meccanismi rivoluzionari di input e output. esiste tutt’ora un video del 1967 dove si vedono Engelbart e il suo team usare queste tecnologie che sarebbero diventate di uso comune 15 anni dopo (almeno). l’idea di Engelbart era che il supporto di caratteristiche innovative potesse aumentare il potenziale intellettivo degli uomini, e che l’evidente difficoltà tecnica fosse un ostacolo superabile con un training adeguato. Agument si chiamava così perché per Engelbart era uno strumento di human agumentation è basato sull’idea di una comunità di utenti che comunicano e condividono risorse. Theodor Nelson è uno studioso americano pioniere della tecnologia dell'informazione, filosofo e sociologo progetto Xanadu: obiettivo di creare una rete di computer con una semplice interfaccia utente. lo sforzo è documentato nel suo libro del 1974, Computer Lib/Dream Machines e del 1981, Literary Machines. gran parte della sua vita adulta è stata dedicata a lavorare su Xanadu e sostenendo per esso. è stata la visione di un sogno uno schedario informativo che conserva e consegna il grande corpo della letteratura umana in tutte le sue versioni storiche e con tutte le sue interconnessioni disordinate, riconoscendone la paternità, la proprietà, la citazione e il collegamento come il WEB ma molto meglio: nessun link sarebbe mai spezzato, nessun documento perso e i diritti d’autore e la proprietà sarebbero scrupolosamente conservati il luogo magico della memoria letteraria. in questo luogo, gli utenti sarebbero in grado di segnalare e annotare tutti i documenti, vedere e intercomparare versioni di documenti fianco a fianco, seguire i collegamenti ipertestuali visibili da entrambe le estremità (link a due vie) e riutilizzare pezzi di contenuto e rimanere in contatto con i loro documenti di origine. ci sarebbero diversi modi per visualizzare tutto questo sullo schermo del computer, ma la vista canonica sarebbe a strisce parallele fianco a fianco con connessioni a vista solo immaginarie. il nome proviene dalla famosa poesia di Samuel Coleridge, Kubla Khan , dove il poeta tratta metaforicamente dell’origine delle poesie. Coleridge disse di essersi risvegliato da un sogno con nella memoria due o trecento righe di una poesia subito aveva iniziato a trascriverne alcune quando fu interrotto da una visita ricevuta. quando poco dopo tentò di riprendere il lavoro di scrittura, si rese conto che nella sua memoria il ricordo di quelle righe si era irrimediabilmente indebolito e offuscato. il
mitico paesaggio poetico di Xanadu era irrimediabilmente scomparso allo stesso modo in cui scompaiono le immagini riflesse in uno specchio d’acqua quando in esso viene scagliato un sasso. come Nelson, Coleridge temeva il dispotismo dei sensi e la confusione della memoria senza senso, temeva la perdita di memoria Nelson, citando il poeta, vuole richiamare nella mente degli ascoltatori un ordinato vortice strutturale che deve alludere all’evoluzione e allo sviluppo della virtualità e complessità del progetto Xanadu elaborando quello che chiama collegamento profuso , Nelson intende organizzare e rendere fruibili le interconnessioni culturali che permeano il pensiero e il sapere. il problema stava sempre nella struttura per la gestione di queste masse di informazioni in continua crescita e con una instabilità culturale costante. Nelson è convinto che gli strumenti tradizionali al tempo disponibili non fossero adatti allo scopo che si prefiggeva, il mondo informatico del computer poteva essere una soluzione. Nelson introduce anche i concetti di ipertesto e docuverso è lui a definire l'ipertesto: una scrittura non sequenziale, un testo che si dirama e consente al lettore di scegliere; qualcosa che si fruisce al meglio davanti a uno schermo interattivo. è una serie di brani di testo tra cui sono definiti legami che consentono al lettore diversi cammini. lo scopo era quello di una rete letteraria mondiale, una libreria planetaria che permettesse a tutti di accedere alle opere di tutti, cosicché fosse sconfitta definitivamente l'ignoranza che era (è) la causa fondamentale delle incomprensioni. la realizzazione pratica di Xanadu si scontrò con l'immensa quantità di risorse necessarie e le problematiche tecniche legate all'elaborazione di un software in grado di supportare un progetto così grandioso. oggi internet renderebbe sicuramente possibile realizzare il sogno di Nelson. Tim Berners-Lee si laurea in fisica nel 1967 all’Università di Oxford nel 1980 collabora per sei mesi con il CERN di Ginevra, dove propone un progetto basato sul concetto di ipertesto finalizzato a facilitare l’aggiornamento e la condivisione di informazioni tra i ricercatori: realizza, dunque, un sistema prototipo chiamato Enrique che diventerà la base concettuale per il futuro sviluppo del Word Wide Web. nel 1984 torna in pianta stabile al CERN e quasi immediatamente inizia a cercare di ottenere dei fondi per un progetto ipertestuale nel marzo 1989, grazie alla collaborazione con Robert Cailliau elabora il progetto definitivo del WWW. nell’autunno del 1990, Berners-Lee impiegò circa un mese per sviluppare il primo browser web su un computer NeXT, incluso un editor integrato in grado di creare documenti ipertestuali con il linguaggio HTML. distribuì il programma sui suoi computer e su quelli di Cailliau creando il primo web server del mondo su info.cern.ch il 25 dicembre 1990. nel 1993 Tim Berners-Lee venne intervistato dalla testata TG1 della RAI. i suoi diretti superiori al CERN vennero interrogati, nel corso dell’intervista, sulla possibilità che il CERN promuovesse, anche con fondi speciali di ricerca delle Commissioni Europee, l’idea del WWW e la sua promozione industriale. il direttore del CERN, il fisico italiano Carlo Rubbia, disse che non riteneva compito del CERN promuovere quella pur brillante idea Berners-Lee accettò l’offerta di Mike Dertouzos del MIT, lasciando il CERN per il Laboratory for Computer Science (LCS) del prestigioso Massachusetts Institute of Technology (MIT) di Boston, presso cui nel 1994 fondò il World Wide Web Consortium (W3C). il 15 aprile 2004 gli è stato assegnato il premio Millennium Technology per l’invenzione del WWW. il 16 luglio 2004 Berners-Lee è stato insignito del titolo di Knight Commander dell’Ordine dell’Impero britannico dalla regina Elisabetta II. l’idea fondante del web è la possibilità di creare uno spazio globale dell’informazione mettendo in connessione documenti altrimenti scollegati tra loro se ogni frammento di informazione in questo spazio è etichettato con un indirizzo, si ha una rete di informazioni. la diversità dei vari sistemi informatici è superata dalla creazione di un sistema di poche e semplici regole comuni che permettono ai computer di dialogare tra loro e che confluiscono nel modello dell’ipertesto, un formato di informazione non sequenziale in cui sono presenti collegamenti per accedere a ulteriori informazioni o ad altri documenti. sovrapponendosi a internet, la rete delle reti preesistente, il WWW viene a configurarsi come uno spazio in cui esiste l’informazione e dove poterla cercare. l’idea dell’ ipertesto come spazio per il contenuto svincolato dai confini fisici del libro e dalle sue necessità strutturali ha affascinato a lungo teorici e tecnologi, che hanno visto in esso possibilità prima
errata di “googol”, che identifica il numero 1 seguito da 100 zeri. il loro motore d’altronde voleva scandagliare una quantità enorme di indirizzi web e metterli in ordine di importanza. poco dopo aver fondato l’azienda, per mancanza dei fondi necessari per l’acquisto di nuovi PC e di altro materiale, cercarono di venderla per un milione di dollari a diverse società finanziarie, oltre che a diretti concorrenti come AltaVista e Yahoo!, ottenendo solo dei rifiuti. nell’agosto 1998, Andy Bechtolsheim, co-fondatore di Sun, staccò un assegno da 100.000 dollari intestato a Larry e Sergey, sancendo la nascita di Google Inc. il valore stimato di Google nel 2019 si attesta a 309 miliardi di dollari. la loro “mission impossible” era trovare un modo di catalogare tutte le informazioni presenti in internet e renderle rapidamente e facilmente disponibili a tutti. e ovviamente di farlo meglio di quanto già facessero Yahoo!, AltaVista… la cosa più innovativa è sicuramente stata l’invenzione di PageRank è un metodo per determinare l’importanza di una pagina web. mentre i motori esistenti, per indicizzare e posizionare i siti web nei loro database, si limitavano a contare le ricorrenze, nel testo delle pagine, dei termini cercati dagli utenti, e quindi mostravano ai primi posti siti web non sempre pertinenti con le informazioni desiderate, Page e Brin ebbero l’idea di verificare e contare non solo le ripetizioni delle parole ma anche i link che provenivano da altri siti e che puntavano ad una determinata pagina. il loro ragionamento era semplice: se un certo sito è citato e consigliato da molti altri significa che ha dei contenuti interessanti e quindi è giusto farlo vedere prima di altri. in realtà il metodo adottato dai due studenti per calcolare il Page Rank è molto più complesso e articolato non si limita a contare i link ma tiene conto anche della qualità dei contenuti e dell’importanza dei siti da cui provengono i link. ci sono poi altri fattori che contribuiscono a determinare il PageRank, come l’anzianità del sito, il numero dei visitatori… probabilmente nessuno li conosce tutti, anche se sono stati ormai scritti migliaia di articoli e libri sui segreti di PageRank. ciò che conta è che gli utenti usando Google si rendevano conto che era più facile e richiedeva meno tempo trovare le informazioni desiderate e pertanto abbandonavano gli altri motori e consigliavano agli amici di fare altrettanto. i server di Google sono distribuiti su 10 datacenter, di cui 6 negli Stati Uniti, 2 in Europa e 2 in Asia. nel 2010 è stato stimato a 900.000 il numero di server utilizzati da Google per elaborare dati, garantire contenuti, organizzare e gestire la propria rete, rispondere alle ricerche e catalogare il web. ha più di 100.000 indirizzi IP assegnati su diverse reti grazie a questa enorme potenza di calcolo, Google è in grado di effettuare una ricerca su milioni di pagine web in alcuni millisecondi, di indicizzare un elevato numero di contenuti ogni giorno. è il sito più visitato del mondo, talmente popolare che diverse lingue hanno sviluppato nuovi verbi denominali a partire dal suo marchio, con il significato di cercare su Google, o più in generale, con quello di cercare sul web, tra i quali l’inglese “to google” oppure l’italiano “googlare”, usato sia transitivamente sia intransitivamente. i soldi che fa Google arrivano dalla pubblicità che ha non a sé stesso ma agli altri. la pubblicità contestuale un’altra delle idee brillanti di Google è stata la pubblicità contestuale, o mirata: es. se stiamo cercando per esempio “noleggio macchine per caffè”, vedremo sulla parte destra della pagina dei risultati alcuni link pubblicitari di aziende che noleggiano macchine per caffè o che vengono cialde di caffè. le probabilità che questa pubblicità dia fastidio sono minime, mentre le probabilità che qualcuno clicchi su questi link sono alte. questo consente a Google di far accettare ai suoi inserzionisti di pagare un tot per click più elevato rispetto a ciò che pagherebbero per la stessa pubblicità inserita su siti o portali che parlano di calcio, libri, corsi, telefoni o cronaca. il sito di Google si presenta in modo spartano, senza animazioni in flash, senza musichette, senza sfondi multicolori, senza banner pubblicitari. non c’è nulla che possa distrarre l’utente, che lo costringa a pensare dove cliccare, ci sono soltanto informazioni. Google sa cosa vogliono gli utenti e li accontenta. fa riflettere a quanti milioni di dollari Google sta rinunciando pur di non “sporcare” e rendere pesante la sua home page con l’inserimento di banner pubblicitari statici o animati in flash, come invece fanno altri motori.
il concetto di SERP è un acronimo di origine anglosassone utilizzato come abbreviazione di Search Engine Result Page, la cui traduzione significa letteralmente “pagina dei risultati del motore di ricerca”. concretamente la SERP è una lista di dieci pagine web scelte dal motore di ricerca sulla base di determinate keyword digitate nel box di ricerca. in base alle parole chiave, Google scandaglia il web alla ricerca di contenuti assimilabili all’indagine richiesta, per poi offrire all’utente una lista ordinata di dieci risultati per pagina il compito principale del motore di ricerca è infatti proprio quello di ricercare all’interno di una fitta rete composta da miliardi di pagine, una serie di contenuti ritenuti idonei all’investigazione svolta dall’utente. la SERP è il risultato di tale ricerca. la SERP ha un ruolo estremamente importante nell’ottica della comunicazione commerciale online, in quanto ogni azione e strategia viene effettuata con lo scopo di posizionare un sito web nelle prime pagine dei risultati promossi da Google, e possibilmente, tra i primissimi risultati della pagina. posizionare un sito internet nelle prime posizioni proposte da un motore di ricerca significa aumentare in maniera considerevole le possibilità di visita da parte di un utente. per “sito internet” si intende una pagina appartenente al sito di interesse. si sottolinea che questa non è necessariamente la home page, bensì dovendo rispondere a una precisa interrogazione da parte dell’utente, la fonte proposta sarà un link o una URI il cui contenuto sia corrispondente alle keyword utilizzate. Google Books nasce nel 2004, con il nome di Google Print a dicembre dello stesso anno Google annuncia l’iniziativa Google Print Library Project, che prevede l’accordo con numerose biblioteche pubbliche e universitarie di alto livello per la digitalizzazione di circa 15 milioni di volumi e la loro messa a disposizione nell’interfaccia di ricerca nell’arco di un decennio. a novembre del 2005 Google Print cambia nome in Google Book Search. è nelle biblioteche che Google ha trovato un inatteso e vitale alleato le biblioteche delle università di Harvard, Oxford, Stanford, California, Michigan, Columbia, di Princeton, la New York Public Library e in Italia (dal 2012) la Biblioteca Nazionale di Firenze e quella di Roma hanno infatti aperto le porte a Google nel quale hanno visto la possibilità di digitalizzare il loro patrimonio librario. immediatamente editori e autori combattono contro il progetto convinti che il programma violi il diritto d’autore e consegni a un’impresa privata un monopolio di fatto sulla conoscenza: uno stato che invece dovrebbe essere appannaggio di un’istruzione pubblica. in realtà Google Libri non viola il diritto d’autore e neppure è una minaccia per la società la scansione dei libri e l’esibizione senza autorizzazione di un breve contesto (20% del contenuto) collegato alla ricerca effettuata sono da considerarsi “fair use”, un concetto che non esiste nell’ordinamento giuridico europeo ma è contemplato nella legge sul copyright degli Stati Uniti d’America. così il 16 ottobre 2015 tre giudici della corte di Appello del secondo circuito di New York affermano che il programma Google Libri fornisce un servizio pubblico senza violare la legge sulla proprietà intellettuale. pur avendo vinto in tribunale, Google Libri è costato molto caro ad Alphabet anche in termini di immagine. la lunga battaglia legale sul copyright con l’Associazione degli editori e la Gilda degli autori non ha giovato alla società californiana additata dai media di tendenza, specialmente in Europa, come un’iniziativa disgregante di una delle basi della società moderna: il principio d’autore, un principio che dà da vivere a milioni di persone. piano piano, l’avversione verso Google si è trasformata in una lotta contro la tecnologia in sé. l’idea originaria della biblioteca universale è di fatto venuta meno dal momento che la maggior parte dei libri rimane inaccessibile nel suo contenuto: i brevi estratti visualizzati aiutano relativamente e spesso il titolo non è neppure disponibile per l’acquisto né in forma cartacea né in forma elettronica. alla fine il corpus di Google Libri dimostra i suoi limiti e la sua eterogeneità tanto da renderlo uno strumento inadeguato per ottenere statistiche inattendibili. ci sono lacune nella metadatizzazione e, siccome opera conta per uno, succede che un’opera come Moby Dick vale quanto un romanzo di un autore sconosciuto. possiamo affermare che, nonostante sia stato ostacolato in molteplici modi, una società come Google non sia riuscita a fare di meglio di quello che ha fatto. l’impressione è che sia mancata una volontà da parte di Google di trovare un accordo risolutivo sul piano economico con le parti per ottenere il consenso a mostrare più libri nella loro integralità. è come se il progetto fosse caduto in una sorta di limbo, come se fosse meramente un esperimento, uno dei tanti che Google ha fatto.
documenti sotto verso, null’altro che una trasposizione su mezzo digitale di un testo cartaceo. un e- book, in quanto libro elettronico, non è automaticamente eLiterature. un’opera letteraria per essere definita eLiterature deve rispettare determinate condizioni che, tuttavia, sono condizioni necessarie ma non sempre sufficienti da sole a rendere l’opera un’espressione di letteratura elettronica. tra le condizioni necessarie ma non sufficienti c’è certamente la necessità di essere nativa digitale, la cosiddetta costante del digital born che prevede che un testo, affinché possa essere ascritto al fenomeno della eLiterature, nasca digitale, precludendo al testo la possibilità di essere trasposto su un supporto cartcaceo, condizione spesso non rispettata dall’e-book, normalmente riproducibile su carta. la costante del digital born comporta quindi l’impossibilità di esprimere con la stessa efficacia espressiva e con lo stesso effetto estetico la stessa opera su un mezzo che non sia quello digitale scelto e modellato dall’autore per la realizzazione dell’opera di eLiterature. un poema tridimensionale non potrà mai raggiungere lo stesso effetto una volta trasposto (che nel caso specifico vuol dire riscritto) su un supporto differente da quello digitale. altra condizione necessaria ma non sufficiente è l’interazione ergodica il concetto di ergodicità denota un’interazione attiva tra uomo e macchina. l’interazione avviene in maniera bilaterale, ossia non è solo il lettore, cognitore analogico, ad interagire con l’opera di eLiterature, ma è anche quest’ultima, cognitore digitale, che interagisce con il lettore che, per fruire della stessa, deve effettuare uno sforzo cognitivo supplementare. ultima condizione necessaria e a volte anche sufficiente affinché un’opera letteratura possa essere definita “letteratura elettronica” è l’utilizzo del medium come componente estetica precipua dell’opera stessa. il mezzo digitale adoperato per la realizzazione di un’opera di eLiterature non ha solo lo scopo di veicolare l’opera stessa, come spesso accade con l’e-book, ma è componente estetica inalienabile egli stesso, che rende all’opera letteraria il suo vero statuto digitale. eLiterature e-book nativa digitale testo digitale non riproducibile su supporto cartaceo digitalizzazione testuale testo digitale riproducibile su supporto cartaceo. interazione attiva e bilaterale lettura ergodica (da configurare); sforzo non triviale interazione passiva e unilaterale lettura culinaria (pronta all’uso); sforzo triviale mezzo digitale mezzo di veicolazione; componente estetica mezzo digitale solo mezzo di veicolazione i sei miti della lettura digitale :
una nota o ha un proprio blog; l’editore non ha solo il compito di definire cosa piacerà, ma dovrebbe anche considerare come il digitale può arricchire determinati contenuti.
i formati testuali: il PDF è molto diffuso ma non ottimale per gli e-book readers; i formati ideali sarebbero ePub (formato aperto che si sta affermando come standard più diffuso) e Mobipocket, utilizzato da Amazon Kindle. il 15 giugno 1993 nasce il formato PDF creato da Adobe System. è l’acronimo di Portable Document Format, ed è stato pensato per presentare e scambiare documenti in sicurezza a prescindere dal software, dall’hardware o dal sistema operativo utilizzato. appena uscito, il prezzo per utilizzare il nuovo formato era di 50 dollari, mentre quello del software per creare un nuovo documento arrivava a quasi 700 dollari. nel 2008 ha riscosso la certificazione come standard internazionale, così ne ha reso pubblica la composizione. precedentemente Adobe deteneva il brevetto del formato e tutti i programmi per la modifica dovevano essere acquistati dalla casa madre. Adobe System nasce nel 1982. la prima invenzione di Adobe è chiamata PostScript, e consiste in un linguaggio adatto alla descrizione di pagine e immagini per far scambiare informazioni a computer e stampanti. grazie a questa creazione, stampare e pubblicare immagini non è più un’operazione costosa che poche aziende possono permettersi perché ogni apparecchio capace di eseguire il programma può riprodurre documenti e immagini. il primo ad interessarsi a questa nuova soluzione è Steve Jobs, che inserisce PostScript alla sua stampante laser (Apple LaserWriter). in seguito i rapporti tra Adobe e Apple si inaspriscono i dirigenti di Adobe preferiscono la Microsoft, così Jobs rifiuta l’inserimento di Adobe Flash sui prodotti Apple, criticandola per la scarsa qualità del programma. PostScript aveva comunque i suoi limiti quando venne messo in circolazione funzionava solo su alcune tipologie di dispositivi che avevano una potenza elevata. la creazione del nuovo formato chiamato PDF supera PostScript la sua particolarità sta nell’avere un aspetto uguale su ogni programma: nessuna informazione, come immagini o font, viene persa durante l’apertura. grazie a queste caratteristiche in poco tempo diventa uno dei formati preferiti soprattutto per mantenere invariata la composizione grafica. è proprio questa caratteristica il principale problema nella costruzione di un e-book il PDF non è un formato flessibile ma rigido: mantiene il layout originale del documento e in teoria richiederebbe uno schermo delle stesse dimensioni del documento stesso. ePub (abbreviazione di electronic publication , pubblicazione elettronica) è uno standard aperto e specifico per la pubblicazione di e-book. il formato ePub è stato creato e viene gestito da IDPF, International Digital Publishing Forum , organismo internazionale no-profit al quale collaborano università, centri di ricerca e società che lavorano in ambito sia informatico che editoriale. il formato si preoccupa di definire tre aspetti dell’e-book: contenuto, stile e struttura. il contenuto viene definito attraverso lo standard XHTML; lo stile e l’aspetto attraverso lo standard CSS; la struttura e la metadatazione attraverso specifiche XML. è proprio questa la forza insita nel formato ePub è un formato web: liquido, adattativo, capace di essere visto bene da un classico browser così come da dispositivi dedicati come e-book reader o tablet generalisti quali iPad. lo standard ePub consente di organizzare il flusso di testo di un-ebook in base al dispositivo sul quale viene visualizzato: come risultato finale si ottiene un testo dinamico e ottimizzato per la visualizzazione su dispositivi anche molto diversi tra loro, come e-reader, tablet. smartphone e anche PC. il testo scorre e si reimpagina adattandosi alle dimensioni dello schermo sul quale viene visualizzato. non è un caso che Apple abbia scelto anche il formato ePub per rappresentare i contenuti della libreria iBooks. un ePub non potrà mai essere uguale al cartaceo, né mai avere la stessa impaginazione. l’ePub è un formato fluido e ciò comporta delle conseguenze. l’ePub non ha pagine è composto da una serie di pagine HTML che contengono il testo (un po’ come un sito internet). di solito si crea una pagina per ogni capitolo ma non è raro che l’intero libro sia contenuto in un’unica pagina HTML. molti e-book reader inseriscono un numeretto in fondo alla schermata per simulare il numero di pagina. in realtà questo numeretto è solo un fittizio segnaposto, serve per far capire al lettore a che punto del libro si trova. negli ultimi tempi questo numeretto è stato sostituito da una più chiara percentuale di avanzamento.
ogni ePub ha un indice interattivo dato che non ci sono pagine, non si può creare un indice con i numeri di pagina, pertanto si utilizza l’indice interattivo: ogni voce dell’indice diventa un collegamento ipertestuale e cliccandoci sopra si viene portati automaticamente al capitolo di riferimento. altra coneguenza della fluidità dell’ePub è che non è adatto a contenere immagini, tabelle, intestazioni e note a piè di pagina. questi sono elementi tipici di un’impaginazione fissa e si possono trovare su un PDF o su un cartaceo, ma non su un ePub. nel suo caso le note si troveranno tutte alla fine di ogni capitolo o direttamente alla fine del libro il vantaggio dell’interattività sta nel fatto che basta cliccare sul numero della nota per leggerla senza dover scorrere tutto l’ePub. immagini e tabelle possono esserci, ma non con la stessa qualità e definizione di un PDF o cartaceo. non potranno essere fissate in una parte ben definita della pagina perché le pagine non ci sono. si può impostare sempre un font predefinito in un ePub, proprio come nel PDF o nel cartaceo. ma ogni dispositivo ha i suoi font preinstallati, quindi non è detto che visualizzi correttamente quello che abbiamo impostato sul file. non tutti i dispositivi infatti supportano la giustificazione del testo o la sillabazione, pertanto la si potrà anche impostare nel file ma non è detto che poi si visualizzerà correttamente ovunque. lo stesso vale anche per grassetti, corsivi e simboli. inoltre chi legge può scegliere di cambiarlo per adattarlo meglio alle sue esigenze di lettura. per aprire un file ePub basta rinominarlo cambiando l’estensione da .epub a .zip. aprendo lo zip si trova nella maggior parte dei casi una cartella chiamata OEBPS, al cui interno sono collocati:
tecnologia e-ink, che permette la resa di una superficie quasi identica alla carta software formati sistemi operativi licenze Adobe digital editions PDF, ePub MacOs, Windows proprietaria Acrobat reader PDF MacOs, Windows proprietaria Calibre ePub, Lit, HTML MacOs, Windows, Linux open source la codifica digitale del testo quale che sia la sua lunghezza o il suo argomento, un testo è una struttura complessa, che contiene informazioni di tipo diverso, articolate su più livelli. esistono relazioni e strutture linguistiche astratte che si raggruppano in unità testuali con funzioni specifiche, come titoli, capitoli e paragrafi. la rapidità e l’apparente assenza di sforzo con le quali siamo in grado di accedere ai molteplici livelli della struttura testuale per estrarne informazioni non diminuiscono la complessità di questa operazione un computer non possiede queste conoscenze ed è in grado di vedere e manipolare solo sequenze di codici binari. WordStar è stato uno dei primi programmi di videoscrittura commerciali prodotto nel 1978 dalla MicroPro International Corporation, fu reso disponibile in ambiente MS-DOS nel 1982. raggiunse un alto grado di diffusione nella prima metà degli anni ’80, diventando uno dei più diffusi programmi dell’epoca. era basato su stringhe di testo lavorava con un file di tipo testuale e comandi di formattazione testuali. essendo originariamente progettato per funzionare con dispostivi di visualizzazione di caratteri non grafici, dotati di un unico carattere tipografico, le funzioni su cui si concentrava il programma era il testo, visualizzato direttamente sullo schermo e senza formattazione. WordPerfect fu introdotto originalmente da Bruce Bastian e Alan Ashton, che fondarono la Satellite Software International Inc., rinominata successivamente WordPerfect Corporation. ha rapidamente sostituito la maggior parte degli altri sistemi, specialmente dopo il rilascio 4.2 nel 1986, ed è diventato lo standard nel mercato DOS dalla versione 5.1 nel 1989. la sua popolarità iniziale era basata in parte sulla sua disponibilità per un’ampia varietà di computer e sistemi operativi. la sua posizione dominante si è conclusa dopo un rilascio fallito per Microsoft Windows, seguito da un lungo ritardo prima di introdurre una versione migliorata. nel giugno 1994 il software WordPerfect fu venduto a Novell, che a sua volta lo vendette alla Corel Corporation nel gennaio 1996. Microsoft Word la prima versione risale al 1983 e fu disponibile per il sistema operativo DOS. nel 1984 fu creata la versione per Macintosh, e fu uno dei primi software importanti per questa piattaforma. la versione Windows 3.0 fu distribuita nel 1989 pur essendo considerato uno dei prodotti di punta di Microsoft, nonché uno dei programmi più importanti di Windows, Word fu parte determinante del successo della piattaforma “rivale” Macintosh. inoltre, il progetto Windows nacque proprio per dotare Word (ed Excel) di un’interfaccia grafica sulla piattaforma DOS. i computer memorizzano ed elaborano dati sotto forma di sequenze di due simboli, 0 e 1 (detti bit , dall’inglese binary digit ) con un bit possiamo definire due possibili stati: vero o falso, bianco o nero, caldo o freddo. ma come è possibile che tutte le informazioni che si trovano dentro un computer siano caratterizzate da un solo bit? in effetti non è possibile rappresentare tutte le informazioni mediante un solo bit ciò che si può fare è rappresentare le informazioni con sequenze di bit: per rappresentare
lettere e numeri è necessario utilizzare gruppi di bit. un raggruppamento di 8 bit viene chiamato byte ed è in grado di rappresentare 256 valori questo numero si ottiene provando tutte le combinazioni possibili di 0 e 1 e nelle otto posizioni disponibili del byte, per esempio 00000001, 00001111… il numero 256 corrisponde a 28 e permette di considerare l’insieme dei caratteri alfabetici, dei segni di punteggiature, dei caratteri accentati o speciali di controllo. per raggruppare i bit si scelgono le potenze di due poiché in questo modo tutte le operazioni si semplificano. con l’avvento dei word processor si dovettero inserire le lettere minuscole e altri caratteri speciali si scelse per questo il set ASCII a 7 bit (128 caratteri diversi). quindi la più piccola potenza di 2 in grado di contenere un set di caratteri ASCII è proprio quella di 8 con 8 bit si codificano 256 caratteri. in concreto un singolo byte può rappresentare una lettera, un segno di punteggiatura, un numero o un carattere speciale. testi e suoni, immagini, dati numerici, ecc… per essere elaborati o trasmessi da un programma devono comunque avere una rappresentazione binaria. ciò equivale a dire che ciascun carattere alfanumerico che compone il testo deve essere rappresentato nei termini di un codice binario composto da una sequenza di bit. ma il testo è molto più di una sequenza di caratteri in una codifica che si limiti ad associare a ogni carattere del testo una rappresentazione binaria, vi sarà inevitabilmente perdita di informazione. questo si verifica perché una parte dell’informazione del testo non è convogliata dalla sequenza dei caratteri che lo compongono, ma è piuttosto implicitamente veicolata attraverso la sua formattazione è il caso, ad esempio, dell’informazione relativa agli aspetti macrostrutturali (suddivisione logica in sezioni, capitoli, paragrafi...) e alle coordinate metatestuali (nome dell’autore, titolo…). diventa quindi necessaria una codifica che non operi più a livello dei singoli caratteri, ma si basi sull’identificazione di intere porzioni di testo e su indicazioni esplicite della loro funzione. avremo quindi: o una codifica di basso livello, o codifica di livello zero, che riguarda la rappresentazione binaria della sequenza ordinata dei caratteri del testo; o una codifica di alto livello, che arricchisce il testo codificato al livello zero con un’informazione relativa alla struttura linguistico-testuale e più in generale con un’informazione interpretativa di qualche tipo. a sua volta richiede: la selezione degli aspetti strutturali e funzionali del testo che si considerano rilevanti e che si intendere rendere accessibili al calcolatore attraverso una rappresentazione esplicita e astratta; la scelta di un linguaggio di rappresentazione, leggibile e manipolabile dal computer, che permetta di codificare informazioni aggiuntive rispetto a quelle della codifica di livello zero. la codifica di livello zero consiste nell’associare a ciascun carattere del testo un codice numerico, cioè un numero binario che lo identifica univocamente. ai fini della codifica binaria, un carattere è un’entità astratta, distinta dalle sue possibili rappresentazioni grafiche (glifi), ovvero dai modi in cui esso può apparire secondo forma, dimensione, ecc… ad esempio la “a” in grassetto e la “a” corsiva sono considerati lo stesso carattere della “a” normale, anche se si differenziano tutte sul piano grafico. per lo stesso motivo due simboli possono essere graficamente indistinguibili; eppure, corrispondere a caratteri diversi. un set di caratteri (o codice) è una tabella di associazioni biunivoche tra gli elementi di un repertorio di caratteri e codici numerici (detti punti codice) ciascun punto di codice è rappresentato in forma binaria come una sequenza di bit. la modalità di rappresentazione binaria dei punti in codice viene chiamata codifica di carattere (character encoding). il numero dei caratteri codificabili dipende dai punti di codice disponibili, e questi dipendono a loro volta dal numero di cifre binarie usate per la loro codifica. avendo a disposizione solo due cifre binarie sarebbe possibile rappresentare solo quattro punti di codice utilizzabili per codificare quattro caratteri diversi. generalizzando, con n cifre binarie è possibile codificare 2 n^ caratteri differenti. i set di caratteri sono associazioni convenzionali tra caratteri e codici numerici. la necessità di produrre e scambiare testi in formato digitale ha portato alla definizione di set di caratteri standard. sfortunatamente non esiste ancora un’unica convenzione condivisa da tutti i programmi per la codifica dei caratteri (a parte ASCII). l’avvento del web ha portato alla necessità di fornire una rappresentazione digitale per un numero sempre maggiore di sistemi grafici così come di garantire la completa interscambiabilità dei testi digitali. la tendenza odierna è comunque quella di procedere verso una sempre maggiore standardizzazione e internazionalizzazione della codifica binaria dei testi.
interpretate, e il testo ci apparirà corrotto o incompleto nel caso di testi in italiano, il problema principale riguarda i caratteri accentati che sono al di fuori del set ASCII. è buona norma da un lato accertarsi con quali set di caratteri i nostri programmi sono in grado di operare, e dall’altro sapere quali caratteri contiene il nostro testo e in che modo sono stati codificati. i programmi (soprattutto quelli commerciali) possono supportare più di un set di caratteri e permettono di selezionare la codifica più appropriata per il nostro testo. può anche verificarsi il caso di programmi in grado di manipolare solo un particolare set di caratteri, che spesso si restringe al repertorio ASCII. i caratteri accentati possono essere sostituiti dal carattere non accentato corrispondente seguito da un apice tali trasformazioni di caratteri sono quasi sempre associate a una perdita di informazione. il testo codificato a livello zero si presenta come un manoscritto in scripto continua si presenta all’occhio umano come schiera compatta di caratteri, all’interno della quale è alquanto difficile rintracciare un sentiero di lettura. la lettura diventa subito qualcosa di ben più impegnativo del solito: è cominciare subito a interpretare. dovrebbe essere chiara a questo punto l’analogia spesso rilevata tra la trascrizione di un testo a partire da un manoscritto in scripto continua e la codifica digitale di alto livello in entrambi i casi si tratta di rendere esplicito ciò che è congetturale o implicito, con lo scopo di guidare il lettore nell’interpretazione del testo. il lettore nel nostro caso è il computer e il compito della codifica di alto livello è quello di “dare forma” alla sequenza dei caratteri del testo rendendo esplicita quella parte di informazione che è veicolata attraverso le convenzioni tipografiche, testuali e linguistiche. il compito della codifica di alto livello: ❊ dare forma alla sequenza di caratteri del testo rendendo esplicita l’informazione che è veicolata attraverso convenzioni tipografiche, testuali e linguistiche: o informazioni sull’organizzazione del testo (parti, titoli, paragrafi); o la conoscenza linguistica necessaria per la comprensione del testo (es. la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo); o più in generale ogni interpretazione che si voglia affiancare al dato testuale. ❊ tracciare “sentieri” di letture all’interno del testo. ❊ rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer. i motivi della codifica di alto livello: un testo come flusso di caratteri e parole è una fonte di dati linguistici; il testo è un’entità altamente strutturata, nella quale i dati linguistici sono correlati secondo i piani di organizzazione multipli struttura del testo (articolazione in sezioni, capitoli, titoli), struttura del contesto (autore, data di produzione, finalità del testo), struttura linguistica (implicita nel testo, informazioni morfologiche, sintattiche, semantiche). la codifica di alto livello trasforma il dato testuale grezzo in fonte esplicita di informazione. informazione: notizia, dato o elemento che consente di avere conoscenza più o meno esatta di fatti, situazioni, modi di essere. dato: ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; in informatica, elementi di informazione costituiti da simboli che devono essere elaborati. un’informazione è un dato strutturato es. “33100” su un foglio di carta è un dato e non significa molto, ma se il foglio di carta viene fornito in risposta alla domanda “qual è il CAP di Udine”, allora il dato può essere interpretato come fonte di informazione. si chiamano dati strutturati perché le informazioni sono più volatili, i dati più sensibili i dati costituiscono una risorsa strategica, perché più stabili nel tempo di altre componenti. la storia della scienza è caratterizzata dal continuo cambiamento di informazioni relative a dati relativamente stabili. la rappresentazione precisa di forme più complesse di informazioni (concetti evoluti) non può prescindere dai dati. i formati digitali del testo:
formato solo testo (plain text o txt) un file solo testo è costituito da una sequenza di byte dove ciascun byte rappresenta un carattere secondo un particolare codice. gli editori di testo sono programmi in grado di creare e leggere files di tipo solo testo quando un editore di testo legge un file cerca di associare ogni sequenza di bit a un carattere secondo un particolare codice. i vantaggi: formato aperto, indipendente dal sistema operativo e dal programma che lo ha creato; massima portabilità e interscambiabilità dei testi. gli svantaggi: non può rappresentare aspetti relativi alla codifica di alto livello a questo formato corrisponde la codifica di livello zero. formati “proprietari” (doc, pdf) possono essere creati, letti e interpretati solo da uno specifico programma. oltre a sequenze di bit codificano caratteri, il file contiene sequenze binarie che corrispondo a istruzioni di formattazione, codificate secondo le convenzioni di un certo programma. i vantaggi: massima capacità espressiva e fruibilità per l’utente umano rappresenta aspetti relativi alla codifica di alto livello. gli svantaggi: formato “chiuso”, con minima portabilità e interscambiabilità; la codifica non avviene per categorie testuali astratte, ma per modalità di visualizzazione del testo, espresse attraverso istruzioni di formattazione e composizione tipografica. Word Processor, Desktop Publishing, DBMS, Presentazione. se proviamo ad aprire un file .doc con un editore di testo, quello che otteniamo sono strani simboli inframezzati da sequenze di caratteri. questo dipende dal fatto che il file contiene sequenze di bit che non corrispondono a caratteri, ma a istruzioni di formattazione, codificate secondo le convenzioni specifiche di un certo programma l’editore di testo tenta invano di interpretare tali sequenze binarie come caratteri, ottenendo così un risultato incomprensibile e inutilizzabile. un formato binario è la memorizzazione esatta delle strutture in memoria dell’applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani il testo non è visibile. utilizzare un linguaggio di codifica di alto livello significa in primo luogo individuare, selezionare e classificare gli elementi rilevanti del testo a seconda del livello strutturale che si intende codificare e in seguito stabilire uno schema che tracci le relazioni tra gli elementi così stabiliti. i linguaggi che consentono di compiere questo tipo di operazioni vengono chiamati linguaggi di marcatura il termine “marcatura” deriva dall’abitudine tipografica di marcare con varie annotazioni quelle parti di testo che avevano bisogno di essere evidenziate o corrette, per segnalarle al compositore o al dattilografo. in generale, un linguaggio di marcatura descrive tramite convenzioni standardizzate i meccanismi di rappresentazione del testo a livello strutturale, semantico o di presentazione. i suoi elementi fondamentali sono: o un insieme di marcatori, o tag, che individuano dei blocchi testuali a cui verrà assegnata una determinata interpretazione; o una grammatica, che regola l’uso dei tag; o una semantica, che definisce la funzione della marcatura. la marcatura viene inserita direttamente all’interno del testo, a cui viene applicata attraverso delle apposite istruzioni ogni istruzione utilizza dei caratteri speciali che la delimitano e permettono all’elaboratore di distinguere il testo dal markup. un linguaggio di marcature, inoltre, deve rispondere a una serie di requisiti che ne misurano il valore per verificare se e in che misura esso sia adeguato alle esigenze dell’elaborazione e trasmissione digitale dei dati. questi requisiti possono essere suddivisi in tre aree: