
Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Mappa concettuale dei fondamenti della codifica del testo
Tipologia: Schemi e mappe concettuali
1 / 1
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

un testo è una struttura complessa che contiene informazioni di tipo diverso articolate su più livelli
i computer memorizzano ed elaborano i dati sotto forma di sequenze di due simboli 0 e 1. con un bit possiamo quindi definire due possibili stati, ma è impossibile rappresentare tutte le informazioni mediante un solo bit. ciò che si può fare è rappresentare le informazioni con sequenze di bit. un raggruppamento di 8 bit viene chiamato byte e può rappresentare 256 valori (2^8). per raggruppare i bit si scelgono le potenze di due poichè in questo modo tutte le operazioni si semplificano. con l'avvento dei word processor si inseriscono lettere minuscole e altri caratteri speciali e per questo si sceglie il set ASCII a 7 bit. la più piccola potenza di 2 che contenga il set di caratteri ASCII è quella di 8
il testo, i suoni, le immagini, i dati per essere elaborati o trasmessi da un programma devono avere una rappresentazione binaria, ovvero ciascun carattere alfanumerico che compone il testo deve essere rappresentato nei termini di un codice binario composto da una sequenza di bit
un testo è più di una sequenza binaria quindi nella codifica vi sarà inevitabilmente perdita di informazione. questo accade perchè una parte delle informazioni del testo non è rappresentata nei caratteri che lo compongono ma è implicitamente veicolata nella sua formattazione (capitoli, paragrafi)
diventa necessaria una codifica che si basi sull' identificazione di intere porzioni di testo e su indicazioni esplicite della loro funzione
codifica di basso livello: codifica di livello zero che riguarda la rappresentazione binaria della sequenza ordinata dei caratteri del testo
codifica di alto livello: che arricchisce il testo con informazioni interpretative di qualche tipo
selezione degli aspetti strutturali e funzionali
scelta di un linguaggio di rappresentazione
associare a ciascun carattere del testo un codice numerico univoco
ai fini della codifica binaria, un carattere è un' entità astratta distinta dalle sue possibili rappresentazioni grafiche quindi due simboli possono essere graficamente indistinguibili ma corrispondere a caratteri diversi
set di caratteri/codice è una tabella di associazioni biunivoche convenzionali tra gli elementi di un repertorio di caratteri e codici numerici (punti di codice rappresentati in forma binaria)
la modalità di rappresentazione binaria dei punti di codice viene chiamata codifica di carattere
con n cifre binarie è possibile codificare 2^n caratteri differenti
la necessità di produrre e scambiare testi in formato digitale ha portato alla definizione di set di caratteri standard
il più noto set di caratteri è ASCII, in cui ciascun carattere è codificato con un byte, ma di questo sono usate solo le prime 7 cifre per la rappresentazione del codice (2^7= caratteri). per ovviare a questa limitazione il codice è stato esteso con estensioni da 8 bit per codifica e quindi 256 caratteri. l'unica estensione standard è ISO-Latin-I
la soluzione ai limiti di ASCII è Unicode: set di caratteri universali che permette di codificare testi contenenti caratteri di ogni sistema di scrittura esistente ed esistita
assegna ad ogni carattere un punto di codice distinto rappresentato da un numero in base esadecimale
punto di partenza è il testo codificato a livello zero che si presenta come un manoscritto in sciptio continua. il compito della codifica di alto livello sarà quello di dare forma alla sequenza di caratteri rendendo esplicita l'informazione che è veicolata
la codifica di alto livello trasforma il dato testuale grezzo in fonte esplicita di informazioni
le informazioni sono più volatili, i dati più stabili
formati digitali dei testi
formato solo testo costituito da una sequenza di bytes dove ciascun byte rappresenta un carattere secondo un particolare codice
formati proprietari, creati, letti ed interpretati solo da uno specifico programma
formato binario ovvero la memorizzazione esatta delle strutture in memoria dell' applicazione
linguaggi che consentono di individuare, selezionare e classificare gli elementi rilevanti del testo a seconda del livello strutturale che si intende codificare
un linguaggio di marcatura descrive tramite convenzioni standardizzate i meccanismi di rappresentazione del testo a livello strutturale, semantico o di presentazione
elementi fondamentali sono i marcatori o tag, una grammatica che regoli l'uso dei tag e una semantica, che definisce la funzione della marcatura
la marcatura viene inserita direttamente all' interno del testo a cui viene applicata
inoltre un linguaggio di marcatura deve rispondere ad una serie di requisiti che ne misurano il valore per verificare se e in che misura esso sia adeguato alle esigenze dell' elaborazione e trasmissione digitale dei dati. i requisiti si dividono in tre aree:
potenza espressiva: caratteristica che permette al linguaggio di essere applicato al numero più ampio possibile di tipologie e generi testuali; consente di rappresentare il maggior numero di livelli strutturali e di esprimere le caratteristiche del testo secondo diverse prospettive
portabilità: il documento può essere leggibile su qualunque tipo di piattaforma e dispositivo informatico senza problemi di compatibilità; riusabilità: possibilità di accedere al documento anche a distanza di tempo dalla sua creazione
standardizzazione: il linguaggio viene utilizzato universalmente dalla comunità di utenti e deve essere aperto e di pubblico dominio
due categorie di linguaggi di markup
linguaggi procedurali
linguaggi dichiarativi
specificano al computer quali sono le operazioni che deve compiere sul documento, per presentarlo in una determinata maniera. la loro funzione principale è la resa grafica del documento.
RTF (rich text format): formato aperto realizzato da Microsoft con lo scopo di semplificare lo scambio di documenti fra diverse applicazioni. in RTF la marcatura indica che tipo di formattazione applicare al testo semplice ( definito sfruttando solo set di caratteri molto semplici)
LaTeX: linguaggio di markup distribuito con una licenza di software libero utilizzato per la preparazione di testi scientifici e nelle scienze dell'informazione. è un linguaggio molto colìmplesso.
si concentrano sul contenuto, ossia sul tentativo di rappresentarne la struttura astratta. il generic markup si basa su un insieme di marcatori che indicano la funzione di un blocco di testo
la resa grafica di un documento trattato con un linguaggio di markup dichiarativo è affidata a un secondo documento testuale chiamato foglio di stile --> associa ai tag delle istruzioni di resa grafica
SGML (standard generalized markup language) sviluppato per consentire lo scambio di documenti che potessero essere interpretati dai computer
nasce negli anni 60, quando erano diffusi solo i markup procedurali e quindi si rendeva necessario elaborare un linguaggio che mantenesse distinte le informazioni di presentazione da quelle di struttura. inoltre era necessaria anche la definizione di uno standard per la trasmissione e l'archiviazione dei documenti stessi.
è un metalinguaggio che non definisce direttamente i tag per la struttura logica del testo, ma fornisce una serie di regole che permettono di definire le norme da applicare per la marcatura di specifici documenti
tra i concetti teorici su cui si basa l' impostazione del linguaggio vi è il tipo di documento, che si occupa della descrizione delle caratteristiche di un gruppo di documenti dalla struttura omogenea. il tipo di documento viene identificato attraverso un DTD, tramite cui si determinano le regole per la presenza, l' ordine e la posizione delle etichette di marcatura e dei loro attributi all'interno di un documento. quindi DTD definisce gli oggetti necessari all'elaborazione di un certo tipo di documento:
HTML (hypertext markup language), creato da Tim Berners-Lee nel 1990
concepito per definire la struttura logica di un documento e non il suo aspetto. i documenti ipertestuali scritti in HTML hanno estensione. html o .htm e si aprono con l'indicazione della definizione di tipo di documento che segnala le specifiche utilizzate e indica quali elementi possono essere presenti
metalinguaggio derivato da SGML, del quale definisce una versione semplificata per creare in modo semplice nuovi linguaggi markup per il Web
vantaggi:
Marcatura procedurale
Marcatura dichiarativa