Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Mappa codifica dei testi, Schemi e mappe concettuali di Giornalismo

Mappa concettuale dei fondamenti della codifica del testo

Tipologia: Schemi e mappe concettuali

2020/2021

Caricato il 21/02/2021

Melissadusso98
Melissadusso98 🇮🇹

4.6

(50)

26 documenti

1 / 1

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Codifica digitale dei testi
un testo è una struttura complessa che
contiene informazioni di tipo diverso articolate
su più livelli
i computer memorizzano ed elaborano i dati
sotto forma di sequenze di due simboli 0 e 1.
con un bit possiamo quindi definire due
possibili stati, ma è impossibile rappresentare
tutte le informazioni mediante un solo bit. ciò
che si può fare è rappresentare le informazioni
con sequenze di bit. un raggruppamento di 8 bit
viene chiamato byte e può rappresentare 256
valori (2^8).
per raggruppare i bit si scelgono le potenze di
due poichè in questo modo tutte le operazioni
si semplificano. con l'avvento dei word
processor si inseriscono lettere minuscole e
altri caratteri speciali e per questo si sceglie il
set ASCII a 7 bit. la più piccola potenza di 2
che contenga il set di caratteri ASCII è quella di
8
il testo, i suoni, le immagini, i dati per essere
elaborati o trasmessi da un programma devono
avere una rappresentazione binaria, ovvero
ciascun carattere alfanumerico che compone il
testo deve essere rappresentato nei termini di
un codice binario composto da una sequenza
di bit
un testo è più di una sequenza binaria quindi
nella codifica vi sarà inevitabilmente perdita di
informazione.
questo accade perchè una parte delle
informazioni del testo non è rappresentata nei
caratteri che lo compongono ma è
implicitamente veicolata nella sua
formattazione (capitoli, paragrafi)
diventa necessaria una codifica che si basi sull'
identificazione di intere porzioni di testo e su
indicazioni esplicite della loro funzione
codifica di basso livello: codifica di livello zero
che riguarda la rappresentazione binaria della
sequenza ordinata dei caratteri del testo
codifica di alto livello: che arricchisce il testo
con informazioni interpretative di qualche tipo
selezione degli aspetti strutturali e funzionali
scelta di un linguaggio di rappresentazione
associare a ciascun carattere del testo un
codice numerico univoco
ai fini della codifica binaria, un carattere è un'
entità astratta distinta dalle sue possibili
rappresentazioni grafiche quindi due simboli
possono essere graficamente indistinguibili ma
corrispondere a caratteri diversi
set di caratteri/codice è una tabella di
associazioni biunivoche convenzionali tra gli
elementi di un repertorio di caratteri e codici
numerici (punti di codice rappresentati in forma
binaria)
la modalità di rappresentazione binaria dei
punti di codice viene chiamata codifica di
carattere
con n cifre binarie è possibile codificare 2^n
caratteri differenti
la necessità di produrre e scambiare testi in
formato digitale ha portato alla definizione di
set di caratteri standard
il più noto set di caratteri è ASCII, in cui ciascun
carattere è codificato con un byte, ma di questo
sono usate solo le prime 7 cifre per la
rappresentazione del codice (2^7=128
caratteri). per ovviare a questa limitazione il
codice è stato esteso con estensioni da 8 bit
per codifica e quindi 256 caratteri. l'unica
estensione standard è ISO-Latin-I
la soluzione ai limiti di ASCII è Unicode: set di
caratteri universali che permette di codificare
testi contenenti caratteri di ogni sistema di
scrittura esistente ed esistita
assegna ad ogni carattere un punto di codice
distinto rappresentato da un numero in base
esadecimale
punto di partenza è il testo codificato a livello
zero che si presenta come un manoscritto in
sciptio continua. il compito della codifica di alto
livello sarà quello di dare forma alla sequenza
di caratteri rendendo esplicita l'informazione
che è veicolata
la codifica di alto livello trasforma il dato
testuale grezzo in fonte esplicita di informazioni le informazioni sono più volatili, i dati più stabili
formati digitali dei testi
formato solo testo costituito da una sequenza
di bytes dove ciascun byte rappresenta un
carattere secondo un particolare codice
formati proprietari, creati, letti ed interpretati
solo da uno specifico programma
formato binario ovvero la memorizzazione
esatta delle strutture in memoria dell'
applicazione
linguaggi che consentono di individuare,
selezionare e classificare gli elementi rilevanti
del testo a seconda del livello strutturale che si
intende codificare
un linguaggio di marcatura descrive tramite
convenzioni standardizzate i meccanismi di
rappresentazione del testo a livello strutturale,
semantico o di presentazione
elementi fondamentali sono i marcatori o tag,
una grammatica che regoli l'uso dei tag e una
semantica, che definisce la funzione della
marcatura
la marcatura viene inserita direttamente all'
interno del testo a cui viene applicata
inoltre un linguaggio di marcatura deve
rispondere ad una serie di requisiti che ne
misurano il valore per verificare se e in che
misura esso sia adeguato alle esigenze dell'
elaborazione e trasmissione digitale dei dati. i
requisiti si dividono in tre aree:
- potenza espressiva
- portabilità e riusabilità
- standardizzazione e apertura
potenza espressiva: caratteristica che permette
al linguaggio di essere applicato al numero più
ampio possibile di tipologie e generi testuali;
consente di rappresentare il maggior numero di
livelli strutturali e di esprimere le caratteristiche
del testo secondo diverse prospettive
portabilità: il documento può essere leggibile su
qualunque tipo di piattaforma e dispositivo
informatico senza problemi di compatibilità;
riusabilità: possibilità di accedere al documento
anche a distanza di tempo dalla sua creazione
standardizzazione: il linguaggio viene utilizzato
universalmente dalla comunità di utenti e deve
essere aperto e di pubblico dominio
due categorie di linguaggi di markup
linguaggi procedurali
linguaggi dichiarativi
specificano al computer quali sono le
operazioni che deve compiere sul documento,
per presentarlo in una determinata maniera. la
loro funzione principale è la resa grafica del
documento.
RTF (rich text format): formato aperto realizzato
da Microsoft con lo scopo di semplificare lo
scambio di documenti fra diverse applicazioni.
in RTF la marcatura indica che tipo di
formattazione applicare al testo semplice (
definito sfruttando solo set di caratteri molto
semplici)
LaTeX: linguaggio di markup distribuito con una
licenza di software libero utilizzato per la
preparazione di testi scientifici e nelle scienze
dell'informazione. è un linguaggio molto
colìmplesso.
si concentrano sul contenuto, ossia sul
tentativo di rappresentarne la struttura astratta.
il generic markup si basa su un insieme di
marcatori che indicano la funzione di un blocco
di testo
la resa grafica di un documento trattato con un
linguaggio di markup dichiarativo è affidata a
un secondo documento testuale chiamato
foglio di stile --> associa ai tag delle istruzioni di
resa grafica
SGML (standard generalized markup language)
sviluppato per consentire lo scambio di
documenti che potessero essere interpretati dai
computer
nasce negli anni 60, quando erano diffusi solo i
markup procedurali e quindi si rendeva
necessario elaborare un linguaggio che
mantenesse distinte le informazioni di
presentazione da quelle di struttura. inoltre era
necessaria anche la definizione di uno standard
per la trasmissione e l'archiviazione dei
documenti stessi.
è un metalinguaggio che non definisce
direttamente i tag per la struttura logica del
testo, ma fornisce una serie di regole che
permettono di definire le norme da applicare
per la marcatura di specifici documenti
tra i concetti teorici su cui si basa l'
impostazione del linguaggio vi è il tipo di
documento, che si occupa della descrizione
delle caratteristiche di un gruppo di documenti
dalla struttura omogenea. il tipo di documento
viene identificato attraverso un DTD, tramite cui
si determinano le regole per la presenza, l'
ordine e la posizione delle etichette di
marcatura e dei loro attributi all'interno di un
documento. quindi DTD definisce gli oggetti
necessari all'elaborazione di un certo tipo di
documento:
- elementi
- content model
- entità
HTML (hypertext markup language), creato da
Tim Berners-Lee nel 1990
concepito per definire la struttura logica di un
documento e non il suo aspetto. i documenti
ipertestuali scritti in HTML hanno estensione .
html o .htm e si aprono con l'indicazione della
definizione di tipo di documento che segnala le
specifiche utilizzate e indica quali elementi
possono essere presenti
XML
metalinguaggio derivato da SGML, del quale
definisce una versione semplificata per creare
in modo semplice nuovi linguaggi markup per il
Web
vantaggi:
- indipendente dal tipo di piattaforma hardware
o software su cui viene utilizzato
- consente la trascrizione di qualsiasi tipo di
documento
- di dominio pubblico
- esistono numerose applicazioni per la
manipolazione di dati XML
- è in grado di creare delle regole sintattiche
che definiscono formalmente un linguaggio di
markup, detto applicazione XML
Marcatura procedurale
- basato sull'aspetto
- dipendente dal sistema
- associata agli individui
- non contestuali
Marcatura dichiarativa
- basata sul ruolo (di ogni elemento all'interno
del testo)
- indipendente dal sistema
- contestuale
vantaggi
- facilità nella creazione
- indipendenza dalla formattazione
- flessbilità
- visioni di documenti dinamicamente
riconfigurabili

Anteprima parziale del testo

Scarica Mappa codifica dei testi e più Schemi e mappe concettuali in PDF di Giornalismo solo su Docsity!

Codifica digitale dei testi

un testo è una struttura complessa che contiene informazioni di tipo diverso articolate su più livelli

i computer memorizzano ed elaborano i dati sotto forma di sequenze di due simboli 0 e 1. con un bit possiamo quindi definire due possibili stati, ma è impossibile rappresentare tutte le informazioni mediante un solo bit. ciò che si può fare è rappresentare le informazioni con sequenze di bit. un raggruppamento di 8 bit viene chiamato byte e può rappresentare 256 valori (2^8). per raggruppare i bit si scelgono le potenze di due poichè in questo modo tutte le operazioni si semplificano. con l'avvento dei word processor si inseriscono lettere minuscole e altri caratteri speciali e per questo si sceglie il set ASCII a 7 bit. la più piccola potenza di 2 che contenga il set di caratteri ASCII è quella di 8

il testo, i suoni, le immagini, i dati per essere elaborati o trasmessi da un programma devono avere una rappresentazione binaria, ovvero ciascun carattere alfanumerico che compone il testo deve essere rappresentato nei termini di un codice binario composto da una sequenza di bit

un testo è più di una sequenza binaria quindi nella codifica vi sarà inevitabilmente perdita di informazione. questo accade perchè una parte delle informazioni del testo non è rappresentata nei caratteri che lo compongono ma è implicitamente veicolata nella sua formattazione (capitoli, paragrafi)

diventa necessaria una codifica che si basi sull' identificazione di intere porzioni di testo e su indicazioni esplicite della loro funzione

codifica di basso livello: codifica di livello zero che riguarda la rappresentazione binaria della sequenza ordinata dei caratteri del testo

codifica di alto livello: che arricchisce il testo con informazioni interpretative di qualche tipo

selezione degli aspetti strutturali e funzionali

scelta di un linguaggio di rappresentazione

associare a ciascun carattere del testo un codice numerico univoco

ai fini della codifica binaria, un carattere è un' entità astratta distinta dalle sue possibili rappresentazioni grafiche quindi due simboli possono essere graficamente indistinguibili ma corrispondere a caratteri diversi

set di caratteri/codice è una tabella di associazioni biunivoche convenzionali tra gli elementi di un repertorio di caratteri e codici numerici (punti di codice rappresentati in forma binaria)

la modalità di rappresentazione binaria dei punti di codice viene chiamata codifica di carattere

con n cifre binarie è possibile codificare 2^n caratteri differenti

la necessità di produrre e scambiare testi in formato digitale ha portato alla definizione di set di caratteri standard

il più noto set di caratteri è ASCII, in cui ciascun carattere è codificato con un byte, ma di questo sono usate solo le prime 7 cifre per la rappresentazione del codice (2^7= caratteri). per ovviare a questa limitazione il codice è stato esteso con estensioni da 8 bit per codifica e quindi 256 caratteri. l'unica estensione standard è ISO-Latin-I

la soluzione ai limiti di ASCII è Unicode: set di caratteri universali che permette di codificare testi contenenti caratteri di ogni sistema di scrittura esistente ed esistita

assegna ad ogni carattere un punto di codice distinto rappresentato da un numero in base esadecimale

punto di partenza è il testo codificato a livello zero che si presenta come un manoscritto in sciptio continua. il compito della codifica di alto livello sarà quello di dare forma alla sequenza di caratteri rendendo esplicita l'informazione che è veicolata

la codifica di alto livello trasforma il dato testuale grezzo in fonte esplicita di informazioni

le informazioni sono più volatili, i dati più stabili

formati digitali dei testi

formato solo testo costituito da una sequenza di bytes dove ciascun byte rappresenta un carattere secondo un particolare codice

formati proprietari, creati, letti ed interpretati solo da uno specifico programma

formato binario ovvero la memorizzazione esatta delle strutture in memoria dell' applicazione

linguaggi che consentono di individuare, selezionare e classificare gli elementi rilevanti del testo a seconda del livello strutturale che si intende codificare

un linguaggio di marcatura descrive tramite convenzioni standardizzate i meccanismi di rappresentazione del testo a livello strutturale, semantico o di presentazione

elementi fondamentali sono i marcatori o tag, una grammatica che regoli l'uso dei tag e una semantica, che definisce la funzione della marcatura

la marcatura viene inserita direttamente all' interno del testo a cui viene applicata

inoltre un linguaggio di marcatura deve rispondere ad una serie di requisiti che ne misurano il valore per verificare se e in che misura esso sia adeguato alle esigenze dell' elaborazione e trasmissione digitale dei dati. i requisiti si dividono in tre aree:

  • potenza espressiva
  • portabilità e riusabilità
  • standardizzazione e apertura

potenza espressiva: caratteristica che permette al linguaggio di essere applicato al numero più ampio possibile di tipologie e generi testuali; consente di rappresentare il maggior numero di livelli strutturali e di esprimere le caratteristiche del testo secondo diverse prospettive

portabilità: il documento può essere leggibile su qualunque tipo di piattaforma e dispositivo informatico senza problemi di compatibilità; riusabilità: possibilità di accedere al documento anche a distanza di tempo dalla sua creazione

standardizzazione: il linguaggio viene utilizzato universalmente dalla comunità di utenti e deve essere aperto e di pubblico dominio

due categorie di linguaggi di markup

linguaggi procedurali

linguaggi dichiarativi

specificano al computer quali sono le operazioni che deve compiere sul documento, per presentarlo in una determinata maniera. la loro funzione principale è la resa grafica del documento.

RTF (rich text format): formato aperto realizzato da Microsoft con lo scopo di semplificare lo scambio di documenti fra diverse applicazioni. in RTF la marcatura indica che tipo di formattazione applicare al testo semplice ( definito sfruttando solo set di caratteri molto semplici)

LaTeX: linguaggio di markup distribuito con una licenza di software libero utilizzato per la preparazione di testi scientifici e nelle scienze dell'informazione. è un linguaggio molto colìmplesso.

si concentrano sul contenuto, ossia sul tentativo di rappresentarne la struttura astratta. il generic markup si basa su un insieme di marcatori che indicano la funzione di un blocco di testo

la resa grafica di un documento trattato con un linguaggio di markup dichiarativo è affidata a un secondo documento testuale chiamato foglio di stile --> associa ai tag delle istruzioni di resa grafica

SGML (standard generalized markup language) sviluppato per consentire lo scambio di documenti che potessero essere interpretati dai computer

nasce negli anni 60, quando erano diffusi solo i markup procedurali e quindi si rendeva necessario elaborare un linguaggio che mantenesse distinte le informazioni di presentazione da quelle di struttura. inoltre era necessaria anche la definizione di uno standard per la trasmissione e l'archiviazione dei documenti stessi.

è un metalinguaggio che non definisce direttamente i tag per la struttura logica del testo, ma fornisce una serie di regole che permettono di definire le norme da applicare per la marcatura di specifici documenti

tra i concetti teorici su cui si basa l' impostazione del linguaggio vi è il tipo di documento, che si occupa della descrizione delle caratteristiche di un gruppo di documenti dalla struttura omogenea. il tipo di documento viene identificato attraverso un DTD, tramite cui si determinano le regole per la presenza, l' ordine e la posizione delle etichette di marcatura e dei loro attributi all'interno di un documento. quindi DTD definisce gli oggetti necessari all'elaborazione di un certo tipo di documento:

  • elementi
  • content model
  • entità

HTML (hypertext markup language), creato da Tim Berners-Lee nel 1990

concepito per definire la struttura logica di un documento e non il suo aspetto. i documenti ipertestuali scritti in HTML hanno estensione. html o .htm e si aprono con l'indicazione della definizione di tipo di documento che segnala le specifiche utilizzate e indica quali elementi possono essere presenti

XML

metalinguaggio derivato da SGML, del quale definisce una versione semplificata per creare in modo semplice nuovi linguaggi markup per il Web

vantaggi:

  • indipendente dal tipo di piattaforma hardware o software su cui viene utilizzato
  • consente la trascrizione di qualsiasi tipo di documento
  • di dominio pubblico
  • esistono numerose applicazioni per la manipolazione di dati XML
  • è in grado di creare delle regole sintattiche che definiscono formalmente un linguaggio di markup, detto applicazione XML

Marcatura procedurale

  • basato sull'aspetto
  • dipendente dal sistema
  • associata agli individui
  • non contestuali

Marcatura dichiarativa

  • basata sul ruolo (di ogni elemento all'interno del testo)
  • indipendente dal sistema
  • contestuale vantaggi
  • facilità nella creazione
  • indipendenza dalla formattazione
  • flessbilità
  • visioni di documenti dinamicamente riconfigurabili