Codifica informazioni non numeriche | Dispense di Elementi di Informatica

2. CODIFICA INFORMAZIONI NON NUMERICHE

2.1 CODIFICA CARATTERI

Una stringa di bit può essere interpretata in diversi modi a seconda della “chiave”

utilizzata, ovvero a seconda della codifica.

Per esempio, 01101110 può essere interpretato come un binario puro, come un

binario in modulo e segno, come un complemento a 2 e come un carattere.

Per la codifica dei caratteri abbiamo due codici maggiormente usati: il codice

ASCII (il più diffuso), e il codice UNICODE.

Il codice ASCII si serve di 8 bit (originariamente, per US-ASCII, 7 bit) per

rappresentare 52 caratteri alfabetici (a…z, A…Z), 10 cifre (0…9), segni di

interpunzione (.,:;!?…) e caratteri di controllo.

Con il codice UNICODE, invece, è possibile rappresentare tutti i caratteri di tutte

le lingue del mondo (più di un milione).

In particolare, l’UTF-8 è la codifica UNICODE più usata. Si serve di 1 byte per i

caratteri US-ASCII (MSB = 0), 2 byte per i caratteri latini e simboli di altri

alfabeti (greco, cirillico, ebraico, arabo,…), 3 byte per le lingue di uso comune e

4 byte per dei caratteri rarissimi.

Per la rappresentazione di testo in codice ASCII, i caratteri saranno, appunto,

codificati in ASCII, ogni riga sarà terminata dal “terminatore di riga” (variabile a

seconda del sistema operativo) e, talvolta, le pagine sono separate tra loro da “FF”.

2.2 CODIFICA TESTO/STAMPA

Per quanto riguarda la codifica di testi, non bisogna confondere il formato di un file

Word con il codice ASCII.

Un testo può essere memorizzato in due formati:

-FORMATTATO: sono memorizzate sequenze di byte che definiscono l’aspetto

del testo (es. spaziatura, font,…) e precedono i byte che definiscono i caratteri;

-NON FORMATTATO: sono memorizzati unicamente i caratteri che compongono

il testo.

Il PDF (Portable Document Format) è un formato open di file che permette di

rappresentare documenti in maniera indipendente dall’hardware e dal software

utilizzati per generarli o per visualizzarli.

2.3 CODIFICA IMMAGINI

Le immagini possono essere rappresentate come una sequenza discreta di

elementi luminosi, disposti secondo una matrice. Ciascun elemento delle matrice

sarà un colore, prende il nome di pixel ed è rappresentato da un certo numero di

bit.

Per le immagini complesse ed irregolari (qualcosa ricavata dalla realtà, come una

fotografia, per esempio), si adotta una codifica raster (detta anche bitmap o

pixmap), che le definisce punto per punto (pixel o dot).

Per le immagini create all’interno del computer (es. cartoni animati o videogiochi),

invece, poiché fanno ricorso a figure geometriche regolari e linee, che vengono

#massicciproprio

Anteprima parziale del testo

Scarica Codifica informazioni non numeriche e più Dispense in PDF di Elementi di Informatica solo su Docsity!

2. CODIFICA INFORMAZIONI NON NUMERICHE

2.1 CODIFICA CARATTERI

Una stringa di bit può essere interpretata in diversi modi a seconda della “chiave” utilizzata, ovvero a seconda della codifica. Per esempio, 01101110 può essere interpretato come un binario puro, come un binario in modulo e segno, come un complemento a 2 e come un carattere. Per la codifica dei caratteri abbiamo due codici maggiormente usati: il codice ASCII (il più diffuso), e il codice UNICODE. Il codice ASCII si serve di 8 bit (originariamente, per US-ASCII, 7 bit) per rappresentare 52 caratteri alfabetici (a…z, A…Z), 10 cifre (0…9), segni di interpunzione (.,:;!?…) e caratteri di controllo. Con il codice UNICODE, invece, è possibile rappresentare tutti i caratteri di tutte le lingue del mondo (più di un milione). In particolare, l’ UTF-8 è la codifica UNICODE più usata. Si serve di 1 byte per i caratteri US-ASCII ( MSB = 0), 2 byte per i caratteri latini e simboli di altri alfabeti (greco, cirillico, ebraico, arabo,…), 3 byte per le lingue di uso comune e 4 byte per dei caratteri rarissimi. Per la rappresentazione di testo in codice ASCII, i caratteri saranno, appunto, codificati in ASCII, ogni riga sarà terminata dal “ terminatore di riga ” (variabile a seconda del sistema operativo) e, talvolta, le pagine sono separate tra loro da “ FF ”. 2.2 CODIFICA TESTO/STAMPA Per quanto riguarda la codifica di testi, non bisogna confondere il formato di un file Word con il codice ASCII. Un testo può essere memorizzato in due formati:

- FORMATTATO : sono memorizzate sequenze di byte che definiscono l’aspetto

del testo (es. spaziatura , font ,…) e precedono i byte che definiscono i caratteri;

- NON FORMATTATO : sono memorizzati unicamente i caratteri che compongono

il testo. Il PDF ( Portable Document Format ) è un formato open di file che permette di rappresentare documenti in maniera indipendente dall’hardware e dal software utilizzati per generarli o per visualizzarli. 2.3 CODIFICA IMMAGINI Le immagini possono essere rappresentate come una sequenza discreta di elementi luminosi , disposti secondo una matrice. Ciascun elemento delle matrice sarà un colore , prende il nome di pixel ed è rappresentato da un certo numero di bit. Per le immagini complesse ed irregolari (qualcosa ricavata dalla realtà, come una fotografia, per esempio), si adotta una codifica raster (detta anche bitmap o pixmap ), che le definisce punto per punto ( pixel o dot ). Per le immagini create all’interno del computer (es. cartoni animati o videogiochi), invece, poiché fanno ricorso a figure geometriche regolari e linee , che vengono

salvate in un file che prende il nome di “ file vector ” (da questo codifica vettoriale ). I colori vengono rappresentati secondo la teoria additiva della colometria, secondo la quale ogni colore è realizzabile a partire dai tre colori primari, secondo il sistema RGB (red, green, blue). Bisogna quindi associare a ciascun pixel una sequenza di bit, per indicarne il colore, assegnando una quantità di bit per ogni colore primario che compone il colore. La codifica che da una precisione maggiore dell’immagine è detta true color , ed utilizza 3 byte a pixel (1 byte per ciascun colore primario). Essa sarà quindi caratterizzata da 24 bpp ( bit per pixel ). La rappresentazione di un’immagine raster mediante la codifica dei pixel viene chiamata codifica BMP ( bitmap ). Le codifiche GIF ( Graphic Interchange Format ), invece, permettono delle compressioni senza perdita. Altre codifiche possibili sono il PNG e JPEG. Quest’ultima, ottimizzata soprattuto per le macchine fotografiche, ha un grado di compressione variabile (da bmp a jpeg) ed ha, comunque, delle perdite con la compressione. La dimensione , intesa come spazio occupato da ogni immagine, è data dal prodotto tra risoluzione e numero di bit necessari per ogni pixel ( profondità ). Le immagini di tipo raster sfruttano una grande quantità di dati per essere definite. Per ridurre la quantità di dati da memorizzare si può cercare di eliminare delle ripetizioni. Parliamo in questo caso di compressione. Abbiamo, per esempio, la codifica run-lenght (AAAAAAABAAAAAAA -> A7B1A7) e la codifica “con dizionario” , facendo corrispondere ad una serie di lettere ripetute più volte un carattere ( es. azz = ø “un pazzo in piazza” -> “un pøo in piøa”). Si può misurare la compressione o come rapporto di compressione C = dimensione dati/dimensione dati compressi (espresso come N:1 o Nx) o come risparmio di spazio S = 1 - (dimensione dati compressi/dimensione dati) (espresso come % ). Le immagini potranno comprimersi con perdita di dati ( lossy compression ) e senza perdita di dati ( loseless compression ). 2.4 CODIFICA VIDEO Le immagini in movimento, o video, sono costituiti da una sequenza di immagini, dette frame o fotogrammi , le quali vengono proiettate ad una frequenza di almeno 16 fps ( frame per secondo ), ovvero la frequenza minima affinché l’occhio umano non percepisca il passaggio da un fotogramma al successivo. La codifica dei filmati è la mpg : ogni frammento catturato come bitmap viene compresso e trasformato in jpg. Ogni pixel viene confrontato tra le immagini adiacenti, e vengono trasmessi solo i dati che hanno subito una variazione. In particolare, la codifica utilizzata per la televisione è la MPEG-.

Codifica informazioni non numeriche, Dispense di Elementi di Informatica

Documenti correlati

Anteprima parziale del testo

Scarica Codifica informazioni non numeriche e più Dispense in PDF di Elementi di Informatica solo su Docsity!

2. CODIFICA INFORMAZIONI NON NUMERICHE

2.1 CODIFICA CARATTERI

- FORMATTATO : sono memorizzate sequenze di byte che definiscono l’aspetto

- NON FORMATTATO : sono memorizzati unicamente i caratteri che compongono