




Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti di informatica sulla codifica del testo
Tipologia: Appunti
1 / 8
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





Per codifica si intende la rappresentazione digitale di un testo. I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione binaria. Abbiamo 2 livelli di codifica del testo: -basso livello (0), viene assegnato ad ogni carattere del testo un codice numerico binario che lo identifica e per la codifica si usano algoritmi che determinano come i codici sono rappresentati in sequenze di bit -alto livello è un processo attraverso cui viene resa esplicita un’interpretazione del testo(informazioni sulla struttura,contenuto,ecc). Esistono vari livelli e gradi di interpretazione: tipografica, extratestuale, linguistica, ecc. Il codice ASCII è il primo standard per l’assegnazione di codici a caratteri. I 128 punti di codice messi a disposizione dall'ASCII ma diventavano pochi nel caso di una lingua come l'italiano. Per ovviare a questa limitazione, furono create varie estensioni di ASCII che adoperavano tutti e otto i bit per la codifica, per un totale di 256 punti di codice disponibili; fra queste, la più celebre è probabilmente la ISO-Latin-1 appartenente ad una famiglia di codifiche (la ISO-8859) della quale ogni membro è equivalente ad ASCII per i primi 128 punti di codice, mentre quelli successivi codificano caratteri differenti a seconda del set. ISO-LATIN-1 “The universal character set” permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti. Il testo è un’entità altamente strutturata, nella quale i dati linguistici sono correlati secondo piani di organizzazione multipli (capitoli, titoli, autore, finalità del testo, informazioni morfologiche, sintattiche, ecc.) Per codificare bisogna individuare:
HTML (modulo 13) È un linguaggio di marcatura (insieme di regole che descrivono i meccanismi di rappresentazione di un testo) nato per formattare testo, inoltre offre un collegamento tra più pagine. Le pagine web sono scritte in HTML. Il principale tag è con un tag di apertura e uno di chiusura in pagina. Struttura essenziale della pagina web:
descrive le caratteristiche generali della pagina, come il titolo
</head> <body> contiene il contenuto della pagina web, inoltre può essere personalizzato con attributo di stile, che permette di scegliere lo sfondo e il colore del testo della pagina <Qui va la parte visualizzata nello schermo> </body> </html> Tutti i tag devono avere anche il corrispondente tag di chiusura. Un attributo descrive le caratteristiche del tag. Esempio: <p> permette l’inserimento di un paragrafo di testo: un suo attributo è style, che consente di modificare l’apparenza del paragrafo secondo la notazione CSS. Il tag <a> (anchor), consente di creare collegamenti a testo e immagini, con il nome del contenuto HTML racchiuso all’interno dei tag. Il tag <img> si usa per l’inserimento di un’immagine e si usa l’attributo src per identificare il file che contiene l’immagine da visualizzare. Abbiamo 2 tipi di collegamento a pagine web con: URL relativo: il file collegato risiede nella stessa cartella della pagina che effettua il riferimento. URL assoluto: è un collegamento con un indirizzo web preciso. HTML e fogli di stile CSS (modulo 14) Un foglio di stile è un insieme di regole di formattazione da applicare. Un foglio di stile CSS è sintatticamente strutturato come una sequenza di regole , che sono coppie costituite da un selettore e un blocco di dichiarazioni , racchiuso tra parentesi graffe. Un selettore è un predicato che individua certi elementi del documento HTML; una dichiarazione è a sua volta costituita da una proprietà , ovvero un tratto di stile (come il colore del testo) e un valore da assegnare a quest'ultimo (per esempio blu) .Diversi tipi di selettori: -Selettori di tipo: si riferiscono all’elemento da formattare, quindi è un tag del documento HTML -Selettori di attributo: si usano per definire classi o identificatori -Selettori identificatori: come le classi sono dei blocchi di stile non possono essere usati più volte in un documento. I vantaggi dei fogli di stile sono:
DOM (Document Object Model) è definito come standard del W3C ( Il World Wide Web Consortium , anche conosciuto come W3C , è un'organizzazione non governativa internazionale che ha come scopo quello di sviluppare tutte le potenzialità del World Wide Web. Al fine di riuscire nel proprio intento, la principale attività svolta dal W3C consiste nello stabilire standard tecnici per il World Wide Web inerenti sia i linguaggi di markup che i protocolli di comunicazione). Secondo il DOM ogni concetto è un nodo: L’intero documento è un nodo radice. Ciascun tag XML è un nodo elemento. I testi contenuti negli elementi XML sono nodi testo. Ogni attributo XML è un nodo attributo. I nodi hanno tra loro una relazione gerarchica che rispetta l’annidamento dei tag. Questi nodi formano l’albero del documento. L’albero comincia con il nodo radice e si inseriscono i nodi elemento, questa configurazione è detta ALBERO STRUTTURA. Se si inseriscono nodi testo è detto ALBERO ISTANZA. Componenti della marcatura XML: Intestazione del documento tutti i documenti devono contenere una dichiarazione nel primo rigo, detta intestazione, che indica la versione di XML, inoltre indica anche se il documento è da ritenersi come una risorsa a se stante o se è legata ad altre. Contenuto di un elemento può essere costituito da un testo libero non contenente altri nodi, da un contenuto misto (nodi+testo), o da nessun elemento. Gli attributi la sintassi è nome_attributo = “valore”. Namespace chiunque può definire i propri tag. Commenti questo tipo di note non riguardano direttamente i dati da annotare, inoltre forniscono informazioni riguardo alle intenzioni dell’annotatore, ai suoi eventuali dubbi, promemoria ecc. I commenti inoltre possono apparire in qualunque punto del testo, tranne all’interno di un delimitatore di apertura o di chiusura. È possibile rappresentare qualsiasi carattere Unicode in un file XML con riferimento a carattere: &#. Per determinare la correttezza del documento XML vi è un processo di analisi detto Parsing, che esegue solo il controllo sintattico per verificare se il documento è ben formato. La correttezza del documento riguarda anche l’uso dei corretti nomi di tag e attributi nonché delle corrette relazioni tra i tag e dei valori degli attributi. La specifica di questo tipo di correttezza si ottiene attraverso la DTD (Document Type Definition). Linguaggi di markup personalizzati: MathML (Mathematical Markup Language), sviluppato per descrivere espressioni matematiche usando XML. Poi abbiamo CML (Chemical Markup Language) usato per rappresentare strutture chimiche e molecolari. GML (Geography Markup Language) descrive le informazioni geografiche. COMPRESSIONE DEL TESTO (modulo 16)
La compressione è una tecnica usata in informatica per ridurre le dimensioni di un file e quindi lo spazio necessario per la sua memorizzazione. Funziona attraverso la riduzione della quantità di bit necessari alla rappresentazione digitale di un’informazione, eliminando la parte ridondante (eccessiva) senza precludere la comprensibilità del messaggio. Le tecniche di compressione si dividono in 2 categorie: Compressione dati lossy comprime i dati attraverso un processo con perdita di informazione Questo comporta grandi risparmi di risorse, ma svantaggi sulla qualità audio-video. Compressione dati lossless comprime i dati attraverso un processo senza perdita di informazioni, che sfrutta le ridondanze nella codifica del dato. Dunque comporta il risparmio dello spazio quando si memorizzano i file e il risparmio di tempo all’invio del file. Gli svantaggi della compressione sono: -il file compresso non è usabile direttamente, per farlo si deve decomprimere; -il file compresso è più fragile; -il tempo impiegato per comprimere e decomprimere un file. Il file più utilizzato per la compressione e decompressione dei file è WinZip. Il codice di Huffman è un algoritmo usato per la compressione dei dati, basato sul principio di trovare il sistema ottimale per codificare stringhe a seconda della frequenza relativa di ciascun carattere. Applicando l’algoritmo di Huffman si deve costruire un albero in cui le lettere più frequenti siano posizionate più vicino alla radice rispetto a quelle con minore frequenza. L’algoritmo si realizza attraverso l’applicazione di alcuni passi: Conteggio è necessario contare la frequenza di ogni lettera nella nostra stringa Ordinamento ordinare le lettere, dalle più frequenti alle meno frequenti Accoppiamento nodi e costruzione dell’albero si sceglie un nodo dalla lista ordinata e lo si accoppia con un nodo pendente nell’albero o successivo nella lista ordinata. Si deve scegliere un nodo con peso minore. Si continuano ad accoppiare nodi, fino a quando non rimane un unico nodo, che sarà la radice. Una volta creato l’albero bisogna associare ad ogni nodo un bit, associando lo 0 a tutti i nodi di sinistra e uno a tutti quelli di destra. WEB SEMANTICO (modulo 17) Il web è un enorme insieme di risorse (testo e multimedia, programmi, basi di dati, servizi) collegate tra loro. Una peculiarità essenziale è l’universalità dei collegamenti, ovvero qualunque cosa può essere collegata a qualunque altra cosa da chiunque. Usiamo motori di ricerca che consentono di sapere cosa vogliamo trovare nel web. La parola o frase chiave viene ricercata nei titoli o nei contenuti testuali dei siti. Questa tipologia di ricerca è definita sintattica, però questa ha grosse limitazioni: sintatticamente parole uguali o simili possono intendere concetti differenti che vengono inseriti come risultati della ricerca, inoltre parole diverse possono intendere la stessa cosa e non vengono inserite come risultato della ricerca. Tutto questo accade perché:
L’usabilità inoltre studia meccanismi per valutare e migliorare gli strumenti nella loro interazione con l’utente. Per questo un sito deve poter essere usato senza frustrazione e ricordato facilmente, inoltre usabile, per questo bisogna comprenderne gli scopi, ed efficiente se i suoi contenuti sono consultabili in maniera veloce e proficua. Secondo la strategia della piramide rovesciata, definita da Nielsen, bisogna scrivere i contenuti partendo dalle conclusioni, il resto va aggiunto in seguito. La struttura del sito è strettamente connessa alla navigazione, ogni pagina è composta da: testata, corpo, barra di navigazione e piè di pagina. In base a ciò che vogliamo comunicare, la struttura grafica della pagina web sarà diversa. I link sono la caratteristica principale del web e dovrebbero essere sempre chiaramente riconoscibili. Le HCL sono tecniche basate sullo studio di utenti alle prese con prodotti reali, cioè servono per capire come l’utente ragiona, utilizzando l’interfaccia. Una volta che il sito è online, può essere raggiunto per indicizzazione, ovvero il modo in cui il sito viene interpretato dai motori di ricerca e quindi compare nelle pagine di risposta agli utenti. Il posizionamento invece è un’azione che determina la posizione del sito nelle pagine di risposta dei motori (cioè nelle prime posizioni). Con l’acronimo SEO si intendono tutte le attività finalizzate ad ottenere la migliore rilevazione, analisi e lettura del sito web, da parte dei motori di ricerca, grazie ad un migliore posizionamento e ad una migliore visibilità. In Google dipende da fattori interni (legati alla struttura del sito e delle pagine) o esterni (dipendenti dalla quantità e qualità dei link entranti dal web). USER EXPERIENCE (UX) modulo 19 Come il prodotto si comporta e viene usato nel mondo reale. Gli utenti hanno bisogno di prodotti che funzionino e rispondono alle loro aspettative, si segmentano gli utenti sulla base di caratteristiche condivise. Gli obiettivi dovrebbero essere specifici per ogni sito. Inoltre per quanto riguarda il livello Scope abbiamo: -Functional Specifications, dove le caratteristiche delle applicazioni devono essere incluse nel sito -Content Requirements, dove vi sono gli elementi di contenuto che il sito deve includere. Per quanto riguarda invece il livello Strategy abbiamo: -User Needs, ovvero cosa deve fare il sito per le persone che lo usano -Site Objectives, ovvero cosa deve fare il sito per le persone che lo costruiscono. Poi per quanto riguarda il livello Structure abbiamo: -Interaction Design, ovvero come gli utenti si muovono da uno step del processo al successivo -Information Architecture, ovvero come gli utenti si muovono da un contenuto all’altro. Per il livello Skeleton abbiamo: -Information Design: che facilita la comprensione delle informazioni -Interface Design: che facilita input e output -Navigation Design: che aiuta a spostarsi all’interno del sito
Per il livello Surface abbiamo: -Visual Design: il “look” del “look and feel”, quello che di solito la gente pensa che sia il “Web design” , molto più di sola estetica. SISTEMI INFORMATIVI (modulo 20) Ogni organizzazione ha un sistema operativo per il suo funzionamento, costituito dall’insieme delle informazioni utilizzate, prodotte e trasformate da un’azienda durante l’esecuzione dei suoi processi. Raccoglie informazioni da sorgenti esterne e interne all’impresa, fornisce a ciascun ruolo aziendale le informazioni a lui necessarie, infine memorizza le informazioni relative a decisioni e azioni. Un’organizzazione è caratterizzata da persone, attività produttive e accessorie. Gli elementi tipici di un sistema organizzato (piramide di Anthony) sono: ● Livello operativo: produttività dei beni e servizi per cui l'organizzazione si è costituita; ● Livello di coordinamento: per la pianificazione ed il controllo delle attività del livello operativo; ● Livello dirigenziale: per la supervisione tattica nell'uso delle risorse e dei piani a medio/lungo termine. In ogni livello, le attività svolte utilizzano dati e producono informazioni, i dati possono provenire anche da sorgenti esterne e un’informazione può divenire essa stessa un nuovo dato. Per realizzare gli archivi su file si usa il modello gerarchico dei dati su computer: