

Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
La parte del Prof Milanesi del corso di Linguistica Computazionale e Informatica Umanistica
Tipologia: Appunti
1 / 2
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


Milanese Corpus o corpora : una raccolta di oggetti dotata di omogeneità, ad esempio tutti i romanzi francesi dell'Ottocento. Con omogeneità ci si può riferire a parametri molto diversi tra di loro. La più grande raccolta di corpora è la raccolta Corpus Thomisticum delle opere di San Tommaso d'Aquino, elaborato da Roberto Busa che ebbe l'intuizione che i computer sarebbero stati di grande aiuto per studiare dentro i testi. Per qualunque ricerca è fondamentale la presenza di grandi corpora di testi che permettono di fare ricerche più precise e non approssimative. Strumenti fondamentali per l'analisi dei testi: Elenco di parole per sapere se una parola c'è o no. Indice: lista delle parole accompagnate da un riferimento. Indice frequenziale: lista delle parole accompagnate dalle indicazioni della frequenza d'uso. Concordanza: lista delle parole inserite in una porzione di testo, fa dedurre come può essere utilizzata una parola. Hardware : gli elementi fisici di un sistema informatico – scheda madre, dispositivi di input e output. Software : istruzioni o dati memorizzati su un sistema informatico, nel caso di istruzioni si parla di programma. Componimenti di un computer (hardware): scheda madre che alloggia processore e memoria, memorie di massa che permettono di archiviare informazioni in modo sicuro, periferiche di input (tastiera, mouse) e periferiche di output (monitor, stampante). Software di: Dati: files contenenti testi, immagini, etc. Programmi: files che contengono le istruzioni per svolgere un compito. Licenze: Aperta: programmi liberamente accessibili, di dominio pubblico. Proprietario: la sorgente del programma non è liberamente studiabile e modificabile Tipologie di software: Freeware: l'uso del programma o l'accesso ai dati è gratuito. Shareware: il programma è utilizzabile gratuitamente con limitazioni. Commerciale: il programma richiede fin dall'inizio una licenza d'uso a pagamento Usi possibili del software: multipiattaforma, che può essere utilizzato su diversi sistemi operativi, oppure limitato ad un sistema. Ogni programma del computer lavora in questo modo: ingresso dei dati (input), elaborazione dei dati, uscita dei dati trasformati (output). Il web come grande corpus di analisi: attraverso il web possiamo vedere la frequenza dell’utilizzo delle parole. Chi consulta un dizionario a fini professionali, a differenza dell'utente medio, è un avido conoscitore, interessato a comprendere la concezione teorica e i criteri che hanno ispirato la compilazione dell'opera. Il dizionario Tommaseo Bellini aveva finalità di tipo politico e pedagogico: promuovere e rinvigorire l'identità linguistica italiana in seguito al successo dell'Unità d'Italia, per riformare l'uso vivo della lingua. Il sistema operativo è il software di base che permette di accedere all'hardware di un sistema informatico, e quindi di controllare l'input e l'output, le periferiche. È necessario affinché gli altri programmi possano funzionare. Famiglia di sistemi operativi: Sistemi Unix o da esso derivati. Microsoft Windows. I sistemi Unix sono una famiglia di sistemi operativi che derivano dall’originario sistema sviluppato intorno al 1973 da Thompson e Ritchie, dai quali derivano sostanzialmente tutti i sistemi operativi oggi maggiormente in uso con l'eccezione di Windows. Linux è un sistema operativo libero (free software) di tipo Unix ma non derivato: il kernel, ossia il nucleo fondamentale del sistema, venne creato da Torvalds nel 1991. Essendo un sistema aperto può essere adattato alle esigenze individuali. Linux è disponibile in moltissime varietà, dette distribuzioni, che sono sviluppate liberamente da singoli programmatori o aziende. Queste distribuzioni condividono lo stesso nucleo fondamentale ma si distinguono per i programmi installati, il tipo di interfaccia grafica e altre caratteristiche. I computer più potenti al mondo usano tutti Linux. Android : sistema operativo derivato da Linux molto diffuso nei cellulari, ma è un sistema fragile. Mac OS X : sistema operativo sviluppato dalla Apple e preinstallato su tutti i propri computer dal 2002; iOS , originariamente iPhone OS , è un sistema operativo Apple per iPhone. Sistemi Microsoft : MS-DOS: Microsoft Disco Operating System è un sistema operativo sviluppato dalla Microsoft di Bill Gates nei primi anni ’80. Era un sistema a linea di comando e funzionava sul primo computer che ha avuto diffusione mondiale. Windows o Microsoft Windows è una famiglia di sistemi operativi che derivano da un'interfaccia grafica utente (graphical user interface) sviluppata nel 1985 per accedere in modo agevole all'originario sistema MS- DOS. Si tratta di un'interfaccia a linea di comando, Command-Line Interface: CLI. La CLI è un'interfaccia di tipo testuale in cui l’utilizzatore, attraverso la tastiera, scrive direttamente i comandi. Il vantaggio delle interfacce
testuali è la grande rapidità e il controllo assoluto da parte dell'utilizzatore sulle operazioni che intende compiere, lo svantaggio è la necessità di ricordarsi molti comandi. Digitale: significa rappresentare la realtà attraverso i numeri, è quindi preciso e inequivoco nella rappresentazione del dato. Digitalizzare un testo significa trasformare quel testo in numeri che il computer è in grado di capire: il testo computerizzato è una riproduzione con un altro mezzo del testo trasmesso con numeri analogici. Scansione e OCR: ottenendo il testo attraverso un processo che acquisisce l'immagine composta da pixel, si estrae dall'immagine un testo vero e proprio attraverso appositi programmi che scansionano l'immagine e analizzano le sequenze dei pixel per ricostruire le lettere alfabetiche contenute. Strumenti: qualunque programma di scansione delle immagini e una proposta. Codifica del testo: le funzioni del testo sono indicate da diverse impostazioni grafiche. Il markup , ossia l'indicazione delle funzioni delle parti di un testo, è un tipo di attività metalinguistico. La funzione è abilitata/aperta prima dell'oggetto con una notazione convenzionale, ed è disabilitata/chiusa dopo l'oggetto con una notazione convenzionale. Questa forma di codifica si chiama XML: eXtensible Markup Language. HTML e il web SGML: sviluppato negli anni ‘80 da GML. Berners-Lee e Cailliau inventano: Sintassi URI: Uniform Resource Identifier, la sintassi per definire dove si trova un oggetto nel computer. URL: Uniform Resource Locator, l'indirizzo sul web. Http: Hypertext Transfer Protocol, protocollo di trasmissione di un ipertesto. Sistema grazie al quale un computer può trasmettere dati ad un altro computer. HTML: Hypertext Markup Language. Xanadu: fondato nel 1960, è un programma di scrittura testi in grado di memorizzare più versioni dello stesso scritto, ossia tutta la cronologia delle modifiche, ed è capace di visualizzare le differenze tra le diverse versioni. Arpanet: nasce nel 1973 per scopi militari, poiché l'intelligence americana voleva mettere in rapporto i principali centri di calcolo americani in modo che non ci fosse un centro unico. Codificare pagine per il Web: HTML Le pagine web sono file di testo con l'aggiunta di un codice HTML, che i browser Internet interpretano. Il codice HTML codifica il formato grafico della pagina web. Nel file HTML vengono codificati il testo, gli hyperlink e la formattazione, mentre gli altri elementi della pagina web sono salvati a parte nel server. Il file HTML contiene gli indirizzi agli elementi multimediali che sono parte della pagina web. Il browser quindi richiederà uno per uno questi elementi multimediali per comporre la pagina. Linguaggio HTML: linguaggio a marcatura adatto per ipertesti. L'idea è quella di avere un insieme di tag che tutti i browser sono in grado di comprendere. Il vantaggio di HTML è la standardizzazione: in linea di massima tutti i browser sono in grado di leggere questo tipo di codice. Un web che funzioni bene deve riuscire a tenere separato il momento semantico da quello presentazionale. Nel 1997 nasce il linguaggio fogli di stile a cascata : il file HTML codifica la semantica, poi il file CSS codifica la presentazione grafica. Oggigiorno HTML presenta un grande caos: le informazioni di tipo presentazionale e semantico si impastano sempre. C'è l'illusione della durata perenne delle informazioni digitalizzate, ma anche l'informazione digitalizzata dura per un certo tempo e poi svanisce. Costruire corpora dal web per la ricerca terminologica e la documentazione Il primo punto della corpus linguistics è reperire testi, cercare testi online: girare per la rete e capire il significato di una parola. La raccolta di testi è la creazione di un patrimonio: il patrimonio deve essere condivisibile ed esternalizzato poiché rappresenta una conoscenza. Il punto essenziale è imparare ad utilizzare gli strumenti, bisogna coltivare le fonti per assicurarsi che siano affidabili.