









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Progetto informatica Umanistica prof. Lariccia
Tipologia: Guide, Progetti e Ricerche
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Indice:
1. Digital Humanities 1.1 Introduzione alla Digital Humanities _2. Standford litery lab
di strumenti e materiale multimediale, a delle nuove strategie interpretative in ambito letterario. Nel 2005 con la pubblicazione del saggio Graphs, maps and trees Franco Moretti ha introdotto il Distant Reading ; questo modello di ricerca prevede l’osservazione globale di un vasto insieme di dati testuali, come ad esempio un intero genere letterario, effettuata attraverso grafici, mappe geografiche, e alberi genealogici. Questo nuovo approccio per gli studi critico letterari è basato sulla quantificazione o metodo quantitativo e sul calcolo ( quantitative and computational criticism ) e si lega alla creazione di grandi archivi digitali elaborati mediante algoritmi che permettono appunto l’organizzazione dei dati. Nel saggio pubblicato nel 2005 ‘’La letteratura vista da lontano’’ Moretti presenta e descrive nello specifico ciò che egli intende con ‘ ’distant reading’’ contrapposto al ‘’close reading’’ (lettura di un singolo romanzo per volta’’) fornendo un’analisi statistica soprattutto sul fenomeno ‘’romanzo’’ attraverso 3 strumenti intellettuali: grafici della storia quantitativa, carte della geografia e alberi della teoria dell’evoluzione. Essi sono il risultato di un allontanamento rispetto al testo nella sua concretezza e questo è il nuovo modo di lavorare; la distanza fa vedere meno dettagli ma fa capire meglio i rapporti, i pattern e le forme. Si scelgono modelli astratti per la storia letteraria con conseguenze concrete, si osserva direttamente quanto sia sterminato il campo letterario. La storia della letteratura non si comprende cucendo insieme tanti casi isolati ma considerandola come un sistema collettivo che deve essere studiato come tale. Si parla dunque di quantificazione dell’analisi letteraria.
Nel 2010 Moretti fonda lo Stanford Literary Lab che ha sviluppato nel corso degli anni una metodologia che congiunge l’uso di larghi archivi digitali con varie forme di analisi computazionale, diventando uno dei principali centri di ricerca nel campo dell’informatica umanistica, un vero e proprio laboratorio critico letterario, il quale è stato protagonista fra l’altro di critiche e polemiche. I risultati della ricerca del Literary Lab sono stati pubblicati come pamphlets tradotti in una ventina di lingue e recentemente raccolti in un’antologia. https://www.liberopensiero.eu/28/11/2017/cultura/digital-humanities-franco-moretti/ Nella pagina web dello Stanford Literary Lab è possibile accedere a varie sezioni; nella sezione ‘’ about ’’ viene presentato lo Stanford Literary Lab come un gruppo di ricerca che applica la critica computazionale, in tutte le sue forme, allo studio della letteratura. Nella sezione ‘’ people ’’ è possibile conoscere tutti i ricercatori che ne fanno parte e che collaborano insieme. Mentre nella sezione Pamphlets vengono pubblicati i vari progetti di ricerca che applicano la metodologia di analisi elaborata da Moretti. Ad esempio nel Pamphlet ‘ ’The Emotions of London ’’ viene rappresentato ed introdotto un nuovo campo di lavoro per il Literary Lab, quello della geografia letteraria e culturale. I ricercatori hanno lavorato su un corpus di 5.000 romanzi distribuiti in due secoli, dal 1700 al 1900 ed hanno cercato di illustrare lo sviluppo diseguale di spazi sociali e strutture immaginarie, mettendo in luce la connessione a lungo termine tra emozione e classe nelle rappresentazioni narrative di Londra.
consente di comprendere la semantica del testo, identificando il significato delle parole, anche relazionato al contesto e alle modalità di utilizzo (ad es. ironia, sarcasmo, sentimento, umore), classificandolo in categorie predefinite (ad es. sport, geografia, medicina) o sintetizzandone il contenuto. Inoltre nel corso degli anni sono stati elaborati algoritmi sempre più complessi basati sul deep learning per risolvere alcuni problemi nell’elaborazione e comprensione del linguaggio naturale. Il deep Learning si basa sul concetto di rete neurale artificiale, ossia un modello matematico ispirato, dal punto di vista funzionale, ai sistemi neurali biologici del cervello umano. Una rete neurale artificiale profonda è composta da una serie di neuroni che sono disposti su più livelli collegati fra loro. Ad oggi il deep learning rappresenta l’approccio maggiormente adottato per affrontare problematiche relative all’elaborazione e comprensione del linguaggio naturale, anche se le sfide da affrontare sono ancora numerose e richiedono il ricorso a discipline quali le neuroscienze, la psicologia cognitiva e la linguistica per rappresentare, comprendere e generare testo o parlato in linguaggio naturale in maniera similare all’uomo, e dall’altro, nell’avere a disposizione grandi quantità di dati, anche allineati tra differenti lingue, per addestrarne e validarne le prestazioni. https://www.agendadigitale.eu/cultura- digitale/linguaggio-naturale-e-intelligenza-artificiale-a-che-punto-siamo/
Text Analytics è il processo di conversione di dati di testo non strutturati o strutturati da altre fonti in dati significativi. I text analysis software estraggono il testo e utilizzano algoritmi di elaborazione del linguaggio naturale per ricavare significato da enormi volumi di testo, rilevare la lingua, elaborare il testo, classificare gli argomenti, ed eseguire valutazioni di leggibilità. Fornisce inoltre servizi come analisi, tokenizzazione, segmentazione di frasi, estrazione di entità denominata e tag di parte del discorso. Essi utilizzano tecniche linguistiche, statistiche e di apprendimento automatico. La capacità di importare il testo è una delle caratteristiche più importanti di questi software. I migliori software di data mining possono importare dati in diversi formati (HTML,PDF,CSV ecc…). Un’altra caratteristica importante dei text analysis software è la capacità di visualizzare il testo elaborato in quanto essi aiutano gli utenti in diversi modi per una facile interpretazione. Gli utenti del software possono esplorare le relazioni tra i termini e utilizzare diagrammi interattivi per visualizzare i risultati.
Python è un linguaggio di programmazione ad alto livello, orientato agli oggetti, adatto, tra gli altri usi, a sviluppare applicazioni distribuite, scripting , computazione numerica e system testing. Fu ideato da Guido van Rossum all'inizio degli anni novanta. Parliamo di un linguaggio di programmazione semplice ma potente con un’eccellente funzionalità per l’elaborazione di dati linguistici e può essere scaricato gratuitamente da qualsiasi utente. Python è ampiamente utilizzato nell’industria,
nella ricerca scientifica e nell’istruzione in tutto il mondo. Python è stato progettato in modo da essere facilmente leggibile. Visivamente si presenta in modo semplice e ha pochi costrutti sintattici rispetto ad altri linguaggi strutturati come C, Perl o Pascal. NLTK è una libreria scritta in linguaggio Python che fornisce i moduli per l’elaborazione di testo, classificazione, tokenizing, parsing, stemming, tagging, semantic reasoning e analisi. È una comunità open source creata da due accademici Steven Bird e Edward Loper nel Departement of computer and information science at the university of Pennsylvania. Essa punta a supportare la ricerca e l’insegnamento dell’NLP ed altri campi correlati, come la linguistica, le scienze cognitive, l’intelligenza artificiale e il machine learning. Essa è dunque una infrastruttura che può essere utilizzata per creare programmi NLP in Python. NLTK include strumenti grafici e dati di esempio ed è accompagnato da un libro che espone i concetti alla base dei problemi di linguaggio naturale risolti dai programmi del toolkit. Il libro, scritto dai creatori di NLTK, fornisce un’introduzione pratica alla programmazione per l’elaborazione del linguaggio; esso guida il lettore attraverso i fondamenti della scrittura di programmi python lavorando con i corpora, categorizzando il testo, analizzando la struttura linguistica e altro ancora; il libro è in fase di aggiornamento per Python 3 e NLTK 3. Attraverso le istruzioni fornite dal libro l’utente/lettore impara a trattare il testo come una serie di dati ‘’grezzi’’ e analizzarlo in una varietà di modi interessanti. Scaricando Python e NLTK sarà possibile iniziare a lavorare sui testi ricavando vari dati utili ad esempio ad estrarre automaticamente le parole chiave, le frasi che riassumono lo stile e il contenuto di un testo. È possibile dunque effettuare varie operazioni importando un testo in Python da NLTK book ed avviando il ‘’ Python interpreter’’ lavorando in modo interattivo. Si potrà allora esaminare la ricorrenza di una determinata parola all’interno di un testo e vedere in quali contesti essa appare. Oppure mettere a confronto due testi ed osservare come una stessa parola venga utilizzata in modi e contesti differenti. Altre informazioni sulla posizione di una parola all’interno del testo possono essere ricavate mediante un diagramma di dispersione. Prendendo in esame più testi ed unendoli sino a comporre un testo artificiale è possibile, attraverso un diagramma di dispersione lessicale, indagare sui cambiamenti nell’uso della lingua nel tempo. Nel libro viene mostrato l’esempio di un diagramma di dispersione lessicale delle parole nei discorsi inaugurali presidenziali degli Stati Uniti che potrebbe portare ad indagare dunque sui cambiamenti dell’uso delle
Accedendo al sito voyant-tools.org si apre la schermata iniziale dove è possibile creare un corpus in tre diverse modalità. Infatti in alto a sinistra troviamo tre opzioni che aiutano l’utente ad inserire ad inserire documenti in diversi formati e spiegano come farlo. Il primo strumento partendo da sinistra permette di scegliere la lingua del testo, altrimenti essa viene rilevata automaticamente. Nel secondo strumento, centrale, sono presenti varie opzioni al fine di creare il proprio corpus: Formato input: viene rilevato automaticamente, o scelto, il formato di input Corpus: vi è la possibilità di fornire un titolo e un sottotitolo per il proprio corpus. Documents order: si può selezionare una sorta di ordine iniziale per il documento Text: vi è la possibiltà di tagliare ed ignorare parti del testo che non si vogliono analizzare, specificandolo in apposite sezioni che vengono fornite da Voyant, ad esempio ‘’ Omit Until ‘’. XML: vengono fornite varie funzionalità per creare un corpus da documenti XML, in particolare usando le espressioni XPath per definire documenti, contenuti e metadata come il titolo e l’autore. HTML: dove vengono fornite le funzionalità per lavorare e analizzare specifiche parti di un documento HTML. JSON: per lavorare con documenti con JSON allo stesso modo delle due tipologie di documenti precedenti (HTML, XML). Tables: è un’opzione di Voyant che permette di lavorare flessibilmente con dati tabulari come ad esempio Spreadsheets (tabelle elettroniche, fogli di calcolo elettronici) e permette quindi di estrarre documenti multipli e testi dai vari files, quindi tabelle. Al momento l’opzione qui presente può essere utilizzata solo con MS Excel files. Tokenization: cioè il processo di identificare le parole o sequenze di caratteri unicode che vengono considerati come unità. Sono presenti tre
scelte per quanto riguarda la tokenization: Automatic, Word Boundaries, Whitespace Only. Access management: cioè gestire e controllare gli accessi a un determinato corpus (chi può accedervi). Infine il terzo ed ultimo strumento sulla destra permette di creare un corpus utilizzando tre differenti modalità: Incollando l’URL della pagina o del sito dal quale viene preso il documento. Cliccando il pulsante ‘’Apri’’ per aprire un corpus già esistente su Voyant. Cliccando il pulsante ‘’Carica’’ per caricare uno o più file dal computer. A partire da questa prima introduzione generale di Voyant è possibile dunque procedere ad analizzare nello specifico un corpus, mostrando le funzionalità degli strumenti e i risultati che possono essere ottenuti mediante l’analisi testuale. Il testo preso in considerazione è ‘’A modest proposal’’, un pamphlet satirico scritto da Jonathan Swift nell’Irlanda del 1729. Nell’opera l’autore si avvale di una forte e sconcertante ironia presentando la soluzione per eccellenza al problema della fame e della povertà nell’Irlanda di quel periodo, ovvero trasformare i bambini poveri in carne da macello e in cibo per le classi sociali più elevate, alleggerendo anche il carico economico delle famiglie povere di questi bambini. Swift in realtà, particolarmente vicino ai problemi della sua nazione, intende rivelare, dietro l’ironia, la critica situazione della società irlandese settecentesca, in cui impervia la fame e la povertà nella più totale indifferenza delle classi sociali più abbienti. Utilizzando Voyant Tools e procedendo con l’analisi testuale mediante i suoi strumenti e le sue funzioni si può ad esempio tentare di comprendere il modo in cui viene presentata e criticata con un velo di ironia la società Irlandese del 1700. Il primo passaggio consiste nel selezionare il testo ed importarlo in Voyant; in questo caso è stato caricato il testo ‘’A modest proposal’’ in formato PDF dal computer. Premendo il tasto ‘’Rivela’’ si apre successivamente la pagina principale di Voyant in cui appare il testo analizzato dal programma mediante una pluralità di opzioni e strumenti. Essa è costituita da 5 temi predefiniti che sono collegati e interagiscono fra loro. Essi sono: Cirrus: una nuvola di parole che visualizza le parole più frequenti all’interno di un corpus o documento. In particolare le parole più frequenti
mancanza di lavoro, questo Regno, mendicante, condizioni di miseria, contea di Cavan, nostri commercianti, città di Dublino, proprietario di campagna, gentiluomini, morire di fame, primo ministro, patria. Andamenti: questo strumento mostra un grafo di linea raffigurante la distribuzione di una o più parole all’interno di un singolo documento o in un corpus. Nel caso del singolo documento viene mostrata la frequenza delle parole nei vari segmenti in cui il testo viene suddiviso. Nel caso in cui si vogliano analizzare più parole insieme nei vari segmenti, ogni linea colorata rappresenta l’andamento di una parola nel testo e la corrispondenza fra il grafo di linea e la parola viene indicato da una leggenda in alto al grafico. In a modest proposal vediamo l’andamento di alcune parole nel testo, ad esempio notiamo che la parola ‘’aborti’’, la quale viene presentata da Swift come una pratica diffusa fra le classi povere della società dell’epoca, è presente solo all’inizio e sparisce invece al finale del testo, quando appunto viene trovata una soluzione per ovviare al problema della povertà e infatti per lo stesso motivo le parole ‘’miglioramento’’ o ‘’denaro’’ vengono ritrovate solo alla fine del testo negli andamenti. Sommario: offre una panoramica completa e semplice del documento o del corpus ed è infatti costituito da diverse categorie. Nel testo preso in considerazione vengono fornite le seguenti informazioni:
Un altro esempio ancora può essere offerto prendendo la parola ‘’città’’ e analizzando i vari contesti in cui appare: le città dell’Irlanda affollate da poveri e ladri senza occupazione e affamati. Anche la parola ‘’paese’’ che è una delle più importanti parole chiave ci offre una moltitudine di contesti differenti in cui essa viene utilizzata; il più significativo per la ricerca e l’analisi che si vuole fare in questo caso è il segmento in cui alla parola paese viene associata un avvenimento reale dell’epoca, la guerra di successione spagnola nel 700. Le donne infatti e la popolazione irlandese preferiva abbandonare il proprio paese ed andare a combattere altre battaglie o vendersi come schiavi perché l’Irlanda non offriva più alcuna possibilità trovandosi in uno stato di totale miseria. Gli strumenti fino a qui elencati fanno parte dei temi predefiniti di Voyant; essi interagiscono e sono collegati l’uno con l’altro permettendo un’analisi a 360^. Gli strumenti permettono non solo la ricerca di singole parole ma Voyant supporta anche ricerche avanzate, ad esempio nelle barre di ricerca sotto i vari strumenti possono essere trovate anche parti della sintassi, ad
una linea di colore viola e suddivisa in vari segmenti, ognuno indicante un contesto. Uno dei più significativi necessari alla nostra analisi è quello che colloca la parola ‘’regno’’ in un contesto utile ad identificare la disastrosa situazione della società Irlandese in quel periodo, e cioè che qualsiasi cosa fosse stata fatta comunque il Regno non avrebbe potuto essere peggiore di quanto fosse effettivamente nello stato attuale. Topics: questo strumento è stato designato per aiutare a capire quali topics o gruppi di parole esistono nel testo e come sono distribuiti. Nel caso di un singolo documento, esso verrà diviso in segmenti di uguale lunghezza per modellare i vari gruppi di parole. L’algoritmo alla base di questo procedimento inizia con l’assegnare in maniera casuale le parole ai topics e cerca poi di perfezionare il topic modelling inserendovi le parole che meglio si adattano. Questo processo potrebbe dunque portare ogni volta a dei risultati differenti ma ogni risultato offre delle nuove possibilità di analisi e ha una coerenza interna. Ogni topic contiene tecnicamente ogni parola all’interno del documento ma vengono visualizzate solo le dieci parole iniziali; l’ordine delle parole inoltre è importante e infatti le prime parole contribuiscono molto di più al topic rispetto a quelle finali. La tabella mostra due colonne, quella del Topic e quella degli Scores , che mostra quanto è prevalente il topic per ogni segmento nel documento.
Dreamscape: è uno strumento sperimentale, un primo tentativo, utile per esplorare aspetti geospaziali del testo, cioè come il testo potrebbe essere rappresentato geo-spazialmente. Esso cerca di identificare locations, soprattutto i nomi delle città menzionati nel testo e suggerisce un modello di connessioni ricorrenti fra esse. Questo modello potrebbe servire per identificare viaggi di persone, idee, oggetti e qualsiasi altra cosa. Nel caso di ‘’A modest proposal’’ Voyant offre una mappa in cui vengono identificati i vari luoghi menzionati nel testo e le loro correlazioni, come ad esempio la città di Dublino e di Londra e l’isola di Formosa.