Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Digital Humanities , Nltk, voyant, Guide, Progetti e Ricerche di Elementi di Informatica

Università degli Studi di Roma La Sapienza (UNIROMA1)Elementi di Informatica

Prof. Stefano Lariccia

Progetto informatica Umanistica prof. Lariccia

Tipologia: Guide, Progetti e Ricerche

2018/2019

Caricato il 18/12/2019

silvia-corrias 🇮🇹

4.1

(21)

16 documenti

1 / 15

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

DIGITAL HUMANITIES

Indice:

1. Digital Humanities

1.1 Introduzione alla Digital Humanities

2. Standford litery lab

3. Natural Language Processing

3.1 Text Analysis Software

3.2 Natural Language Processing with NLTK Python

4. Voyant

4.1 Voyant Tools

4.2 Testo satirico «a modest proposal» applicato a Voyant

Digital Humanities (Informatica Umanistica) è un campo di studi che nasce

dall'integrazione di procedure computazionali e sistemi multimediali nelle

discipline umanistiche, relativamente in particolare alla rappresentazione dei

dati, alla formalizzazione delle fasi di ricerca e alle tecniche di diffusione dei

risultati. Il rapporto tra le due componenti si esprime non solo a livello

applicativo, ovvero nell'impiego di strumenti informatici per rendere più veloci ed

efficienti le ricerche delle discipline umanistiche, ma anche a livello

metodologico, ovvero nell'integrazione di approcci al fine di generare nuovi

paradigmi di elaborazione dei dati. I campi d'applicazione dell'informatica

umanistica coinvolgono gli studi di linguistica, filologia, letteratura, storia,

archeologia, storia delle arti figurative, musicologia, interazione uomo-

macchina, biblioteconomia e il settore della didattica. I principali settori

applicativi dell’informatica umanistica sono l’analisi testuale, l’organizzazione di

basi di dati, il trattamento computerizzato delle immagini e la gestione

automatica di risorse bibliografiche, biblioteche e documenti d’archivio.

L’informatica Umanistica ha apportato numerosi vantaggi e contributi agli studi

letterari, in particolare ha permesso la creazione di grandi corpora di testi

antichi e moderni in formato digitale i quali hanno ridefinito l’ampiezza delle

ricerche in campo letterario e aumentato la possibilità di attuare analisi testuali

a partire dal singolo documento sino al confronto di testi su larga scala.

Negli ultimi anni Franco Moretti si è dedicato allo studio delle digital humanities

avviando un percorso innovativo per la cultura che interseca la tradizione degli

studi umanistici con quella del digitale e dell’informatica portando, con l’utilizzo

Scopri Guide, Progetti e Ricerche di Elementi di Informatica Università degli Studi di Roma La Sapienza (UNIROMA1)

Documenti correlati

Riassunto DIGITAL HUMANITIES: METODI, STRUMENTI E SAPERI

(2)

Appunti Digital Humanities - 2023/2024

(2)

Digital Humanities (appunti completi)

Introduzione all'informatica umanistica: Digital Humanities

Tesina Digital humanities

Digital Humanities: Un Approccio Transdisciplinare

Appunti di digital humanities

Tesina esame informatica

DIGITAL HUMANITIES, informatica

(2)

Appunti del corso Digital Humanities

Digital Heritage & digital humanities

(4)

Storiografia e pratica nelle Digital Humanities

Anteprima parziale del testo

Scarica Digital Humanities , Nltk, voyant e più Guide, Progetti e Ricerche in PDF di Elementi di Informatica solo su Docsity!

DIGITAL HUMANITIES

Indice:

1. Digital Humanities 1.1 Introduzione alla Digital Humanities _2. Standford litery lab

Natural Language Processing_ 3.1 Text Analysis Software 3.2 Natural Language Processing with NLTK Python
Voyant 4.1 Voyant Tools 4.2 Testo satirico «a modest proposal» applicato a Voyant Digital Humanities (Informatica Umanistica) è un campo di studi che nasce dall'integrazione di procedure computazionali e sistemi multimediali nelle discipline umanistiche, relativamente in particolare alla rappresentazione dei dati, alla formalizzazione delle fasi di ricerca e alle tecniche di diffusione dei risultati. Il rapporto tra le due componenti si esprime non solo a livello applicativo, ovvero nell'impiego di strumenti informatici per rendere più veloci ed efficienti le ricerche delle discipline umanistiche, ma anche a livello metodologico, ovvero nell'integrazione di approcci al fine di generare nuovi paradigmi di elaborazione dei dati. I campi d'applicazione dell'informatica umanistica coinvolgono gli studi di linguistica, filologia, letteratura, storia, archeologia, storia delle arti figurative, musicologia, interazione uomo- macchina, biblioteconomia e il settore della didattica. I principali settori applicativi dell’informatica umanistica sono l’analisi testuale, l’organizzazione di basi di dati, il trattamento computerizzato delle immagini e la gestione automatica di risorse bibliografiche, biblioteche e documenti d’archivio. L’informatica Umanistica ha apportato numerosi vantaggi e contributi agli studi letterari, in particolare ha permesso la creazione di grandi corpora di testi antichi e moderni in formato digitale i quali hanno ridefinito l’ampiezza delle ricerche in campo letterario e aumentato la possibilità di attuare analisi testuali a partire dal singolo documento sino al confronto di testi su larga scala. Negli ultimi anni Franco Moretti si è dedicato allo studio delle digital humanities avviando un percorso innovativo per la cultura che interseca la tradizione degli studi umanistici con quella del digitale e dell’informatica portando, con l’utilizzo

di strumenti e materiale multimediale, a delle nuove strategie interpretative in ambito letterario. Nel 2005 con la pubblicazione del saggio Graphs, maps and trees Franco Moretti ha introdotto il Distant Reading ; questo modello di ricerca prevede l’osservazione globale di un vasto insieme di dati testuali, come ad esempio un intero genere letterario, effettuata attraverso grafici, mappe geografiche, e alberi genealogici. Questo nuovo approccio per gli studi critico letterari è basato sulla quantificazione o metodo quantitativo e sul calcolo ( quantitative and computational criticism ) e si lega alla creazione di grandi archivi digitali elaborati mediante algoritmi che permettono appunto l’organizzazione dei dati. Nel saggio pubblicato nel 2005 ‘’La letteratura vista da lontano’’ Moretti presenta e descrive nello specifico ciò che egli intende con ‘ ’distant reading’’ contrapposto al ‘’close reading’’ (lettura di un singolo romanzo per volta’’) fornendo un’analisi statistica soprattutto sul fenomeno ‘’romanzo’’ attraverso 3 strumenti intellettuali: grafici della storia quantitativa, carte della geografia e alberi della teoria dell’evoluzione. Essi sono il risultato di un allontanamento rispetto al testo nella sua concretezza e questo è il nuovo modo di lavorare; la distanza fa vedere meno dettagli ma fa capire meglio i rapporti, i pattern e le forme. Si scelgono modelli astratti per la storia letteraria con conseguenze concrete, si osserva direttamente quanto sia sterminato il campo letterario. La storia della letteratura non si comprende cucendo insieme tanti casi isolati ma considerandola come un sistema collettivo che deve essere studiato come tale. Si parla dunque di quantificazione dell’analisi letteraria.

Stanford Literary Lab

Nel 2010 Moretti fonda lo Stanford Literary Lab che ha sviluppato nel corso degli anni una metodologia che congiunge l’uso di larghi archivi digitali con varie forme di analisi computazionale, diventando uno dei principali centri di ricerca nel campo dell’informatica umanistica, un vero e proprio laboratorio critico letterario, il quale è stato protagonista fra l’altro di critiche e polemiche. I risultati della ricerca del Literary Lab sono stati pubblicati come pamphlets tradotti in una ventina di lingue e recentemente raccolti in un’antologia. https://www.liberopensiero.eu/28/11/2017/cultura/digital-humanities-franco-moretti/ Nella pagina web dello Stanford Literary Lab è possibile accedere a varie sezioni; nella sezione ‘’ about ’’ viene presentato lo Stanford Literary Lab come un gruppo di ricerca che applica la critica computazionale, in tutte le sue forme, allo studio della letteratura. Nella sezione ‘’ people ’’ è possibile conoscere tutti i ricercatori che ne fanno parte e che collaborano insieme. Mentre nella sezione Pamphlets vengono pubblicati i vari progetti di ricerca che applicano la metodologia di analisi elaborata da Moretti. Ad esempio nel Pamphlet ‘ ’The Emotions of London ’’ viene rappresentato ed introdotto un nuovo campo di lavoro per il Literary Lab, quello della geografia letteraria e culturale. I ricercatori hanno lavorato su un corpus di 5.000 romanzi distribuiti in due secoli, dal 1700 al 1900 ed hanno cercato di illustrare lo sviluppo diseguale di spazi sociali e strutture immaginarie, mettendo in luce la connessione a lungo termine tra emozione e classe nelle rappresentazioni narrative di Londra.

consente di comprendere la semantica del testo, identificando il significato delle parole, anche relazionato al contesto e alle modalità di utilizzo (ad es. ironia, sarcasmo, sentimento, umore), classificandolo in categorie predefinite (ad es. sport, geografia, medicina) o sintetizzandone il contenuto. Inoltre nel corso degli anni sono stati elaborati algoritmi sempre più complessi basati sul deep learning per risolvere alcuni problemi nell’elaborazione e comprensione del linguaggio naturale. Il deep Learning si basa sul concetto di rete neurale artificiale, ossia un modello matematico ispirato, dal punto di vista funzionale, ai sistemi neurali biologici del cervello umano. Una rete neurale artificiale profonda è composta da una serie di neuroni che sono disposti su più livelli collegati fra loro. Ad oggi il deep learning rappresenta l’approccio maggiormente adottato per affrontare problematiche relative all’elaborazione e comprensione del linguaggio naturale, anche se le sfide da affrontare sono ancora numerose e richiedono il ricorso a discipline quali le neuroscienze, la psicologia cognitiva e la linguistica per rappresentare, comprendere e generare testo o parlato in linguaggio naturale in maniera similare all’uomo, e dall’altro, nell’avere a disposizione grandi quantità di dati, anche allineati tra differenti lingue, per addestrarne e validarne le prestazioni. https://www.agendadigitale.eu/cultura- digitale/linguaggio-naturale-e-intelligenza-artificiale-a-che-punto-siamo/

Text analysis software

Text Analytics è il processo di conversione di dati di testo non strutturati o strutturati da altre fonti in dati significativi. I text analysis software estraggono il testo e utilizzano algoritmi di elaborazione del linguaggio naturale per ricavare significato da enormi volumi di testo, rilevare la lingua, elaborare il testo, classificare gli argomenti, ed eseguire valutazioni di leggibilità. Fornisce inoltre servizi come analisi, tokenizzazione, segmentazione di frasi, estrazione di entità denominata e tag di parte del discorso. Essi utilizzano tecniche linguistiche, statistiche e di apprendimento automatico. La capacità di importare il testo è una delle caratteristiche più importanti di questi software. I migliori software di data mining possono importare dati in diversi formati (HTML,PDF,CSV ecc…). Un’altra caratteristica importante dei text analysis software è la capacità di visualizzare il testo elaborato in quanto essi aiutano gli utenti in diversi modi per una facile interpretazione. Gli utenti del software possono esplorare le relazioni tra i termini e utilizzare diagrammi interattivi per visualizzare i risultati.

Natural Language processing with NLTK Python

Python è un linguaggio di programmazione ad alto livello, orientato agli oggetti, adatto, tra gli altri usi, a sviluppare applicazioni distribuite, scripting , computazione numerica e system testing. Fu ideato da Guido van Rossum all'inizio degli anni novanta. Parliamo di un linguaggio di programmazione semplice ma potente con un’eccellente funzionalità per l’elaborazione di dati linguistici e può essere scaricato gratuitamente da qualsiasi utente. Python è ampiamente utilizzato nell’industria,

nella ricerca scientifica e nell’istruzione in tutto il mondo. Python è stato progettato in modo da essere facilmente leggibile. Visivamente si presenta in modo semplice e ha pochi costrutti sintattici rispetto ad altri linguaggi strutturati come C, Perl o Pascal. NLTK è una libreria scritta in linguaggio Python che fornisce i moduli per l’elaborazione di testo, classificazione, tokenizing, parsing, stemming, tagging, semantic reasoning e analisi. È una comunità open source creata da due accademici Steven Bird e Edward Loper nel Departement of computer and information science at the university of Pennsylvania. Essa punta a supportare la ricerca e l’insegnamento dell’NLP ed altri campi correlati, come la linguistica, le scienze cognitive, l’intelligenza artificiale e il machine learning. Essa è dunque una infrastruttura che può essere utilizzata per creare programmi NLP in Python. NLTK include strumenti grafici e dati di esempio ed è accompagnato da un libro che espone i concetti alla base dei problemi di linguaggio naturale risolti dai programmi del toolkit. Il libro, scritto dai creatori di NLTK, fornisce un’introduzione pratica alla programmazione per l’elaborazione del linguaggio; esso guida il lettore attraverso i fondamenti della scrittura di programmi python lavorando con i corpora, categorizzando il testo, analizzando la struttura linguistica e altro ancora; il libro è in fase di aggiornamento per Python 3 e NLTK 3. Attraverso le istruzioni fornite dal libro l’utente/lettore impara a trattare il testo come una serie di dati ‘’grezzi’’ e analizzarlo in una varietà di modi interessanti. Scaricando Python e NLTK sarà possibile iniziare a lavorare sui testi ricavando vari dati utili ad esempio ad estrarre automaticamente le parole chiave, le frasi che riassumono lo stile e il contenuto di un testo. È possibile dunque effettuare varie operazioni importando un testo in Python da NLTK book ed avviando il ‘’ Python interpreter’’ lavorando in modo interattivo. Si potrà allora esaminare la ricorrenza di una determinata parola all’interno di un testo e vedere in quali contesti essa appare. Oppure mettere a confronto due testi ed osservare come una stessa parola venga utilizzata in modi e contesti differenti. Altre informazioni sulla posizione di una parola all’interno del testo possono essere ricavate mediante un diagramma di dispersione. Prendendo in esame più testi ed unendoli sino a comporre un testo artificiale è possibile, attraverso un diagramma di dispersione lessicale, indagare sui cambiamenti nell’uso della lingua nel tempo. Nel libro viene mostrato l’esempio di un diagramma di dispersione lessicale delle parole nei discorsi inaugurali presidenziali degli Stati Uniti che potrebbe portare ad indagare dunque sui cambiamenti dell’uso delle

Accedendo al sito voyant-tools.org si apre la schermata iniziale dove è possibile creare un corpus in tre diverse modalità. Infatti in alto a sinistra troviamo tre opzioni che aiutano l’utente ad inserire ad inserire documenti in diversi formati e spiegano come farlo. Il primo strumento partendo da sinistra permette di scegliere la lingua del testo, altrimenti essa viene rilevata automaticamente. Nel secondo strumento, centrale, sono presenti varie opzioni al fine di creare il proprio corpus:  Formato input: viene rilevato automaticamente, o scelto, il formato di input  Corpus: vi è la possibilità di fornire un titolo e un sottotitolo per il proprio corpus.  Documents order: si può selezionare una sorta di ordine iniziale per il documento  Text: vi è la possibiltà di tagliare ed ignorare parti del testo che non si vogliono analizzare, specificandolo in apposite sezioni che vengono fornite da Voyant, ad esempio ‘’ Omit Until ‘’.  XML: vengono fornite varie funzionalità per creare un corpus da documenti XML, in particolare usando le espressioni XPath per definire documenti, contenuti e metadata come il titolo e l’autore.  HTML: dove vengono fornite le funzionalità per lavorare e analizzare specifiche parti di un documento HTML.  JSON: per lavorare con documenti con JSON allo stesso modo delle due tipologie di documenti precedenti (HTML, XML).  Tables: è un’opzione di Voyant che permette di lavorare flessibilmente con dati tabulari come ad esempio Spreadsheets (tabelle elettroniche, fogli di calcolo elettronici) e permette quindi di estrarre documenti multipli e testi dai vari files, quindi tabelle. Al momento l’opzione qui presente può essere utilizzata solo con MS Excel files.  Tokenization: cioè il processo di identificare le parole o sequenze di caratteri unicode che vengono considerati come unità. Sono presenti tre

scelte per quanto riguarda la tokenization: Automatic, Word Boundaries, Whitespace Only. Access management: cioè gestire e controllare gli accessi a un determinato corpus (chi può accedervi). Infine il terzo ed ultimo strumento sulla destra permette di creare un corpus utilizzando tre differenti modalità:  Incollando l’URL della pagina o del sito dal quale viene preso il documento.  Cliccando il pulsante ‘’Apri’’ per aprire un corpus già esistente su Voyant.  Cliccando il pulsante ‘’Carica’’ per caricare uno o più file dal computer. A partire da questa prima introduzione generale di Voyant è possibile dunque procedere ad analizzare nello specifico un corpus, mostrando le funzionalità degli strumenti e i risultati che possono essere ottenuti mediante l’analisi testuale. Il testo preso in considerazione è ‘’A modest proposal’’, un pamphlet satirico scritto da Jonathan Swift nell’Irlanda del 1729. Nell’opera l’autore si avvale di una forte e sconcertante ironia presentando la soluzione per eccellenza al problema della fame e della povertà nell’Irlanda di quel periodo, ovvero trasformare i bambini poveri in carne da macello e in cibo per le classi sociali più elevate, alleggerendo anche il carico economico delle famiglie povere di questi bambini. Swift in realtà, particolarmente vicino ai problemi della sua nazione, intende rivelare, dietro l’ironia, la critica situazione della società irlandese settecentesca, in cui impervia la fame e la povertà nella più totale indifferenza delle classi sociali più abbienti. Utilizzando Voyant Tools e procedendo con l’analisi testuale mediante i suoi strumenti e le sue funzioni si può ad esempio tentare di comprendere il modo in cui viene presentata e criticata con un velo di ironia la società Irlandese del 1700. Il primo passaggio consiste nel selezionare il testo ed importarlo in Voyant; in questo caso è stato caricato il testo ‘’A modest proposal’’ in formato PDF dal computer. Premendo il tasto ‘’Rivela’’ si apre successivamente la pagina principale di Voyant in cui appare il testo analizzato dal programma mediante una pluralità di opzioni e strumenti. Essa è costituita da 5 temi predefiniti che sono collegati e interagiscono fra loro. Essi sono:  Cirrus: una nuvola di parole che visualizza le parole più frequenti all’interno di un corpus o documento. In particolare le parole più frequenti

mancanza di lavoro, questo Regno, mendicante, condizioni di miseria, contea di Cavan, nostri commercianti, città di Dublino, proprietario di campagna, gentiluomini, morire di fame, primo ministro, patria.  Andamenti: questo strumento mostra un grafo di linea raffigurante la distribuzione di una o più parole all’interno di un singolo documento o in un corpus. Nel caso del singolo documento viene mostrata la frequenza delle parole nei vari segmenti in cui il testo viene suddiviso. Nel caso in cui si vogliano analizzare più parole insieme nei vari segmenti, ogni linea colorata rappresenta l’andamento di una parola nel testo e la corrispondenza fra il grafo di linea e la parola viene indicato da una leggenda in alto al grafico. In a modest proposal vediamo l’andamento di alcune parole nel testo, ad esempio notiamo che la parola ‘’aborti’’, la quale viene presentata da Swift come una pratica diffusa fra le classi povere della società dell’epoca, è presente solo all’inizio e sparisce invece al finale del testo, quando appunto viene trovata una soluzione per ovviare al problema della povertà e infatti per lo stesso motivo le parole ‘’miglioramento’’ o ‘’denaro’’ vengono ritrovate solo alla fine del testo negli andamenti.  Sommario: offre una panoramica completa e semplice del documento o del corpus ed è infatti costituito da diverse categorie. Nel testo preso in considerazione vengono fornite le seguenti informazioni:

Corpus costituito da un solo documento con 3.526 parole totali e con 1318 forme di parola uniche.
Densità del vocabolario: 0.
Media delle parole per frase: 52.
Parole più frequenti: più(23); bambini(21); essere(15); regno(13); paese(12). (è presente uno slider in basso a sinistra per modificare e impostare il numero delle parole più frequenti da visualizzare).
Contesti: strumento che mostra la presenza di una parola chiave con una parte di testo circostante, ovvero il contesto; questo procedimento può essere utile soprattutto per studiare da più vicino come i termini sono utilizzati in contesti differenti. Viene visualizzata una tabella divisa in colonne: il documento preso in considerazione, le parole contestuali alla sinistra della parola chiave, la parola chiave, le parole contestuali alla destra della parola chiave. È presente anche uno slider che determina quanto contesto considerare nel momento in cui si ricerca e inserisce una parola chiave, cioè il numero di parole nelle colonne di destra e di sinistra, che possono andare da un minimo di 5 ad un massimo di 50. Allora nel caso di ‘’A modest proposal’’ se vogliamo dunque comprendere e cogliere i riferimenti dell’autore alle condizioni sociali dell’irlanda del 700 si può ad esempio vedere la parola ‘’società’’ e il contesto in cui viene utilizzata. Il contesto in cui viene utilizzata questa parola fa riferimento ad una situazione difficile del paese, un paese dunque, l’Irlanda, che attende di essere salvato.

Un altro esempio ancora può essere offerto prendendo la parola ‘’città’’ e analizzando i vari contesti in cui appare: le città dell’Irlanda affollate da poveri e ladri senza occupazione e affamati. Anche la parola ‘’paese’’ che è una delle più importanti parole chiave ci offre una moltitudine di contesti differenti in cui essa viene utilizzata; il più significativo per la ricerca e l’analisi che si vuole fare in questo caso è il segmento in cui alla parola paese viene associata un avvenimento reale dell’epoca, la guerra di successione spagnola nel 700. Le donne infatti e la popolazione irlandese preferiva abbandonare il proprio paese ed andare a combattere altre battaglie o vendersi come schiavi perché l’Irlanda non offriva più alcuna possibilità trovandosi in uno stato di totale miseria. Gli strumenti fino a qui elencati fanno parte dei temi predefiniti di Voyant; essi interagiscono e sono collegati l’uno con l’altro permettendo un’analisi a 360^. Gli strumenti permettono non solo la ricerca di singole parole ma Voyant supporta anche ricerche avanzate, ad esempio nelle barre di ricerca sotto i vari strumenti possono essere trovate anche parti della sintassi, ad

una linea di colore viola e suddivisa in vari segmenti, ognuno indicante un contesto. Uno dei più significativi necessari alla nostra analisi è quello che colloca la parola ‘’regno’’ in un contesto utile ad identificare la disastrosa situazione della società Irlandese in quel periodo, e cioè che qualsiasi cosa fosse stata fatta comunque il Regno non avrebbe potuto essere peggiore di quanto fosse effettivamente nello stato attuale.  Topics: questo strumento è stato designato per aiutare a capire quali topics o gruppi di parole esistono nel testo e come sono distribuiti. Nel caso di un singolo documento, esso verrà diviso in segmenti di uguale lunghezza per modellare i vari gruppi di parole. L’algoritmo alla base di questo procedimento inizia con l’assegnare in maniera casuale le parole ai topics e cerca poi di perfezionare il topic modelling inserendovi le parole che meglio si adattano. Questo processo potrebbe dunque portare ogni volta a dei risultati differenti ma ogni risultato offre delle nuove possibilità di analisi e ha una coerenza interna. Ogni topic contiene tecnicamente ogni parola all’interno del documento ma vengono visualizzate solo le dieci parole iniziali; l’ordine delle parole inoltre è importante e infatti le prime parole contribuiscono molto di più al topic rispetto a quelle finali. La tabella mostra due colonne, quella del Topic e quella degli Scores , che mostra quanto è prevalente il topic per ogni segmento nel documento.

 Dreamscape: è uno strumento sperimentale, un primo tentativo, utile per esplorare aspetti geospaziali del testo, cioè come il testo potrebbe essere rappresentato geo-spazialmente. Esso cerca di identificare locations, soprattutto i nomi delle città menzionati nel testo e suggerisce un modello di connessioni ricorrenti fra esse. Questo modello potrebbe servire per identificare viaggi di persone, idee, oggetti e qualsiasi altra cosa. Nel caso di ‘’A modest proposal’’ Voyant offre una mappa in cui vengono identificati i vari luoghi menzionati nel testo e le loro correlazioni, come ad esempio la città di Dublino e di Londra e l’isola di Formosa.