Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Utilizzo del dataset: STATA, Schemi e mappe concettuali di Analisi Dei Dati

Come funziona STATA, quali survey si possono creare.

Tipologia: Schemi e mappe concettuali

2021/2022

Caricato il 03/11/2023

francesca-giardino-2
francesca-giardino-2 🇮🇹

5

(1)

14 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATA
PER FARGLI FARE LE COSE OGNI VOLTA CHE SCRIVO UN COMANDO DEVO FRE “DO”
Quando si chiude e poi si riapre stata da> MIO TO DO FILE apre due finestre. Stata sarà vuoto.
Summarize reg è regione
Non vuol dire nulla è a caso, però ha messo la variabile che gli abbiamo detto di mettere.
È la tab reg che gli abbiamo chiesto, con la variabile che gli abbiamo dato noi. Tab reg non
mette le etichette.
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Utilizzo del dataset: STATA e più Schemi e mappe concettuali in PDF di Analisi Dei Dati solo su Docsity!

STATA

PER FARGLI FARE LE COSE OGNI VOLTA CHE SCRIVO UN COMANDO DEVO FRE “DO”

Quando si chiude e poi si riapre stata da> MIO TO DO FILE apre due finestre. Stata sarà vuoto. Summarize reg è regione Non vuol dire nulla è a caso, però ha messo la variabile che gli abbiamo detto di mettere. È la tab reg che gli abbiamo chiesto , con la variabile che gli abbiamo dato noi. Tab reg non mette le etichette.

INSTALLAZIONE FRE : Ssc ihnstall free> è un pacchetto di STATA: -Una volta installato fre, non scriviamo più tab reg ma fre reg sul TO DO FILE: Ed esce questo su stata:

Metti dopo l’uguale centro nord; sud -Ttest trust1,by(reg2)> ttest variable indipendente virgola variable dipendente -PVALUE : <0.01= ok / <0.05= ok / <0.10= poco ok / >0.10 non va bene

-Non abbiamo visto la nostra dipendente. Togliamo il 12 cioè preferisco non rispondere, il resto teniamo tutto uguale: Dopo che lo abbiamo tolto viene così, lo abbiamo in stata ma non nelle analisi: trust1r> ricodifica

- Chi risponde a 3 domande giuste su 3 sono sovra/sottorappresentati dai social media? Prima cosa ricodifichiamo la variabile indi.: Può DARE ROSSO QUANDO UNA VARIABILE STATA L’HA Già CODIFICATA

SLIDE dopo la quinta settimana su moodle: -Data science2 > più in grande: analisi sofisticate; dataset enormi e complicai; diversi sistemi operativi su cui lavorare e tanti linguaggi di programmazione. -Tipi di dati> dati ufficiali come: risultati elettorali e dati della protezione civile per l’emergenza covid + dati di survey come: dati di censimento; già prodotti da altri; autoprodotti(costruzione di un gruppo su fb e di un questionario, espongono un gruppo di persone per vedere se c’è significatività tra i due gruppi); non autoprodotti cioè vedere sito european social survey o anche European system survey > es: si chiede a degli esperti “per ciascuno di questi outlet…una serie di cose come il bias per i partiti, se il sole 24h da 0 a 10 dove si pone? Il corriere..? Etc; European media system survey; eurobarometro + tracce digitali (le cose che “si lasciano” quando si è su un social ) come: commenti su pagine; tweets; blog; risposte a quiz su fb; le transazioni eseguite con la carta di credito; la localizzazione GPS; i comportamenti delle persone sono registrati ed archiviati; le azioni quotidiane delle persone; i digital trace data sono big data. I BIG DATA Non hanno una vera e propria definizione , abbiamo le 3V ovvero: volume (sono tanti), varietà (sono di diversi tipi) e velocità (vengono raccolti in tempo reale); non sono nati per essere analizzati al contrario delle survey; a volte si tratta solo di dati raccolti dalle amministrazioni e digitalizzati. Slide.. Sono grandi ; servono però davvero tutti questi dati?: la grande dimensione di un dataset nonè uno scopo in sé ma può consentire la realizzazione di tipi di ricerche tra cui l’individuazione di piccole differenze c…SLIDE; i big data sono always-on : raccolgono i dati 24/7 così da permettere lo studio di eventi imprevisti che non sarebbero possibili> ES.: vediamo la quantità di tweet di interferenze delle elezioni quando viene chiamato Biden, il dato è vero ma i tweet sono falsi (account di una stessa persona come gli account zombie o bot; forniscono info.in tempo reale a policy maker; sono anche non- reactive cioè quando facciamo una domanda in una survey in un certo senso alteriamo la persona che deve rispondere (non sono andata a votare ma all’intervistatore dico che invece sono andata a votare); un aspetto positivo dei big data è che i partecipanti non sono in genere consapevoli del fatto che i loro dati vengono raccolti; sono incompleti , cioè la maggior parte delle fonti è SLIDE sono inaccessibili , la stragrande maggioranza dei big data è inaccessibile, per cause legali ed economiche; non sono rappresentativi , molte fonti offrono campioni non rappresentativi di alcune pop.ben definite, è un problema serio per le domande di ricerca; sono instabili, instabilità della pop. cioè il cambiamento di chi li utilizza, del comportamento (cambiamento del mondo in cui le persone li usano) del sistema (l’aggiunta di funzione cambia il sistema stesso); sono condizionati dagli algoritmi; sono sporchi , non fatti per essere analizzati; contengono info. potenzialmente sensibili. COME SI OTTENGONO I BG DATA Scraping > i dati che visualizzano sui nostri pc sono già scaricati sul nostro pc. Esistono procedure standardizzate che co un po’ di programmazione, permettono di ottenere, da una assa informe di info., un dataset. Problema: questa procedura a volte è contraria ai termini di servizio di alcuni siti..

API > molti siti permettono di scaricare determinati tipi di dati in maniera controllata, attraverso l’api uno strumento SLIDE… (Recuperare account facebook e scarichiamo facepager https://github.com/strohne/Facepager Facepager> installer:release> version 4.5.0: assets> Facepager_setup_4_5_0.mac.pkg) Recuperare lezione 6 dicembre:…. SLIDE DA- Analisi dei testi : Viviamo in un epoca di sovrabbondanza di info. in forma testuale (come si comportano le persone, cosa dicono, cosa fanno)…SLIDE Analisi del contenuto : parliamo di contest analysis: l’analisi del contenuto è una tecnica di ricerca per fare inferenze replicabili e valide dai testi ai contesti del loro uso; l’analisi del contenuto dovrebbe portare a risultati che sono replicabili e validi. Il vantaggio > è replicabile su qualsiasi testo L’analisi del contenuto ha tanti scopi: il ricercatore deve scegliere la migliore declinazione per dimensione e finalità del campione. Analisi di N piccolo interviste in profondità (qualitativa); N intermedio ovvero post sui social (quantitativa); N grandi si utilizza la quantitative contest analysis (QTA). QTA Rappresenta 3 discipline > linguistica; insegnare ai pc come analizzare il linguaggio umano e scienze sociali cioè capire fenomeno sociali tramite le parole che una società produce. perché usiamo metodi quantitativi per analizzare i testi?> per un’abbondanza di documenti e di informazione ma per le quali abbiamo sempre meno fondi. E i testi Come si analizza un testo ?> prenderlo per quello che è, analizzare il significato manifesto. L’Interpretazione può essere rappresentativa: cioè capire quello che l’autore del testo vuole dire o le parole sono in altre parole gli strumenti dell’autore; Leggere tra le righe, è un leggere tra le righe come la politica oggi è tanto un leggere tra le righe…SLIDE La QTA ci aiuta 1) a classificare i testi (la macchina dice “secondo me qui c’è un toppig”-es.: ambulanza, sanità, Bergamo, covid, pnrr, ripartenza etc riguardava il periodo covid, ci dice che queste parole sono in diversi testi e quindi che stanno parlando della stessa cosa); 2) a stimare posizioni latenti degli autori (toppig moderign> conta le parole che sono più comuni all’interno dei testi e dice di che cosa parla il testo). Come si ottagono i due risultati ?> il linguaggio è complesso; i metodi utilizzati in QTA si basano su modelli di linguaggio errati, c’’è anche l’approcci “ Bag of words ” cioè ogni documento viene trattato come sacchi di parole, però è inaccurato perché elimina tutto, l’ironia e le negazioni, per esempio, è possibile costruire frasi utilizzano le stesse parole in ordine diverso; non ci sono figure retoriche, sono solo parole una a fianco all’altra. Nonostante ciò, non è così un problema. 3 tipi di analisi più diffusi > utilizzare dizionari; classificazione testi supervisionata; classificazione di testi non supervisionata. Si possono posizionare su una dimensione da deduttivo (dizionari) a induttivo (non supervisione). Tabella: il primo doc, ha le parole riforme e loa parola system, 2 e 3 no, 4 e 5 sì. La seconda variabile è system che hanno anche qui alcuni doc., l’ordine è dato dal 1 doc..