Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


BLOC 1 2 3, Apuntes de Estadística

Asignatura: Estadística I, Profesor: Jaume March, Carrera: Psicologia, Universidad: UdL

Tipo: Apuntes

2016/2017

Subido el 29/05/2017

barbaraquetglas
barbaraquetglas 🇪🇸

4.4

(9)

23 documentos

1 / 21

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Bàrbara&Quetglas&Florit&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Estadística&
&
1&
ESTADÍSTICA
ÍNDEX&
TEMA&1.&ESTADÍSTICA&I&INVESTIGACIÓ&CIENTÍFICA& 3!
Introducció+ 3!
Investigació+científica+ 3!
Investigació!experimental! 3!
Investigació!no!experimental! 3!
Disseny+de+l’experimentació+ 3!
Segons!la!dimensió!temporal! 4!
Segons!la!naturalesa!de!l’experiment! 4!
Variables+ 4!
Qualitatives!o!categòriques! 4!
Quantitatives!o!numèriques! 5!
Naturalesa!estocàstica!d’una!variable! 5!
Tipus+d’anàlisi+estadístic+ 5!
Exploratori! 5!
Confirmatòri! 5!
Escala+de+mesura+ 6!
Organització+de+la+informac+ 6!
TEMA&2.&VARIABLE&QUANTITATIVA:&DESCRIPCIÓ&DE&DADES& 7!
Organització+de+dades+ 7!
Distribució!de!freqüències! 7!
Representacions+gràfiques+ 8!
Anàlisi!visual!de!dades!quantitatives! 8!
Histograma! 8!
Propietats!de!la!distribució!11!
Estimació!de!la!densitat!12!
Diagrama!de!tija!i!fulles!13!
Mesures+de+posició+14!
Quantils!14!
Percentils!i!Quartils!15!
Gràfic+de+capsa+(box+–+plot)+15!
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Vista previa parcial del texto

¡Descarga BLOC 1 2 3 y más Apuntes en PDF de Estadística solo en Docsity!

ESTAD ÍSTICA

  • TEMA 1. ESTADÍSTICA I INVESTIGACIÓ CIENTÍFICA ÍNDEX
  • Introducció
  • Investigació científica
    • Investigació experimental
    • Investigació no experimental
  • Disseny de l’experimentació
    • Segons la dimensió temporal
    • Segons la naturalesa de l’experiment
  • Variables
    • Qualitatives o categòriques
    • Quantitatives o numèriques
    • Naturalesa estocàstica d’una variable
  • Tipus d’anàlisi estadístic
    • Exploratori
    • Confirmatòri
  • Escala de mesura
  • Organització de la informació
  • TEMA 2. VARIABLE QUANTITATIVA: DESCRIPCIÓ DE DADES
  • Organització de dades
    • Distribució de freqüències
  • Representacions gràfiques
    • Anàlisi visual de dades quantitatives
    • Histograma
    • Propietats de la distribució
    • Estimació de la densitat
    • Diagrama de tija i fulles
  • Mesures de posició
    • Quantils
    • Percentils i Quartils
  • Gràfic de capsa (box – plot)
  • TEMA 3. VARIABLE QUANTITATIVA: MESURES NUMÈRIQUES
  • Mesures de tendència central
    • La mitjana aritmètica per a dades no agrupades
    • La mitjana aritmètica per a dades agrupades
    • Propietats de la mitjana aritmètica
    • La mediana
    • La moda
  • Mesures de dispersió
    • Concepte de dispersió
    • La variança
    • Desviació típica o estàndard
    • Coeficient de variació
  • Amplituds quantíliques i interquartíliques (IQR)
  • Mesures de forma
    • Coeficients d’asimetria
    • Coeficients d’apuntalament

SEGONS LA DIMENSIÓ TEMPORAL

DISSENY TRANSVERSAL

o Estàtic en el temps. o Agafem dades en un instant temporal determinat. o Per exemple, veure l’efecte d’una droga al cap de 10 hores d’haver-­‐la consumit. DISSENY LONGITUDINAL o Estudiar varies observacions al llarg del temps. o Per exemple, l’efecte que té una campanya publicitària contra els accidents de trànsit al llarg del temps. SEGONS LA NATURALESA DE L’EXPERIMENT DISSENY DE GRUPS o Estudiem diversos grups per observar diferències entre ells. Per exemple, a un grup li donen una droga (principi actiu) i un altre un placebo o Un altre exemple seria quan estudiem l’efecte emocional que provoca una notícia (imatge) en homes i en dones. o Aquí les dades que es comparen (home/dona) són independents. DISSENY DE MESURES REPETIDES o Pel mateix grup d’individus s’obten informació per diverses condicions distintes. Per exemple, es vol estudiar el temps de reacció davant paraules “freqüents”, “poc freqüents” i “no paraules”. o Cada resultat (per cada tipus de paraula) està associada a un individu i per tant aquestes repeticions estan relacionades (dependents). DISSENY MIXTE

VARIABLES

o És un atribut o característica susceptible d’adoptar diferents valors, com la velocitat d’un cotxe, el resultat de la Grossa de Nadal... o En contraposició, una constant és un valor que no varia, per exemple el número π, el número d’hores per dia... QUALITATIVES O CATEGÒRIQUES o Agafa valors nominals o categòrics. o El sexe de les persones (home, dona). o Estat civil (casat, solter, divorciat, separat, viudo). o Curs grau Psicologia (primer, segon, tercer, quart). Per exemple, en la variable estat civil, estat civiĺ es el nom de la variable i els valors que pot agafar s ́ on casat, solter, divorciat, separat i viudo.

QUANTITATIVES O NUMÈRIQUES

o Agafa valors numèrics. o N’hi ha de dos tipus: o Discretes: agafen valors num`erics discrets, és a dir, nombres Naturals {0,1,2,3,...}

  1. El número de fills per família a Lleida {0,1,2,3,4,5,6,...}
  2. El recompte d’insectes en una planta.
  3. El número d’accidents en una carretera.
  4. El número de divorcis a l’any.
  5. El coeficient d’intel·∙ligència. o Contínues: agafen valors continus, es a dir, nombres Reals {1.3, 1.3576...}
  6. Variables biomètriques com l’alçada, el pes...
  7. El temps, és a dir, el temps de reacció a un determinat estímul.
  8. La temperatura. NATURALESA ESTOCÀSTICA D’UNA VARIABLE o Variable determinista: o És una variable que per les mateixes condicions de partida, resulta sempre en el mateix valor. o Per exemple, la distància que circularà un cotxe si sabem la seva velocitat. o Variable estocàstica o aleatòria: o Per les mateixes condicions de partida, pot resultar en diferents resultats. o Per exemple, el llançament d’un dau, l’alçada d’un noi agafat a l’atzar, el número d’accidents de cotxe per any en un tram d’una carretera.

TIPUS D’ANÀLISI ESTADÍSTIC

EXPLORATORI

o Observar i explorar les dades per tal de trobar possibles estructures o patrons que les regeixen. o No es té una idea preconcebuda del comportament de les dades. o Anàlisi típic de les enquestes. CONFIRMATÒRI o S’aplica quan l’investigador intenta demostrar una hipòtesis (conjectura que es pot provar). o S’utilitzen un conjunt d’eines per tal d’acceptar o rebutjar aquesta hipòtesis

  1. H0(nul·∙la): Els estudiants de la Facultat de Ciències de l’Educació són més alts que els de la Facultat de Dret i Economia.
  2. H1(alternativa): No són més alts.

TEMA 2. VARIABLE QUANTITATIVA: DESCRIPCIÓ DE

DADES

ORGANITZACIÓ DE DADES

Un cop recollides les dades, basades en un tipus de disseny, hem de organitzar-­‐les en taules. Dos conceptes previs: o Població: El conjunt total d’individus que vull estudiar, com per exemple l’estudiantat de la Facultat de Psicologia. o Mostra: Un subconjunt de la població que finalment analitz. o Si la població és finita (abastable) puc considerar una mostra per una qüestió de temps o de diners. o Si la població és infinita (o no abastable), necessàriament hauré de considerar una mostra. Per exemple una població de malalts de grip a Lleida (pob. no abastable) necessitat d’una mostra. DISTRIBUCIÓ DE FREQÜÈNCIES Un grup de psicòlegs volen estudiar l’agressivitat infantil. L’experiment consisteix en agafar 60 nens i nenes per mesurar l’agressivitat i considerar l’impulsivitat com un bon indicador de l’agressivitat. o S’observa que l’impulsibitat en nens es escalat de 10 7 -­‐ 90. o Es consideren nivells superiors a 60 o inferiors a 30 indicadors d’un possible trastorn. QUINA INFORMACIÓ OBTENIM DE LA TAULA? o Que un 0 .082 (o igual a 0.082 x 100% = 8.2%) dels nens < 30 o Que un 1 -­‐ 7 0.796 = 0.204 (o igual a 0.204 x 100% = 20.4%) dels nens > 60 o En total un 8.2 + 20.4 = 28.6% podrien tindre un problema d’agressivitat. o El valor més freqüent d’impulsivitat és el 48 (14 nens). PODRIEM RE-ORGANITZAR AQUESTA TAULA? o Tenim “classes” d’impulsivitat amb un sol individu. o De fet aquests són els valors tals com han estat recollits al camp.

o Necessitem reduir el nombre de classes (d’impulsivitat) per tal d’obtenir una taula més informativa. o En total tenim 14 classes i 60 valors (individus). o Però quantes classes de freqüència necessitem? PARÀMETRES PER CONSTRUIR UNA TAULA

  1. El nombre de classes a considerar: el paràmetre k: o Raonable considerar k = 100, si el nombre total de dades n = 100? o I si k = 1? n = 1 o Compromís amb la claretat: qüestió “cosmètica”. o Podem considerar k = √n o Fórmula d’Sturges k = 1 + log 2 (n)
  2. L’amplitud d’aquests intervals: el paràmetre h: o Un cop fixat k, h = rang / k o On el rang de les dades és la diferència entre el valor màxim i el mínim de les dades (x) o Rang = max (x) -­‐ min(x)
  3. Definició pràctica de les classes de freqüències o x ∈ [9, 18], implica que 9 ≤ x ≤ 18 o x ∈ (9, 18), implica que 9 < x < 18 o x ∈ [9, 18), implica que 9 ≤ x < 18 Per l’exemple de l’agressivitat: § k = √ 60 ≅ 7 § rang = 80 – 10 = 70 § h = 70/7 = 10 (en unitats de puntació) Al final tindrem una taula amb 7 classes, d’amplada 10 unitats. o Fixeu-­‐vos que són possibles moltes taules diferents. o Considerant més o menys nombre de classes. o Totes elles són correctes, si ensenyen les dades de forma òptima.

REPRESENTACIONS GRÀFIQUES

ANÀLISI VISUAL DE DADES QUANTITATIVES

o El primer que s’ha de fer en qualsevol anàlisi estadístic és observar les dades. o Podem considerar una observació directa de les taules generades. o O considerant algun tipus de representació gràfica. HISTOGRAMA o Es tracta de la representació gràfica per excel·∙lència per variables quantitatives. o Tant variables discretes com contínues.

EXEMPLE 2

o Variable quantitativa discreta que pot agafar molts valors. o L’agressivitat en nens, mesurada com l’impulsivitat. o Pot agafar valors 10 -­‐ 10 90 {10,10,89,76,56,65,23,24,64,35,...} o Si la variable discreta pot agafar molts valors, necessitem agrupar-­‐la en classes (intervals) per tal de que l’histograma ens sigui útil. EXEMPLE 3 o Variable quantitativa contínua. o Podem considerar l’alçada d’un grup d’estudiants. o Potencialment podria agafar qualsevol valor Real positiu. o A la pràctica podem considerar l’interval [1, 2, 3] metres. o Hem considerat k = √100 = 10 o Rang = 1,99 – 1,51 = 0,48 metres o h = 0,48/10 = 0,048 ≅ 0,05 metres (5 cm) o Important que tots els valors obtinguts estiguin en una de les classes (observar el valor màxim i el mínim) o Un valor només pot ésser en una sola classe.

PROPIETATS DE LA DISTRIBUCIÓ

o La distribució de freqüències es pot avaluar des de tres punts de vista. o La tendència central. o La dispersió. o La forma de la distribució. o Això es pot realitzar o be directament de la taula de freqüències o bé observant alguna representació gràfica. LA TENDÈNCIA CENTRAL o La magnitud que sintetitza la totalitat de les dades. o Associada com el valor central de les dades. o Col·∙loquialment el valor “mig” de les dades. o Si dic que de mitjana les dones són més baixes que els homes, tenim ràpidament una primera informació de la forma de distribució dels dos grups d’estudi. o Per exemple, en el cas de l’impulsivitat, el valor mig al voltant de 45. LA DISPERSIÓ o La magnitud que determina el grau d’heterogeneïtat (dispersió) de les dades, normalment al voltant del valor “mig”.

  • Imaginem ara que tenim una mostra de 1000000 estudiants:
  • Matemàticament es pot estimar la funció de densitat amb un número limitat de dades. DIAGRAMA DE TIJA I FULLES o Diagrama molt útil per observar dades. o Adequat si n < 200 o Els valors a analitzat són separats en dos parts. o Les unitats són considerades com fulles, i les desenes i centenes com a tiges. o Per exemple, el número 15 es podria separar com 1 com a tija i 5 com a fulla.
  • Imaginem els següents valors d’impulsivitat { 10, 10, 15, 23, 24, 24, 31, 32, 32, 27 }
  • Aquí les unitats seràn les fulles (0, 1, 2, 4, 5 i 7) i les desenes les tijes (1, 2 i 3)
  • Un conjunt més gran de dades {10, 15, 25, 29, 29, 31, 35, 35, 35, 40, ..., 45, 45, ..., 48, 48, 48, ..., 55, 55, ..., 63, ..., 85} Tija Fulla 1 0 0 5 2 3 4 4 3 1 2 2 7 Tija Fulla 1 0 5 2 5 9 9 3 1 5 5 5 4 0 0 0 0 0 5 5 5 5 5 5 5 5 5 5 8 8 8 8 8 8 8 8 8 8 8 8 8 8 5 5 5 5 5 5 5 5 5 5 5 6 3 3 3 3 3 3 3 5 5 5 5 7 0 0 0 7 8 0 5

o Dóna informació sobre la tendència central de les dades, valors més freqüències els “quarantes”. o Dóna informació sobre la dispersió. o Dóna informació sobre la forma; simetria. o A cavall entre una taula i una gràfica.

MESURES DE POSICIÓ

o Avaluem les dades en funció de la possició relativa que ocupa en el total de les dades. o Per exemple, les dades {7, 8, 3, 5, 2, 10, 11, 13, 1} o Podem ordenar-­‐les de petit a més gran {1, 2, 3, 5, 7, 8, 10, 11, 13} o Ara el valor 7 ocupa la cinquena posició i el valor 13 ocupa l’última possició (la novena). QUANTILS o Un quantil és qualsevol valor de la distribució de freqüencies que divideix aquesta en dues parts. o Per exemle, el Qq (quantil q) és el valor x de les dades que deixa una proció q de valors inferiors o iguals a x i una proporció de valors 1 – q superiors a x. o Q 30 = 26, hi ha un 30% de dades que tenen un valor inferior o igual a 26 i per tant un 70% de les dades tenen un valor superior a 26. CÀLCUL DE QUANTILS o Es vol obtenir el Qk , el quantil k. o Primer hem de determinar la posició del quantil j en els valors ordenats. o Ara es sap que el quantil k està e possició j de les dades ordenades. o Normalment el valor que agafa la variable justament a la posició j (que no necessàriament ha d’ésser un número Natural) s’obté mitjançant una interpolació lineal entre el valor que ocupa la posició i, la part entera de j, i la posició i + 1. o Podríem trobar altres formes d’aproximar Qk. § Exemple: és vol estudiar els delictes comesos en 10 districtes d’una gran ciutat. Posició i 1 2 3 4 5 6 7 8 9 10 Valor x 57 65 69 71 73 78 79 80 81 86 § El número de delictes ja estan ordenats de més petit a més gran. § Es vol calcular el Q 30 , el quantil 30, és a dir, determinar el valor x de les dades que deixa un 30% de valors inferiors o iguals a x i un 70% dels valors superiors a x. § Posició del Q 30 § La posició exacte de 3,3 no existeix, o és 3 o és 4. on n és el número total de dades

TEMA 3. VARIABLE QUANTITATIVA: MESURES

NUMÈRIQUES

MESURES DE TENDÈNCIA CENTRAL

o Fins ara hem descrit les dades quantitatives considerant taules o gràfiques. o Ara descriurem les dades considerant mesures numèriques. o En primer lloc descriurem la tendència central de les dades utilitzant nombres. o Quina informació dóna la tendència central? o Sumaritza la centralitat de es dades en un valor numèric i per tant dóna informació representativa de la distribució de les dades. o Si dic que el pes mig dels homes de la Facultat de Ciències de l’Educació és de 70 kg i el de les dones és de 50 kg, aquests valors numèrics ens permeten fer-­‐nos una idea de les diferències d’aquestes dues poblacions. LA MITJANA ARITMÈTICA PER A DADES NO AGRUPADES o Una de les principals mesures de la tendència central és la mitjana aritmètica. o Per dades no agrupades, la mitjana aritmètica és la suma de totes les dades que tenim dividit pel nombre total de dades on xi és qualsevol valor d’una variable aleatòria numèrica (discreta o contínua). § Per exemple, x = {10, 20, 25, 30, 14, 5, 6, 10, 12} on x 3 = 25, x 8 = 10 i n = 9 LA MITJANA ARITMÈTICA PER A DADES AGRUPADES o Càlcil de la mitjana aritmètica a partir d’una taula. o No tenim accés a les dades en brut, les dades no agrupades. o Les dades venen en forma de taula.

PROPIETATS DE LA MITJANA ARITMÈTICA

  1. Agafa valors Reals (continu) ja sigui la variable discreta o contínua.
  2. Mesura de tendència central poc “robusta” i no recomenable per a variables que poden agafar valors anòmals o distribucions de freqüències molt asimètriques.

MESURES DE DISPERSIÓ

CONCEPTE DE DISPERSIÓ

o El grau d’heterogeneïtat i per tant de variabilitat de les dades. LA VARIANÇA o Per tant, si la x (mitjana) dóna el centre geomètric de les dades una primera aproximació seria calcular la diferència entre la x i la resta de dades. o Problema: i per tant, no aporta res. o Com que x és el centre geomètric de les dades tenim les mateixes diferències positives que negatives i al sumar-­‐les totes s’anul·∙len; doncs que podem fer? o Podem considerar aquesta diferència al quadrat així evitem els signes, i evitem que la suma sigui zero. o Fitxeu-­‐vos que (xi – x) és la distància (en una dimensió) entre un valor xi i la x (mitjana). o La variança la podem definir doncs com: o Ho dividim per la mida de les dades per evitar que aquesta mida ens afecti la mesura de dispersió. o Aquesta fórmula de variància és per dades no agrupades. o La variància per a dades agrupades on ni, fi i mi són la freqüència absoluta, relativa i la marca de classe de la classe i, respectivament. o A la pràctica si les dades són una mostra considerem la Quasi-­‐variància: o Només considerarem la quasi-­‐variancia per dades sense agrupar en aquest curs,

o Quin problema tenim amb aquesta mesura de dispersió? o Que ve donada en unitats diferents a la mitjana aritmètica i per tant no es poden comparar directament. DESVIACIÓ TÍPICA O ESTÀNDARD o En particular la (quasi-­‐)variància ve donada en les unitats de la variable elevade al quadrat. o Per exemple, si calculam la variància de les alçades, el resultat de la variància són alçades elevades al quadrat. o El que podem fer per evitar això és obtenir l’arrel quadrada de la variància on Sx és la Desviació típica o estàndard. Aqui S^2 x pot ésser tant la variància com la quasi-­‐variància. o Amb la Sx podem comparar la dispersió directament amb la mitjana aritmètica. o Per exemple, si x 1 = 2.3, Sx1 = 0.5, x 2 = 2.3, Sx2 = 1. o Tot i que tenim igual valor mig, 2.3, les dades de la mostra { x 2 } tenen el doble de dispersió. o Atès que x (mitjana) és un valor mostral que estima el valor real poblacional, la Sx ens permet obtenir una primera aproximació de precissió de l’estimació d’aquest valor poblacional. [2.3 – 0.5, 2.3 + 0.5] = [1.8, 2.8] [2.3 – 1.0, 2.3 + 1.0] = [1.3, 3.3] o On mostra { x 1 } té clarament menys variabilitat al voltant de x (mitjana). COEFICIENT DE VARIACIÓ o Mesura que permet comparar grups de dades amb diferents mitjanes i donades en diferents unitats. o Es pot donar en %.