

























































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística I, Profesor: , Carrera: Ciències Empresarials, Universidad: UPF
Tipo: Apuntes
1 / 65
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!


























































Exercici 1.1 En la notícia següent podem trobar elements de Mostreig i Disseny d‟Experiments, d‟Estadística Descriptiva i d‟Inferència Estadística. Podeu identificar-los? De quins paràmetres poblacionals i característiques mostrals es parla?
Tal i com hem dit, les properes seccions estaran dedicats a l‟estudi dels procediments utilitzats habitualment en Estadística Descriptiva. Aquests procediments els podem classificar en:
Exercici 1.2.1 Classifiqueu les dades següents en categòriques, numèriques contínues i numèriques discretes:
a) Hores d‟estudi/setmana b) Estat civil c) Sou mensual (en euros) d) Nota obtinguda en una assignatura e) Nombre de pel·lícules vistes al cinema l‟últim any f) Color (en una població de flors)
Exercici 1.3 Podeu identificar quin tipus de dades s‟estudien en la notícia següent?
Exercici 1.2.2 El quadre següent està extret de la „Encuesta Nacional sobre Violencia contra las mujeres‟ realitzada el 2003 per l‟‟Instituto Nacional de Salud Pública‟ de Mèxic. Podeu determinar quina és la variable d‟estudi i dir de quin tipus és?
(Seccions 1.1, 1.2 i 1.3 de Moore)
Aquesta secció estarà dedicada a l‟anàlisi descriptiva de dades univariants (dades relatives a una sola variable). Posteriorment estudiarem l‟anàlisi descriptiva de les relacions entre dues variables.
Els punts que seguirem per fer una anàlisi descriptiva d‟unes dades obtingudes en un estudi estadístic dependran de l‟objectiu de l‟estudi. En general seran els següents:
a) Classificació de les dades (segons el quadre anterior) b) Construcció d‟una taula de freqüències c) Construcció de gràfics d) Càlcul de mesures de centralització e) Càlcul de mesures de dispersió f) Elaboració de conclusions per respondre a les preguntes plantejades a l‟inici de l‟estudi.
La taula de freqüències ens permet resumir la informació obtinguda en una enquesta, tal i com ja es va veure a l‟assignatura Introducció a l’Anàlisi de Dades. En ella escriurem la informació següent, segons el tipus de dades que tinguem:
a) CATEGÒRIQUES: freqüències absolutes (ni) , freqüències relatives (fi). b) DISCRETES: Freqüències absolutes, relatives, absolutes acumulades (Ni) i relatives acumulades (Fi) c) CONTÍNUES: Agrupació en intervals. Freqüències absolutes, relatives i absolutes i relatives acumulades
efectes enganyosos, el que farem és prendre com alçades de les barres les densitats, enlloc de les freqüències relatives o absolutes.
Així, la versió correcta del gràfic anterior seria,
En els mitjans de comunicació no acostumem a veure histogrames de densitats. Però a nivell tècnic, i en camp de la inferència estadística, són potser els gràfics més importants.
Exercici 1.3.2.1 Considerem un histograma de densitats. Quina és la suma de l‟àrea de totes les barres?
Les mesures de centralització es dedueixen a partir de les dades i el seu objectiu és donar-nos una idea de l‟individu „mig‟. Aquestes mesures són diferents segons sigui el tipus de dades que tenim.
Mesures de centralització per a dades categòriques
En el cas de dades categòriques, la única mesura de centralització que utilitzarem és la moda , o dada més freqüent.
Mesures de centralització per a dades numèriques discretes
En el cas de dades numèriques discretes, podem calcular com a mesures de centralització d‟una mostra:
0
0,
0,
0,
0,
0,
0,
0,5 1,5 2,5 3,5 4,5 5,
a) la moda, b) la mitjana x , c) la mediana (Me).
La moda és novament la dada més freqüent. La mesura de centralització més coneguda és la mitjana. Tothom sap com calcular una mitjana: es sumen totes les dades i es divideix entre el total de dades. No obstant això, moltes vegades la mitjana es calcula malament. Considerem per exemple les dades de l‟Exercici següent:
Exercici 1.3.3.2 Calculeu la mitjana per les dades d‟aquesta taula. La resposta correcta és 0,045. Si no us ha donat això, proveu de trobar on està l‟error (l‟error més habitual consisteix a dir que aquesta mitjana és igual a 1,5).
La mitjana és la mesura de centralització més coneguda i també la més utilitzada. No obstant, hi ha situacions en què no és del tot adequada com a eina per descriure l‟individu „mig‟. Per exemple, si fem la mitjana del nombre de fills en un edifici amb 10 famílies, i una d‟aquestes famílies té 11 fills, la mitjana quedarà molt afectada per aquest fet, i no estarem segurs de que la mitjana obtinguda hagi servit per fer un retrat de la família „tipus‟ d‟aquest habitatge.
En l‟exemple anterior, hi havia una dada radicalment diferent de les altres. Aquestes dades molt diferents de les altres es diuen dades atípiques. Més endavant indicarem com decidir amb precisió si una dada és atípica o no. De moment, serà el nostre sentit comú el que ens dirà si una dada és extraordinàriament diferent de les altres.
En el cas d‟existència de dades atípiques és obvi que la mitjana hi queda molt afectada i no està clar que realment ens serveixi per descriure la població. En aquest cas, una mesura de centralització adequada pot ser la mediana.
La mitjana és calcula novament sumant totes les dades i dividint entre el total, i la mediana es calcula seguint el mateix procediment descrit a l‟apartat dedicat a l‟estudi de mesures de centralització per a dades discretes. Novament, la mediana serà més adequada en el cas d‟existència de dades atípiques.
Exercici 1.3.3.4. Considerem la notícia següent extreta d‟un mitjà de comunicació:
A què creieu que es refereixen quan parlen del „salari mig‟? Creieu que és una mesura de centralització adequada per aquesta variable?
Les mesures de centralització ens permetien saber „al voltant d‟on‟ es situaven les dades. Però hi ha un altre tipus de mesures molt importants a l‟hora de descriure un grup de dades, que són les mesures de dispersió, tal i com veurem en l‟exemple següent:
Exemple 1.3.4.1. Els gràfics següents representen la resposta a la pregunta: „indiqui la seva tendència política en una escala del 0 al 10, on 0=extrema esquerra, 10=extrema dreta‟, per dos països diferents:
En els dos països la resposta mitjana és „5‟, però tenen evidentment una situació política molt diferent. Quins dels dos països escolliríeu com a destí per unes vacances?
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
En el primer país hi ha una gran dispersió, mentre que en el segon, la gran majoria de gent es troba al voltant del centre polític. Com mesurem aquesta dispersió?
1.3.4.1 La desviació típica
La dispersió la mesurarem només en el cas de variables numèriques. Intuïtivament, podem pensar que la dispersió es podria mesurar a partir de la mitjana de la desviació (en valor absolut) de cada dada respecte la mitjana de les dades:
n
dada x
on n denota la mida de la mostra. Aquesta definició seria una idea prou encertada, però el valor absolut és una funció „difícil‟ des del punt de vista del càlcul. Per això, l‟estimació de la dispersió acostuma a fer-se mitjançant una modificació de la fórmula anterior que denominarem desviació típica o desviació estàndard:
n
x x s ^ i
2 ,
on les xi denoten totes les dades que tenim. Notem que el quadrat de la desviació
típica es denomina variància, i es calcula com:
n
x x s ^ i
2 (^2).
Observació: al denominador, segons els llibres (com per exemple en el llibre de Moore) i el context en el que es treballa, s‟escriu n-1 enlloc de n. En el cas de mostres grans, la diferencia entre ambdues fórmules és irrellevant.
La desviació estàndard es calcula actualment amb calculadora o amb programes informàtics com l‟EXCEL. De totes maneres, si l‟hem de calcular a mà la fórmula anterior esdevé „farragosa‟. L‟expressió següent resulta més senzilla a l‟hora de calcular la desviació típica i la variància
2
2 2 2
2 , x n
x x s n
x s i i .
Exemple 1.3.4.2 Calculeu la desviació típica i la variància per les dades: 0, 2, 1, 5:
En aquest cas, en què no hi ha dades repetides, calcularem:
x
i i i y
i i i i
s n
x x n
y y n
y s
x x n
xn n
x n
x n
x n
x x n
y y
2 2 2
(^2) ( )
0
Denotem ara per (^) zi els resultats del segon pas. Tindrem que:
1 1 1
0
2 2 2
2
2 2 2
2
x
i x x
i x
x
i i i z
x x
x i
i i
s
s n
y n s
y s
n
s
y
n
z z n
z s
s
y s n
y n
s
y
n
z z
En resum, obtenim unes noves dades amb mitjana zero i desviació típica 1. Aquestes noves dades tipificades (o estandarditzades) són d‟utilitat en diversos problemes, com per exemple el següent:
Exercici 1.3.4.6 En Marc té 7 anys i pesa 22 Kg. El seu germà Sergi té 2 anys i pesa 16 Kg. Quin és el que pesa més, tenint en compte la seva edat?
En aquest problema, malgrat que en Marc pesi 6 Kg més que en Sergi, tenim la impressió que en Sergi „pesa més‟. La raó és que no té cap sentit comparar el pes de dos nens de diferents edats.
Suposem ara que en el grup de nens de 7 anys el pes mig és de 24 Kg, amb una desviació típica de 4 Kg, mentre que en el grup de nens de 2 anys el pes mig és de 13 Kg, amb una desviació típica de 1 Kg. Aleshores les dades tipificades (corregides segons la mitjana i la dispersió de les dades) seran:
Marc: (22-24)/4= -2/4= -0, Sergi: (16-13)/1=3/10=
Ara aquestes dades es poden comparar, doncs estan descrites en la mateixa escala. Deduïm que en Sergi „pesa més‟.
En general, tipificarem les dades quan vulguem comparar dades corresponents a contexts diferents (p.ex. per comparar les notes obtingudes en dos exàmens diferents, etc.)
El coeficient de variació
No és igual tenir una desviació típica de 200 euros en una mostra d‟ingressos molt baixos que tenir la mateixa desviació típica en una mostra de salaris elevadíssims. Una eina que ens permet comparar millor la desviació típica de dues poblacions és el coeficient de variació, que es defineix com la desviació típica dividida entre la mitjana:
x
s CV
Exercici 1.3.4.7. Calculeu el coeficient de variació en els exemples on hem calculat la desviació típica. Interpreteu els resultats
El percentil p es defineix com el valor per sota del qual hi ha un p% de les dades, i per sobre del qual hi ha un (100-p)% de les dades. Notem que el percentil 25 correspon al primer quartil, el percentil 50 correspon al segon quartil i el percentil 75 correspon al tercer quartil. Recordem que aquests quartils eren l‟eina fonamental a l‟hora de construir els diagrames de caixa.
Exemple 1.3.5.1. Veiem a continuació un exemple pràctic de càlcul d‟un percentil, en aquest cas, el percentil 20 d‟un grup de dades.
Exemple 1.3.5.2. La taula següent és una taula de percentils pel pes de nens de 0 a 3 anys. Aquestes taules són molt utilitzades en pediatria per controlar el correcte creixement dels nens:
-4, -0, -0, -0, 0, 0, 0, 0, 0, 3, 1, 0, 0, 1, -1, 0, 0, -0, -0, 1,
-4, -1, -0, -0, -0, -0, -0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 3,
ordenar
Percentil 20
(Capítol 2 de Moore)
Exemple 1.4.1 El curs 2007/2008 es va preguntar a un grup d‟estudiants d‟Estadística quin tipus de feina preferirien fer en el futur: treballar com a funcionaris, treballar en l‟àmbit de l‟empresa privada o tenir un negoci propi. Els resultats es resumeixen en la taula següent segons sexe:
homes dones funcionariat 6 15 empresa privada 30 39 negoci propi 15 16
Una pregunta lògica és la següent: existeix relació entre el sexe i el tipus de feina que es prefereix? Intuïtivament, el que fem per respondre aquesta pregunta és mirar el percentatge de dones que volen fer cada tipus de feina i comparar-los amb el percentatge corresponent pels homes. Per exemple, podem calcular que el percentatge d‟homes que volen treballar com funcionaris és del 11,8%, mentre que entre les dones aquest percentatge puja fins el 21,4%. Aquest simple càlcul ens dóna clarament la impressió de que el sexe i les preferències professionals són dues variables que tenen un fort lligam entre elles.
Aquest és un exemple de problema on hem d‟estudiar si hi ha relació entre dues variables categòriques. En aquest tema s‟introduiran eines per tractar aquest tipus de problemes.
El primer pas que farem per analitzar la possible relació entre dues dades categòriques és construir la taula de contingència corresponent, on indicarem les freqüències absolutes, tal i com hem fet en la taula anterior.
Les nocions de freqüències marginals i freqüències condicionades són fonamentals en l‟estudi de taules de contingència.
Les freqüències marginals són les freqüències corresponents a cada una de les dues variables implicades a l‟estudi.
Exemple 1.4.1.1 Per les dades de l‟exemple anterior, les freqüències relatives per a les variables SEXE i TIPUS DE FEINA venen donades per: