Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística, Apuntes de Estadística

Asignatura: Estadística I, Profesor: , Carrera: Ciències Empresarials, Universidad: UPF

Tipo: Apuntes

2014/2015

Subido el 20/10/2015

aromero06
aromero06 🇪🇸

4

(1)

2 documentos

1 / 65

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Apunts d’Estadística (21847), Grau EMP-Management, UPF
1
ESTADÍSTICA
Material elaborat per
Elisa Alòs i Anna Cuxart (Universitat Pompeu Fabra,
Barcelona)
Xavier Pech (IES Mediterrània, Castelldefels)
Barcelona, setembre de 2011
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41

Vista previa parcial del texto

¡Descarga Estadística y más Apuntes en PDF de Estadística solo en Docsity!

ESTADÍSTICA

Material elaborat per

Elisa Alòs i Anna Cuxart (Universitat Pompeu Fabra,

Barcelona)

Xavier Pech (IES Mediterrània, Castelldefels)

Barcelona, setembre de 2011

Index de Continguts (primer trimestre de l’assignatura)

  • BLOC 1: ANÀLISI DE DADES..
    • 1.1 Parts de l’Estadística ...................................................................................
    • 1.2 Estadística descriptiva: Introducció ............................................................
    • 1.3. Anàlisi descriptiva de dades univariants ....................................................
    • 1.4 Anàlisi descriptiva de dades bivariants categòriques ...............................
    • 1.5. Anàlisi descriptiva de dades bivariants numèriques ...............................
  • BLOC 2: PROBABILITAT ..................................................................................
    • 2.1 Nocions bàsiques .......................................................................................
    • 2.2. Probabilitat condicionada i independència d’esdeveniments...................
  • BLOC 3: DISTRIBUCIONS DISCRETES. ......................................................
    • 3.1. Variables aleatòries discretes i distribucions discretes ............................
    • 3.2. Variables aleatòries discretes de tipus Bernoulli .....................................
    • 3.3. Variables aleatòries discretes de tipus Binomial ......................................
  • BLOC 4: DISTRIBUCIONS CONTÍNUES. .................................................
    • 4.1 Conceptes generals ....................................................................................
    • 4.2 Variables aleatòries normals .....................................................................
    • quadrat. ............................................................................................................ 4.3. Transformacions de variables aleatòries normals. La distribució khi-
  • BLOC 5: DISTRIBUCIONS MOSTRALS. ......................................................
    • 5.1. Conceptes bàsics.......................................................................................
    • 5.2. Alguns resultats fonamentals ...................................................................
  • BLOC 6: INTRODUCCIÓ A LA INFERÈNCIA ESTADÍSTICA..............
  • Referències bibliogràfiques ...........................................................................
  • Estadística Descriptiva: és el conjunt de tècniques que ens permeten descriure de manera senzilla i clara les característiques principals de les dades obtingudes en un estudi estadístic. Cada dia podem veure als mitjans de comunicació exemples d‟eines d‟Estadística Descriptiva: gràfics, taules, mitjanes,…
  • Inferència Estadística: s‟introdueix aquest trimestre i es profunditza en el segon. És el conjunt de procediments que ens permeten deduir informació sobre la població mitjançant les dades que tenim de la mostra, i ens permeten també quantificar la precisió d‟aquestes deduccions. La Inferència Estadística és un conjunt de tècniques que es basen fortament en nocions de Probabilitat, que estudiarem al final d‟aquest trimestre. Novament, cal tenir molta cura i no confondre l‟Estadística Descriptiva (que ens permet descriure com és la mostra que hem pres) amb la Inferència Estadística (que ens permet deduir propietats de la població a través de la informació de la mostra.

Exercici 1.1 En la notícia següent podem trobar elements de Mostreig i Disseny d‟Experiments, d‟Estadística Descriptiva i d‟Inferència Estadística. Podeu identificar-los? De quins paràmetres poblacionals i característiques mostrals es parla?

1.2 Estadística descriptiva: Introducció

Tal i com hem dit, les properes seccions estaran dedicats a l‟estudi dels procediments utilitzats habitualment en Estadística Descriptiva. Aquests procediments els podem classificar en:

  1. Classificació de les dades (segons siguin les dades seran més adequats uns tipus de procediments que no pas d‟altres)

Exercici 1.2.1 Classifiqueu les dades següents en categòriques, numèriques contínues i numèriques discretes:

a) Hores d‟estudi/setmana b) Estat civil c) Sou mensual (en euros) d) Nota obtinguda en una assignatura e) Nombre de pel·lícules vistes al cinema l‟últim any f) Color (en una població de flors)

Exercici 1.3 Podeu identificar quin tipus de dades s‟estudien en la notícia següent?

Exercici 1.2.2 El quadre següent està extret de la „Encuesta Nacional sobre Violencia contra las mujeres‟ realitzada el 2003 per l‟‟Instituto Nacional de Salud Pública‟ de Mèxic. Podeu determinar quina és la variable d‟estudi i dir de quin tipus és?

1.3. Anàlisi descriptiva de dades univariants

(Seccions 1.1, 1.2 i 1.3 de Moore)

Aquesta secció estarà dedicada a l‟anàlisi descriptiva de dades univariants (dades relatives a una sola variable). Posteriorment estudiarem l‟anàlisi descriptiva de les relacions entre dues variables.

Els punts que seguirem per fer una anàlisi descriptiva d‟unes dades obtingudes en un estudi estadístic dependran de l‟objectiu de l‟estudi. En general seran els següents:

a) Classificació de les dades (segons el quadre anterior) b) Construcció d‟una taula de freqüències c) Construcció de gràfics d) Càlcul de mesures de centralització e) Càlcul de mesures de dispersió f) Elaboració de conclusions per respondre a les preguntes plantejades a l‟inici de l‟estudi.

1.3.1 Construcció de taules de freqüències

La taula de freqüències ens permet resumir la informació obtinguda en una enquesta, tal i com ja es va veure a l‟assignatura Introducció a l’Anàlisi de Dades. En ella escriurem la informació següent, segons el tipus de dades que tinguem:

a) CATEGÒRIQUES: freqüències absolutes (ni) , freqüències relatives (fi). b) DISCRETES: Freqüències absolutes, relatives, absolutes acumulades (Ni) i relatives acumulades (Fi) c) CONTÍNUES: Agrupació en intervals. Freqüències absolutes, relatives i absolutes i relatives acumulades

efectes enganyosos, el que farem és prendre com alçades de les barres les densitats, enlloc de les freqüències relatives o absolutes.

Així, la versió correcta del gràfic anterior seria,

En els mitjans de comunicació no acostumem a veure histogrames de densitats. Però a nivell tècnic, i en camp de la inferència estadística, són potser els gràfics més importants.

Exercici 1.3.2.1 Considerem un histograma de densitats. Quina és la suma de l‟àrea de totes les barres?

1.3.3 Mesures de centralització

Les mesures de centralització es dedueixen a partir de les dades i el seu objectiu és donar-nos una idea de l‟individu „mig‟. Aquestes mesures són diferents segons sigui el tipus de dades que tenim.

Mesures de centralització per a dades categòriques

En el cas de dades categòriques, la única mesura de centralització que utilitzarem és la moda , o dada més freqüent.

Mesures de centralització per a dades numèriques discretes

En el cas de dades numèriques discretes, podem calcular com a mesures de centralització d‟una mostra:

0

0,

0,

0,

0,

0,

0,

0,5 1,5 2,5 3,5 4,5 5,

a) la moda, b) la mitjana x , c) la mediana (Me).

La moda és novament la dada més freqüent. La mesura de centralització més coneguda és la mitjana. Tothom sap com calcular una mitjana: es sumen totes les dades i es divideix entre el total de dades. No obstant això, moltes vegades la mitjana es calcula malament. Considerem per exemple les dades de l‟Exercici següent:

Exercici 1.3.3.2 Calculeu la mitjana per les dades d‟aquesta taula. La resposta correcta és 0,045. Si no us ha donat això, proveu de trobar on està l‟error (l‟error més habitual consisteix a dir que aquesta mitjana és igual a 1,5).

La mitjana és la mesura de centralització més coneguda i també la més utilitzada. No obstant, hi ha situacions en què no és del tot adequada com a eina per descriure l‟individu „mig‟. Per exemple, si fem la mitjana del nombre de fills en un edifici amb 10 famílies, i una d‟aquestes famílies té 11 fills, la mitjana quedarà molt afectada per aquest fet, i no estarem segurs de que la mitjana obtinguda hagi servit per fer un retrat de la família „tipus‟ d‟aquest habitatge.

En l‟exemple anterior, hi havia una dada radicalment diferent de les altres. Aquestes dades molt diferents de les altres es diuen dades atípiques. Més endavant indicarem com decidir amb precisió si una dada és atípica o no. De moment, serà el nostre sentit comú el que ens dirà si una dada és extraordinàriament diferent de les altres.

En el cas d‟existència de dades atípiques és obvi que la mitjana hi queda molt afectada i no està clar que realment ens serveixi per descriure la població. En aquest cas, una mesura de centralització adequada pot ser la mediana.

La mitjana és calcula novament sumant totes les dades i dividint entre el total, i la mediana es calcula seguint el mateix procediment descrit a l‟apartat dedicat a l‟estudi de mesures de centralització per a dades discretes. Novament, la mediana serà més adequada en el cas d‟existència de dades atípiques.

Exercici 1.3.3.4. Considerem la notícia següent extreta d‟un mitjà de comunicació:

A què creieu que es refereixen quan parlen del „salari mig‟? Creieu que és una mesura de centralització adequada per aquesta variable?

1.3.4 Mesures de dispersió

Les mesures de centralització ens permetien saber „al voltant d‟on‟ es situaven les dades. Però hi ha un altre tipus de mesures molt importants a l‟hora de descriure un grup de dades, que són les mesures de dispersió, tal i com veurem en l‟exemple següent:

Exemple 1.3.4.1. Els gràfics següents representen la resposta a la pregunta: „indiqui la seva tendència política en una escala del 0 al 10, on 0=extrema esquerra, 10=extrema dreta‟, per dos països diferents:

En els dos països la resposta mitjana és „5‟, però tenen evidentment una situació política molt diferent. Quins dels dos països escolliríeu com a destí per unes vacances?

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

En el primer país hi ha una gran dispersió, mentre que en el segon, la gran majoria de gent es troba al voltant del centre polític. Com mesurem aquesta dispersió?

1.3.4.1 La desviació típica

La dispersió la mesurarem només en el cas de variables numèriques. Intuïtivament, podem pensar que la dispersió es podria mesurar a partir de la mitjana de la desviació (en valor absolut) de cada dada respecte la mitjana de les dades:

n

dadax

on n denota la mida de la mostra. Aquesta definició seria una idea prou encertada, però el valor absolut és una funció „difícil‟ des del punt de vista del càlcul. Per això, l‟estimació de la dispersió acostuma a fer-se mitjançant una modificació de la fórmula anterior que denominarem desviació típica o desviació estàndard:

n

x x s ^ i

2 ,

on les xi denoten totes les dades que tenim. Notem que el quadrat de la desviació

típica es denomina variància, i es calcula com:

n

x x s ^ i

2 (^2).

Observació: al denominador, segons els llibres (com per exemple en el llibre de Moore) i el context en el que es treballa, s‟escriu n-1 enlloc de n. En el cas de mostres grans, la diferencia entre ambdues fórmules és irrellevant.

La desviació estàndard es calcula actualment amb calculadora o amb programes informàtics com l‟EXCEL. De totes maneres, si l‟hem de calcular a mà la fórmula anterior esdevé „farragosa‟. L‟expressió següent resulta més senzilla a l‟hora de calcular la desviació típica i la variància

2

2 2 2

2 , x n

x x s n

x s i i       .

Exemple 1.3.4.2 Calculeu la desviació típica i la variància per les dades: 0, 2, 1, 5:

En aquest cas, en què no hi ha dades repetides, calcularem:

x

i i i y

i i i i

s n

x x n

y y n

y s

x x n

xn n

x n

x n

x n

x x n

y y

    

      

  

2 2 2

(^2) ( )

0

Denotem ara per (^) zi els resultats del segon pas. Tindrem que:

1 1 1

0

2 2 2

2

2 2 2

2

   

   

    

x

i x x

i x

x

i i i z

x x

x i

i i

s

s n

y n s

y s

n

s

y

n

z z n

z s

s

y s n

y n

s

y

n

z z

En resum, obtenim unes noves dades amb mitjana zero i desviació típica 1. Aquestes noves dades tipificades (o estandarditzades) són d‟utilitat en diversos problemes, com per exemple el següent:

Exercici 1.3.4.6 En Marc té 7 anys i pesa 22 Kg. El seu germà Sergi té 2 anys i pesa 16 Kg. Quin és el que pesa més, tenint en compte la seva edat?

En aquest problema, malgrat que en Marc pesi 6 Kg més que en Sergi, tenim la impressió que en Sergi „pesa més‟. La raó és que no té cap sentit comparar el pes de dos nens de diferents edats.

Suposem ara que en el grup de nens de 7 anys el pes mig és de 24 Kg, amb una desviació típica de 4 Kg, mentre que en el grup de nens de 2 anys el pes mig és de 13 Kg, amb una desviació típica de 1 Kg. Aleshores les dades tipificades (corregides segons la mitjana i la dispersió de les dades) seran:

Marc: (22-24)/4= -2/4= -0, Sergi: (16-13)/1=3/10=

Ara aquestes dades es poden comparar, doncs estan descrites en la mateixa escala. Deduïm que en Sergi „pesa més‟.

En general, tipificarem les dades quan vulguem comparar dades corresponents a contexts diferents (p.ex. per comparar les notes obtingudes en dos exàmens diferents, etc.)

El coeficient de variació

No és igual tenir una desviació típica de 200 euros en una mostra d‟ingressos molt baixos que tenir la mateixa desviació típica en una mostra de salaris elevadíssims. Una eina que ens permet comparar millor la desviació típica de dues poblacions és el coeficient de variació, que es defineix com la desviació típica dividida entre la mitjana:

x

s CV

Exercici 1.3.4.7. Calculeu el coeficient de variació en els exemples on hem calculat la desviació típica. Interpreteu els resultats

1.3.5 Percentils i quartils

El percentil p es defineix com el valor per sota del qual hi ha un p% de les dades, i per sobre del qual hi ha un (100-p)% de les dades. Notem que el percentil 25 correspon al primer quartil, el percentil 50 correspon al segon quartil i el percentil 75 correspon al tercer quartil. Recordem que aquests quartils eren l‟eina fonamental a l‟hora de construir els diagrames de caixa.

Exemple 1.3.5.1. Veiem a continuació un exemple pràctic de càlcul d‟un percentil, en aquest cas, el percentil 20 d‟un grup de dades.

Exemple 1.3.5.2. La taula següent és una taula de percentils pel pes de nens de 0 a 3 anys. Aquestes taules són molt utilitzades en pediatria per controlar el correcte creixement dels nens:

-4, -0, -0, -0, 0, 0, 0, 0, 0, 3, 1, 0, 0, 1, -1, 0, 0, -0, -0, 1,

-4, -1, -0, -0, -0, -0, -0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 3,

ordenar

Percentil 20

1.4 Anàlisi descriptiva de dades bivariants categòriques

(Capítol 2 de Moore)

Exemple 1.4.1 El curs 2007/2008 es va preguntar a un grup d‟estudiants d‟Estadística quin tipus de feina preferirien fer en el futur: treballar com a funcionaris, treballar en l‟àmbit de l‟empresa privada o tenir un negoci propi. Els resultats es resumeixen en la taula següent segons sexe:

homes dones funcionariat 6 15 empresa privada 30 39 negoci propi 15 16

Una pregunta lògica és la següent: existeix relació entre el sexe i el tipus de feina que es prefereix? Intuïtivament, el que fem per respondre aquesta pregunta és mirar el percentatge de dones que volen fer cada tipus de feina i comparar-los amb el percentatge corresponent pels homes. Per exemple, podem calcular que el percentatge d‟homes que volen treballar com funcionaris és del 11,8%, mentre que entre les dones aquest percentatge puja fins el 21,4%. Aquest simple càlcul ens dóna clarament la impressió de que el sexe i les preferències professionals són dues variables que tenen un fort lligam entre elles.

Aquest és un exemple de problema on hem d‟estudiar si hi ha relació entre dues variables categòriques. En aquest tema s‟introduiran eines per tractar aquest tipus de problemes.

El primer pas que farem per analitzar la possible relació entre dues dades categòriques és construir la taula de contingència corresponent, on indicarem les freqüències absolutes, tal i com hem fet en la taula anterior.

1.4.1 Freqüències marginals i condicionades

Les nocions de freqüències marginals i freqüències condicionades són fonamentals en l‟estudi de taules de contingència.

Les freqüències marginals són les freqüències corresponents a cada una de les dues variables implicades a l‟estudi.

Exemple 1.4.1.1 Per les dades de l‟exemple anterior, les freqüències relatives per a les variables SEXE i TIPUS DE FEINA venen donades per: