Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística Descriptiva, Apuntes de Estadística

Asignatura: Estadística I, Profesor: , Carrera: Economía, Universidad: UCM

Tipo: Apuntes

2012/2013

Subido el 19/08/2013

ximi-4
ximi-4 🇪🇸

3.5

(47)

9 documentos

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estad´ıstica Descriptiva
Estad´ıstica ITT Sonido e Imagen curso 2004-2005
Ignacio Cascos Fern´andez
Dpto. Estad´ıstica e I.O.
Universidad ublica de Navarra
1. Definiciones fundamentales
La Estad´ıstica Descriptiva se ocupa de la descripci´on de datos experimenta-
les, as espec´ıficamente de la recopilaci´on, organizaci´on y an´alisis de datos
sobre alguna caracter´ıstica de ciertos individuos pertenecientes a la poblaci´on
ouniverso.
Definici´on 1(Poblaci´on, tama˜no). Llamamos poblaci´on a un conjunto bien
definido sobre el que se observa o puede observarse una cierta caracter´ıstica.
Puede ser finita o infinita. El tama˜no de la poblaci´on es el umero de
individuos que tiene, su cardinal, lo denotamos por N.
Si la poblaci´on es muy grande se hace muy costoso y en algunos casos
imposible considerar cada individuo y se realiza una selecci´on denominada
muestra.
Definici´on 2(Individuo). Llamamos individuo a cada uno de los elementos
de la poblaci´on.
Definici´on 3(Muestra, tama˜no). Una muestra es un conjunto de individuos
de la poblaci´on que refleja las caracter´ısticas de ´esta lo mejor posible. Si las
caracter´ısticas quedan bien reflejadas, se dice que la muestra es representa-
tiva. El tama˜no de una muestra es el umero de individuos que tiene, lo
denotamos por n.
Si muestra y poblaci´on coinciden, se dice que se dispone de un censo.
Definici´on 4(Variable, dato). Una variable (X) es un s´ımbolo que repre-
senta una caracter´ıstica a estudiar en la poblaci´on. Llamamos dato (x) al
valor (num´erico o no) que la variable toma sobre un individuo concreto de la
muestra.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Estadística Descriptiva y más Apuntes en PDF de Estadística solo en Docsity!

Estad´ıstica Descriptiva

Estad´ıstica — ITT Sonido e Imagen — curso 2004-

Ignacio Cascos Fern´andez Dpto. Estad´ıstica e I.O. Universidad P´ublica de Navarra

1. Definiciones fundamentales

La Estad´ıstica Descriptiva se ocupa de la descripci´on de datos experimenta- les, m´as espec´ıficamente de la recopilaci´on, organizaci´on y an´alisis de datos sobre alguna caracter´ıstica de ciertos individuos pertenecientes a la poblaci´on o universo.

Definici´on 1 (Poblaci´on, tama˜no). Llamamos poblaci´on a un conjunto bien definido sobre el que se observa o puede observarse una cierta caracter´ıstica. Puede ser finita o infinita. El tama˜no de la poblaci´on es el n´umero de individuos que tiene, su cardinal, lo denotamos por N.

Si la poblaci´on es muy grande se hace muy costoso y en algunos casos imposible considerar cada individuo y se realiza una selecci´on denominada muestra.

Definici´on 2 (Individuo). Llamamos individuo a cada uno de los elementos de la poblaci´on.

Definici´on 3 (Muestra, tama˜no). Una muestra es un conjunto de individuos de la poblaci´on que refleja las caracter´ısticas de ´esta lo mejor posible. Si las caracter´ısticas quedan bien reflejadas, se dice que la muestra es representa- tiva. El tama˜no de una muestra es el n´umero de individuos que tiene, lo denotamos por n.

Si muestra y poblaci´on coinciden, se dice que se dispone de un censo.

Definici´on 4 (Variable, dato). Una variable (X) es un s´ımbolo que repre- senta una caracter´ıstica a estudiar en la poblaci´on. Llamamos dato (x) al valor (num´erico o no) que la variable toma sobre un individuo concreto de la muestra.

Tipos de variables

Cuantitativa: toma valores en un conjunto prefijado de valores num´eri- cos, se puede medir.

  • Discreta: el conjunto es finito o numerable (Ej. n´umero de hijos de una familia).
  • Continua: el conjunto es infinito no numerable, contiene alg´un intervalo (Ej. duraci´on de alguna componente en un sistema).

Cualitativa: toma valores que se corresponden con cualidades no cuan- tificables de los individuos, no se pueden medir (Ej. color).

Dicot´omicas: s´olo pueden tomar dos valores, (SI/NO); (0,1).

  1. Representaciones tabulares, frecuencias

Una vez obtenida una muestra de cualquier poblaci´on y observados los valores que toma la variable en los individuos de la muestra, estos valores se suelen ordenar. Si la variable es cuantitativa la ordenaci´on ser´a de menor a mayor. Dada una variable X, consideramos una muestra de tama˜no n que toma k valores distintos, x 1 ,... , xk (si la variable es cuantitativa x 1 < x 2 <... < xk). La frecuencia absoluta de un valor xi es el n´umero de veces que dicho valor aparece en la muestra. Se representa por ni y cumple

∑^ k

i=

ni = n 1 + n 2 +... + nk = n

La frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta de xi (ni) entre el tama˜no de la muestra (n), se representa por fi

fi =

ni n

, se cumple

∑^ k

i=

fi = 1.

Si trabajamos con variables cuantitativas, como hemos ordenado los va- lores de la muestra de menor a mayor, podemos definir las frecuencias acu- muladas.

(Li, Li] ni fi Ni Fi

  1. Medidas de posici´on

4.1. Medidas de tendencia central

Los promedios o medidas de tendencia central son valores t´ıpicos o represen- tativos de un conjunto de datos. Pretenden resumir todos los datos en un ´unico valor. Definimos tres medidas de tendencia central, media, mediana y moda.

4.1.1. Media, (x)

Se calcula para variables cuantitativas y se trata del centro geom´etrico o de gravedad de nuestros datos,

x =

n 1 x 1 + n 2 x 2 +... + nkxk n

∑^ k

i=

xifi

Si se trata de una media poblacional, es decir, estamos considerando todos los individuos de la poblaci´on, suele denotarse por μ.

Propiedades.

∑k i=1(xi^ −^ x)ni^ = 0

  1. la media es el punto para el que la distancia cuadr´atica media a los valores de la muestra es m´ınima, es decir, para cualquier a ∈ R ∑^ k

i=

(xi − x)^2 ni ≤

∑^ k

i=

(xi − a)^2 ni

Obs´ervese que en el c´omputo de la media se utilizan todos los valores, por tanto si hay valores an´omalos (extremos) influir´an fuertemente en ella. Si los datos est´an agrupados, para hallar la media tomamos la marca de las clases,

x =

n 1 m 1 + n 2 m 2 +... + nkmk n

∑^ k

i=

mifi

4.1.2. Mediana, (Me)

Se calcula para variables cuantitativas, es un n´umero tal que al menos el 50 % de los datos es menor o igual que la mediana y al menos el 50 % mayor o igual. Si hay m´as de una mediana tomamos el punto medio entre la mediana mayor y la m´as peque˜na, que ser´an los datos que aparecen en la muestra y sirven como medianas. Para calcularla, recurrimos a la columna de las frecuencias relativas acu- muladas y buscamos el primer valor Fi ≥ 0’5, es decir aquel para el que Fi ≥ 0’5 y Fi− 1 < 0’5. Si Fi > 0’5, entonces Me = xi, si Fi = 0’5, entonces Me = (xi + xi+1)/2.

Propiedad. La mediana es el punto para el que la distancia eucl´ıdea media a los valores de la muestra es m´ınima, es decir, para cualquier a ∈ R

∑^ k

i=

|xi − Me|ni ≤

∑^ k

i=

|xi − a|ni

S´olo tiene en cuenta la posici´on de los valores en la muestra y por lo tanto tiene mucho mejor comportamiento que la media cuando hay observaciones an´omalas.

4.1.3. Moda, (Moda)

Es el valor con mayor frecuencia. Si hay m´as de una, la variable se dice multimodal y puede calcularse para cualquier tipo de variable. Si los datos est´an agrupados hablamos de clase modal y ser´a aquella para la que el cociente frecuencia relativa dividido entre amplitud (fi/ci) es mayor.

4.1.4. Media arm´onica, (xH)

xH =

n ∑k i=1 ni/xi

4.1.5. Media geom´etrica, (xG)

xG = n

xn 1 1 xn 2 2... xn kk

Para calcular el percentil Pα, buscamos en la columna de las frecuencias relativas acumuladas el primer valor mayor o igual que α/100, es decir, bus- camos Fi ≥ α/100 tal que Fi− 1 < α/100. Si Fi > α/100, entonces Pα = xi, si Fi = α/100, entonces Pα = (α/100)xi + (1 − α/100)xi+1.

  1. Medidas de dispersi´on

S´olo tienen sentido para variables cuantitativas y las definimos para variables no agrupadas.

5.1. Recorrido o rango

Diferencia entre el mayor y menor valor de una muestra, xk − x 1.

5.2. Rango semiintecuart´ıcilo y amplitud intercuartil

El rango semiintercuart´ılico es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q 3 − Q 1 )/2. La amplitud intercuartil es el doble del valor anterior, 2Q = (Q 3 − Q 1 ).

5.3. Desviaci´on t´ıpica, (s)

Cuantifica el error que cometemos si representamos una muestra ´unicamente por su media.

s =

∑k

i=

(xi − x)^2 fi

La desviaci´on t´ıpica poblacional suele denotarse por σ.

5.4. Varianza muestral, (s^2 )

s^2 =

∑^ k

i=

(xi − x)^2 fi

La varianza poblacional suele denotarse por σ^2.

Propiedad.

s^2 =

∑^ k

i=

x^2 i fi − (x)^2

5.5. Cuasivarianza muestral, (s∗^2 )

s∗^2 =

∑k i=1(xi^ −^ x)

(^2) n i n − 1

n n − 1

s^2

5.6. Desviaci´on media respecto de la mediana

DM =

∑k i=1 |xi^ −^ Me|ni n

5.7. Coeficiente de variaci´on, (CV )

CV =

s |x|

La medidas de dispersi´on anteriores dependen de las unidades de medida, el coeficiente de variaci´on es, en cambio, una medida de dispersi´on relativa (adimensional). Tambi´en existen las llamadas medidas de forma que nos indican num´eri- camente c´omo est´an distribuidos los datos en una muestra.

  1. Medidas de forma

6.1. Asimetr´ıa

El coeficiente de asimetr´ıa de una variable mide el grado de asimetr´ıa de la distribuci´on de sus datos en torno a su media. Es adimensional y se define como sigue:

As =

∑k i=1 ni(xi^ −^ x) (^3) /n s^3

7.2. Pictogramas

Figuras cuya ´area es la frecuencia (o un valor proporcional) del valor que representan.

7.3. Diagrama de sectores

Se divide un c´ırculo en sectores cada uno de ellos proporcional a la frecuencia relativa de un valor.

7.4. Histograma

Es la representaci´on m´as frecuente con datos agrupados. Est´a formado por un conjunto de rect´angulos tales que:

  1. Sus bases coinciden con el intervalo que representan y cuyos valores aparecen en el eje OX.
  2. El ´area de cada rect´angulo debe ser igual a la frecuencia relativa del intervalo. Su altura ser´a por tanto fi/ci y la suma de las ´areas de todos los rect´angulos la unidad.

7.5. Pol´ıgono de frecuencias (poligonal de frecuencias)

Se obtiene uniendo los puntos medios de los extremos superiores de los rect´angulos que forman el histograma, es decir los puntos (mi, fi/ci). En los extremos, unimos (m 1 , f 1 /c 1 ) con (L 1 , 0) y (mk, fk/ck) con (Lk, 0).

7.6. Diagrama de tallos y hojas

Procedimiento semigr´afico para el que se preparan los datos resumi´endolos en dos o tres cifras (expres´andolos en las unidades adecuadas). A continuaci´on se disponen en una tabla de dos columnas del siguiente modo:

  1. Si los datos son de dos d´ıgitos, a la izquierda (en el tallo) aparece la cifra de las decenas, a la derecha separadas por una l´ınea aparecen las hojas y se escriben todas seguidas.
  2. Si hay tres d´ıgitos el tallo est´a formado por los dos primeros.

Ejemplo. Dada la muestra { 114 , 125 , 114 , 124 , 152 , 134 }, dibuja su diagrama

de tallos y hojas.

, las hojas son las unidades

Observaci´on. Se trata de un histograma con amplitud de las clases cons- tante y girado 90^0.

7.7. Diagrama de cajas

Paralelo a un eje numerado dibujamos un segmento con extremos en los valores menor y mayor que aparecen en la muestra y que marcamos con dos bigotes. Dibujamos adem´as una caja con extremos en el primer y tercer cuartil y marcamos en ella la mediana.

Observaci´on. En los diagramas de cajas que nos ofrecen ciertos paquetes estad´ısticos aparecen reflejados los valores at´ıpicos y casos extremos fuera del segmento.

  1. Estad´ıstica descriptiva bidimensional

Estudiamos simult´aneamente dos variables del individuo.

Definici´on 5. Una variable bidimensional (X, Y ) es un s´ımbolo que repre- senta dos caracter´ısticas de los individuos de la poblaci´on.

Dada una variable bidimensional (X, Y ), consideramos una muestra de tama˜no n en la que X toma k valores distintos, x 1 ,... , xk, si la variable es cuantitativa x 1 < x 2 <... < xk e Y toma l valores distintos, y 1 ,... , yl, si la variable es cuantitativa y 1 < y 2 <... < yl. Obtenemos, por tanto, observaciones del tipo (xi, yj ). La frecuencia absoluta de un valor (xi, yj ) es el n´umero de veces que dicho valor aparece en la muestra. Se representa por nij , se cumple

∑^ k

i=

∑^ l

j=

nij = n.

8.2. Distribuciones condicionadas

Son distribuciones fijada una condici´on. Dicha condici´on puede ser sobre la misma variable o la otra. La frecuencia absoluta de xi dada cierta condici´on ser´a el n´umero de observaciones en la muestra que cumplen la condici´on y para las que la variable X toma el valor xi. La frecuencia relativa de xi dada cierta condici´on ser´a la frecuencia absoluta de xi dada la condici´on dividida entre el n´umero total de observa- ciones de la muestra que cumplen la condici´on. Podemos hablar de la distribuci´on de X condicionada a que Y toma el valor yj , X|Y =yj y ser´a la distribuci´on de todas las observaciones con valor yj en Y. Su distribuci´on de frecuencias absolutas (ni|j ) ser´a la columna j- ´esima de la tabla de doble entrada, las frecuencias relativas vendr´an dadas por fi|j = nij /n·j Podemos hablar de medidas de tendencia central o dispersi´on para dis- tribuciones marginales.

8.3. Independencia estad´ıstica

El inter´es del estudio conjunto de dos variables como variable aleatoria bidi- mensional es sacar conclusiones sobre la posible relaci´on de dependencia entre ellas. Dos variables son estad´ısticamente independientes cuando no existe re- laci´on alguna entre ellas.

Definici´on 6. Dos variables X e Y se dicen independientes si las distribu- ciones de X condicionadas a cualquier valor de Y son iguales, es decir,

ni 1 n· 1

ni 2 n· 2

nil n·l

para todo i = 1,... , k

o equivalentemente

fi| 1 = fi| 2 =... = fi|l para todo i = 1,... , k

Se puede demostrar que la relaci´on anterior es equivalente a nij n

ni· n

×

n·j n

para todo i, j.

Es decir, las variables X e Y son estad´ısticamente independientes si la fre- cuencia relativa conjunta de cada par de valores es igual al producto de las frecuencias relativas marginales (fij = fi·f·j para todo i, j).

Comentario. El valor esperado de la casilla (i, j) si las variables fuesen independientes se obtiene utilizando la f´ormula nfi·f·j

8.4. Regresi´on lineal (m´etodo de m´ınimos cuadrados),

correlaci´on

En este apartado consideraremos que las variables con las que trabajamos son cuantitativas.

8.4.1. Nube de puntos o diagrama de dispersi´on

El procedimiento gr´afico habitual para representar una variable bidimensio- nal es una nube de puntos o diagrama de dispersi´on en la que cada valor (xi, yj ) que aparece en la muestra se representa por un ´unico punto de abscisa xi y ordenada yj. En dicha nube de puntos podemos apreciar la relaci´on entre las variables.

8.4.2. Covarianza, (sXY )

Definimos la covarianza de una variable bidimensional (X, Y ) como:

sXY =

∑k i=

∑l j=1(xi^ −^ x)(yj^ −^ y)nij n

Propiedad.

sXY =

∑k i=

∑l j=1 xiyj^ nij n

− x y.

Si la covarianza es positiva (sXY > 0), existir´a tendencia a que las mayores observaciones de una de las variables se correspondan con las mayores observaciones de la otra.

Si la covarianza es negativa (sXY < 0), existir´a tendencia a que las mayores observaciones de una de las variables se correspondan con las menores de la otra.

Si la covarianza es cero (sXY = 0), no existe relaci´on lineal entre las variables.

Si X e Y son independientes, entonces su covarianza ser´a cero, sXY = 0, el resultado rec´ıproco no es cierto.

8.4.4. Correlaci´on lineal

El coeficiente de correlaci´on lineal de Pearson se define como

r = ρXY =

sXY sX sY

y toma valores entre −1 y 1.

Si r = 1 decimos que hay correlaci´on positiva perfecta.

Si r = −1 decimos que hay correlaci´on negativa perfecta.

Si r < 0 hay correlaci´on lineal negativa, ambas rectas de regresi´on son decrecientes.

Si r > 0 hay correlaci´on lineal positiva, ambas rectas de regresi´on son crecientes.

Si r = 0 las variables son incorreladas o linealmente independientes.

El coeficiente de determinaci´on lineal o de bondad de ajuste es el cuadrado del coeficiente de correlaci´on, r^2 , est´a en el intervalo [0, 1] y cuanto mayor sea, mejor ser´a el ajuste.