









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística I, Profesor: , Carrera: Economía, Universidad: UCM
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Ignacio Cascos Fern´andez Dpto. Estad´ıstica e I.O. Universidad P´ublica de Navarra
La Estad´ıstica Descriptiva se ocupa de la descripci´on de datos experimenta- les, m´as espec´ıficamente de la recopilaci´on, organizaci´on y an´alisis de datos sobre alguna caracter´ıstica de ciertos individuos pertenecientes a la poblaci´on o universo.
Definici´on 1 (Poblaci´on, tama˜no). Llamamos poblaci´on a un conjunto bien definido sobre el que se observa o puede observarse una cierta caracter´ıstica. Puede ser finita o infinita. El tama˜no de la poblaci´on es el n´umero de individuos que tiene, su cardinal, lo denotamos por N.
Si la poblaci´on es muy grande se hace muy costoso y en algunos casos imposible considerar cada individuo y se realiza una selecci´on denominada muestra.
Definici´on 2 (Individuo). Llamamos individuo a cada uno de los elementos de la poblaci´on.
Definici´on 3 (Muestra, tama˜no). Una muestra es un conjunto de individuos de la poblaci´on que refleja las caracter´ısticas de ´esta lo mejor posible. Si las caracter´ısticas quedan bien reflejadas, se dice que la muestra es representa- tiva. El tama˜no de una muestra es el n´umero de individuos que tiene, lo denotamos por n.
Si muestra y poblaci´on coinciden, se dice que se dispone de un censo.
Definici´on 4 (Variable, dato). Una variable (X) es un s´ımbolo que repre- senta una caracter´ıstica a estudiar en la poblaci´on. Llamamos dato (x) al valor (num´erico o no) que la variable toma sobre un individuo concreto de la muestra.
Tipos de variables
Cuantitativa: toma valores en un conjunto prefijado de valores num´eri- cos, se puede medir.
Cualitativa: toma valores que se corresponden con cualidades no cuan- tificables de los individuos, no se pueden medir (Ej. color).
Dicot´omicas: s´olo pueden tomar dos valores, (SI/NO); (0,1).
Una vez obtenida una muestra de cualquier poblaci´on y observados los valores que toma la variable en los individuos de la muestra, estos valores se suelen ordenar. Si la variable es cuantitativa la ordenaci´on ser´a de menor a mayor. Dada una variable X, consideramos una muestra de tama˜no n que toma k valores distintos, x 1 ,... , xk (si la variable es cuantitativa x 1 < x 2 <... < xk). La frecuencia absoluta de un valor xi es el n´umero de veces que dicho valor aparece en la muestra. Se representa por ni y cumple
∑^ k
i=
ni = n 1 + n 2 +... + nk = n
La frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta de xi (ni) entre el tama˜no de la muestra (n), se representa por fi
fi =
ni n
, se cumple
∑^ k
i=
fi = 1.
Si trabajamos con variables cuantitativas, como hemos ordenado los va- lores de la muestra de menor a mayor, podemos definir las frecuencias acu- muladas.
(Li, Li] ni fi Ni Fi
Los promedios o medidas de tendencia central son valores t´ıpicos o represen- tativos de un conjunto de datos. Pretenden resumir todos los datos en un ´unico valor. Definimos tres medidas de tendencia central, media, mediana y moda.
4.1.1. Media, (x)
Se calcula para variables cuantitativas y se trata del centro geom´etrico o de gravedad de nuestros datos,
x =
n 1 x 1 + n 2 x 2 +... + nkxk n
∑^ k
i=
xifi
Si se trata de una media poblacional, es decir, estamos considerando todos los individuos de la poblaci´on, suele denotarse por μ.
Propiedades.
∑k i=1(xi^ −^ x)ni^ = 0
i=
(xi − x)^2 ni ≤
∑^ k
i=
(xi − a)^2 ni
Obs´ervese que en el c´omputo de la media se utilizan todos los valores, por tanto si hay valores an´omalos (extremos) influir´an fuertemente en ella. Si los datos est´an agrupados, para hallar la media tomamos la marca de las clases,
x =
n 1 m 1 + n 2 m 2 +... + nkmk n
∑^ k
i=
mifi
4.1.2. Mediana, (Me)
Se calcula para variables cuantitativas, es un n´umero tal que al menos el 50 % de los datos es menor o igual que la mediana y al menos el 50 % mayor o igual. Si hay m´as de una mediana tomamos el punto medio entre la mediana mayor y la m´as peque˜na, que ser´an los datos que aparecen en la muestra y sirven como medianas. Para calcularla, recurrimos a la columna de las frecuencias relativas acu- muladas y buscamos el primer valor Fi ≥ 0’5, es decir aquel para el que Fi ≥ 0’5 y Fi− 1 < 0’5. Si Fi > 0’5, entonces Me = xi, si Fi = 0’5, entonces Me = (xi + xi+1)/2.
Propiedad. La mediana es el punto para el que la distancia eucl´ıdea media a los valores de la muestra es m´ınima, es decir, para cualquier a ∈ R
∑^ k
i=
|xi − Me|ni ≤
∑^ k
i=
|xi − a|ni
S´olo tiene en cuenta la posici´on de los valores en la muestra y por lo tanto tiene mucho mejor comportamiento que la media cuando hay observaciones an´omalas.
4.1.3. Moda, (Moda)
Es el valor con mayor frecuencia. Si hay m´as de una, la variable se dice multimodal y puede calcularse para cualquier tipo de variable. Si los datos est´an agrupados hablamos de clase modal y ser´a aquella para la que el cociente frecuencia relativa dividido entre amplitud (fi/ci) es mayor.
4.1.4. Media arm´onica, (xH)
xH =
n ∑k i=1 ni/xi
4.1.5. Media geom´etrica, (xG)
xG = n
xn 1 1 xn 2 2... xn kk
Para calcular el percentil Pα, buscamos en la columna de las frecuencias relativas acumuladas el primer valor mayor o igual que α/100, es decir, bus- camos Fi ≥ α/100 tal que Fi− 1 < α/100. Si Fi > α/100, entonces Pα = xi, si Fi = α/100, entonces Pα = (α/100)xi + (1 − α/100)xi+1.
S´olo tienen sentido para variables cuantitativas y las definimos para variables no agrupadas.
Diferencia entre el mayor y menor valor de una muestra, xk − x 1.
El rango semiintercuart´ılico es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q 3 − Q 1 )/2. La amplitud intercuartil es el doble del valor anterior, 2Q = (Q 3 − Q 1 ).
Cuantifica el error que cometemos si representamos una muestra ´unicamente por su media.
s =
∑k
i=
(xi − x)^2 fi
La desviaci´on t´ıpica poblacional suele denotarse por σ.
s^2 =
∑^ k
i=
(xi − x)^2 fi
La varianza poblacional suele denotarse por σ^2.
Propiedad.
s^2 =
∑^ k
i=
x^2 i fi − (x)^2
s∗^2 =
∑k i=1(xi^ −^ x)
(^2) n i n − 1
n n − 1
s^2
∑k i=1 |xi^ −^ Me|ni n
s |x|
La medidas de dispersi´on anteriores dependen de las unidades de medida, el coeficiente de variaci´on es, en cambio, una medida de dispersi´on relativa (adimensional). Tambi´en existen las llamadas medidas de forma que nos indican num´eri- camente c´omo est´an distribuidos los datos en una muestra.
El coeficiente de asimetr´ıa de una variable mide el grado de asimetr´ıa de la distribuci´on de sus datos en torno a su media. Es adimensional y se define como sigue:
As =
∑k i=1 ni(xi^ −^ x) (^3) /n s^3
Figuras cuya ´area es la frecuencia (o un valor proporcional) del valor que representan.
Se divide un c´ırculo en sectores cada uno de ellos proporcional a la frecuencia relativa de un valor.
Es la representaci´on m´as frecuente con datos agrupados. Est´a formado por un conjunto de rect´angulos tales que:
Se obtiene uniendo los puntos medios de los extremos superiores de los rect´angulos que forman el histograma, es decir los puntos (mi, fi/ci). En los extremos, unimos (m 1 , f 1 /c 1 ) con (L 1 , 0) y (mk, fk/ck) con (Lk, 0).
Procedimiento semigr´afico para el que se preparan los datos resumi´endolos en dos o tres cifras (expres´andolos en las unidades adecuadas). A continuaci´on se disponen en una tabla de dos columnas del siguiente modo:
Ejemplo. Dada la muestra { 114 , 125 , 114 , 124 , 152 , 134 }, dibuja su diagrama
de tallos y hojas.
, las hojas son las unidades
Observaci´on. Se trata de un histograma con amplitud de las clases cons- tante y girado 90^0.
Paralelo a un eje numerado dibujamos un segmento con extremos en los valores menor y mayor que aparecen en la muestra y que marcamos con dos bigotes. Dibujamos adem´as una caja con extremos en el primer y tercer cuartil y marcamos en ella la mediana.
Observaci´on. En los diagramas de cajas que nos ofrecen ciertos paquetes estad´ısticos aparecen reflejados los valores at´ıpicos y casos extremos fuera del segmento.
Estudiamos simult´aneamente dos variables del individuo.
Definici´on 5. Una variable bidimensional (X, Y ) es un s´ımbolo que repre- senta dos caracter´ısticas de los individuos de la poblaci´on.
Dada una variable bidimensional (X, Y ), consideramos una muestra de tama˜no n en la que X toma k valores distintos, x 1 ,... , xk, si la variable es cuantitativa x 1 < x 2 <... < xk e Y toma l valores distintos, y 1 ,... , yl, si la variable es cuantitativa y 1 < y 2 <... < yl. Obtenemos, por tanto, observaciones del tipo (xi, yj ). La frecuencia absoluta de un valor (xi, yj ) es el n´umero de veces que dicho valor aparece en la muestra. Se representa por nij , se cumple
∑^ k
i=
∑^ l
j=
nij = n.
Son distribuciones fijada una condici´on. Dicha condici´on puede ser sobre la misma variable o la otra. La frecuencia absoluta de xi dada cierta condici´on ser´a el n´umero de observaciones en la muestra que cumplen la condici´on y para las que la variable X toma el valor xi. La frecuencia relativa de xi dada cierta condici´on ser´a la frecuencia absoluta de xi dada la condici´on dividida entre el n´umero total de observa- ciones de la muestra que cumplen la condici´on. Podemos hablar de la distribuci´on de X condicionada a que Y toma el valor yj , X|Y =yj y ser´a la distribuci´on de todas las observaciones con valor yj en Y. Su distribuci´on de frecuencias absolutas (ni|j ) ser´a la columna j- ´esima de la tabla de doble entrada, las frecuencias relativas vendr´an dadas por fi|j = nij /n·j Podemos hablar de medidas de tendencia central o dispersi´on para dis- tribuciones marginales.
El inter´es del estudio conjunto de dos variables como variable aleatoria bidi- mensional es sacar conclusiones sobre la posible relaci´on de dependencia entre ellas. Dos variables son estad´ısticamente independientes cuando no existe re- laci´on alguna entre ellas.
Definici´on 6. Dos variables X e Y se dicen independientes si las distribu- ciones de X condicionadas a cualquier valor de Y son iguales, es decir,
ni 1 n· 1
ni 2 n· 2
nil n·l
para todo i = 1,... , k
o equivalentemente
fi| 1 = fi| 2 =... = fi|l para todo i = 1,... , k
Se puede demostrar que la relaci´on anterior es equivalente a nij n
ni· n
n·j n
para todo i, j.
Es decir, las variables X e Y son estad´ısticamente independientes si la fre- cuencia relativa conjunta de cada par de valores es igual al producto de las frecuencias relativas marginales (fij = fi·f·j para todo i, j).
Comentario. El valor esperado de la casilla (i, j) si las variables fuesen independientes se obtiene utilizando la f´ormula nfi·f·j
En este apartado consideraremos que las variables con las que trabajamos son cuantitativas.
8.4.1. Nube de puntos o diagrama de dispersi´on
El procedimiento gr´afico habitual para representar una variable bidimensio- nal es una nube de puntos o diagrama de dispersi´on en la que cada valor (xi, yj ) que aparece en la muestra se representa por un ´unico punto de abscisa xi y ordenada yj. En dicha nube de puntos podemos apreciar la relaci´on entre las variables.
8.4.2. Covarianza, (sXY )
Definimos la covarianza de una variable bidimensional (X, Y ) como:
sXY =
∑k i=
∑l j=1(xi^ −^ x)(yj^ −^ y)nij n
Propiedad.
sXY =
∑k i=
∑l j=1 xiyj^ nij n
− x y.
Si la covarianza es positiva (sXY > 0), existir´a tendencia a que las mayores observaciones de una de las variables se correspondan con las mayores observaciones de la otra.
Si la covarianza es negativa (sXY < 0), existir´a tendencia a que las mayores observaciones de una de las variables se correspondan con las menores de la otra.
Si la covarianza es cero (sXY = 0), no existe relaci´on lineal entre las variables.
Si X e Y son independientes, entonces su covarianza ser´a cero, sXY = 0, el resultado rec´ıproco no es cierto.
8.4.4. Correlaci´on lineal
El coeficiente de correlaci´on lineal de Pearson se define como
r = ρXY =
sXY sX sY
y toma valores entre −1 y 1.
Si r = 1 decimos que hay correlaci´on positiva perfecta.
Si r = −1 decimos que hay correlaci´on negativa perfecta.
Si r < 0 hay correlaci´on lineal negativa, ambas rectas de regresi´on son decrecientes.
Si r > 0 hay correlaci´on lineal positiva, ambas rectas de regresi´on son crecientes.
Si r = 0 las variables son incorreladas o linealmente independientes.
El coeficiente de determinaci´on lineal o de bondad de ajuste es el cuadrado del coeficiente de correlaci´on, r^2 , est´a en el intervalo [0, 1] y cuanto mayor sea, mejor ser´a el ajuste.