Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadistic aplicada, Apuntes de Estadística Aplicada

Asignatura: estadística aplicada, Profesor: agustin ramos, Carrera: Ciencias criminológicas y de la seguridad pública, Universidad: USC

Tipo: Apuntes

2014/2015

Subido el 16/11/2015

peterules
peterules 🇪🇸

4.5

(15)

2 documentos

1 / 32

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística Aplicada
LECCIÓN 1
Concepto e importancia de la Estadística:
En la naturaleza distinguimos dos tipos de fenómenos; fenómenos deterministas y
fenómenos aleatorios. Son fenómenos deterministas aquellos en los que ante las mismas
causas se producen los mismos resultados, fenómenos en general establecidos por
ciertas leyes, estudiadas por las ciencias experimentales (Física, Química…). Dentro de
estas ciencias también hay otros fenómenos que no obedecen a leyes determinadas u
obedecen a leyes que no están establecidas.
Los fenómenos aleatorios son fenómenos en los que ante las mismas causas se pueden
producir distintos resultados. Clásicamente se consideran como fenómenos de azar, lo
que lleva a unirlos a lo relativo a los juegos de azar. Sin embargo, los fenómenos
aleatorios no son solamente juegos de azar (tiempo de los días del mes de octubre, edad
de los alumnos de clase, color de los coches que pasan por una calle…). Los juegos de
azar no son más que un caso particular de los fenómenos aleatorios.
La Estadística se ocupa de estudiar los fenómenos aleatorios, tratando de estudiarlos
obteniendo datos sobre ellos, recopilándolos, ordenándolos, representándolos
gráficamente, hallando medidas relativas a esos datos (media de edad, edad más
repetida, edad máxima…), etc. Todo esto lo hace la Estadística Descriptiva, una parte de
la Estadística.
La Estadística Inductiva (la otra parte) consiste en extrapolar los datos obtenidos
mediante la Estadística Descriptiva; tratar de darle una extensión más real
(elecciones…). Este paso se da mediante técnicas como la probabilidad.
Variable estadística (o aleatoria):
Una variable estadística es una magnitud que toman los distintos valores
correspondientes a un fenómeno aleatorio (edad, peso, color preferido…). Podemos
distinguir dos tipos de variables estadísticas; variables cualitativas y variables
cuantitativas. Son cuantitativas las expresadas mediante valores numéricos (peso,
edad…), y variables cualitativas las expresadas mediante valores no numéricos (color
preferido, comida preferida…).
Además, dentro de las variables cuantitativas se distinguen dos tipos fundamentales;
variables cuantitativas discretas y variables cuantitativas continuas. Son variables
discretas aquellas que toman una cantidad finita o una cantidad infinita numerable de
valores. Una variable es discreta cuando entre dos valores consecutivos de la variable
no existen valores intermedios (número de hermanos de las personas de una población:
0, 1, 2, 3, 4, 5…; toma una cantidad finita, y entre dos valores consecutivos no hay valor
intermedio (2’5) / el número de lanzamientos necesarios de un dado para obtener un 5,
teóricamente, puede tomar infinitos valores, pero también es una variable discreta,
puesto que no hay valores intermedios). En general, son variables que sirven para
contar.
Son variables continuas aquellas que toman infinitos valores, con la particularidad de
que entre dos valores de la variable siempre existe algún valor intermedio (altura de los
! 1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20

Vista previa parcial del texto

¡Descarga estadistic aplicada y más Apuntes en PDF de Estadística Aplicada solo en Docsity!

Estadística Aplicada

LECCIÓN 1

Concepto e importancia de la Estadística:

En la naturaleza distinguimos dos tipos de fenómenos; fenómenos deterministas y

fenómenos aleatorios. Son fenómenos deterministas aquellos en los que ante las mismas

causas se producen los mismos resultados, fenómenos en general establecidos por

ciertas leyes, estudiadas por las ciencias experimentales (Física, Química…). Dentro de

estas ciencias también hay otros fenómenos que no obedecen a leyes determinadas u

obedecen a leyes que no están establecidas.

Los fenómenos aleatorios son fenómenos en los que ante las mismas causas se pueden

producir distintos resultados. Clásicamente se consideran como fenómenos de azar, lo

que lleva a unirlos a lo relativo a los juegos de azar. Sin embargo, los fenómenos

aleatorios no son solamente juegos de azar (tiempo de los días del mes de octubre, edad

de los alumnos de clase, color de los coches que pasan por una calle…). Los juegos de

azar no son más que un caso particular de los fenómenos aleatorios.

La Estadística se ocupa de estudiar los fenómenos aleatorios, tratando de estudiarlos

obteniendo datos sobre ellos, recopilándolos, ordenándolos, representándolos

gráficamente, hallando medidas relativas a esos datos (media de edad, edad más

repetida, edad máxima…), etc. Todo esto lo hace la Estadística Descriptiva, una parte de

la Estadística.

La Estadística Inductiva (la otra parte) consiste en extrapolar los datos obtenidos

mediante la Estadística Descriptiva; tratar de darle una extensión más real

(elecciones…). Este paso se da mediante técnicas como la probabilidad.

Variable estadística (o aleatoria):

Una variable estadística es una magnitud que toman los distintos valores

correspondientes a un fenómeno aleatorio (edad, peso, color preferido…). Podemos

distinguir dos tipos de variables estadísticas; variables cualitativas y variables

cuantitativas. Son cuantitativas las expresadas mediante valores numéricos (peso,

edad…), y variables cualitativas las expresadas mediante valores no numéricos (color

preferido, comida preferida…).

Además, dentro de las variables cuantitativas se distinguen dos tipos fundamentales;

variables cuantitativas discretas y variables cuantitativas continuas. Son variables

discretas aquellas que toman una cantidad finita o una cantidad infinita numerable de

valores. Una variable es discreta cuando entre dos valores consecutivos de la variable

no existen valores intermedios (número de hermanos de las personas de una población:

0, 1, 2, 3, 4, 5…; toma una cantidad finita, y entre dos valores consecutivos no hay valor

intermedio (2’5) / el número de lanzamientos necesarios de un dado para obtener un 5,

teóricamente, puede tomar infinitos valores, pero también es una variable discreta,

puesto que no hay valores intermedios). En general, son variables que sirven para

contar.

Son variables continuas aquellas que toman infinitos valores, con la particularidad de

que entre dos valores de la variable siempre existe algún valor intermedio (altura de los

árboles de un bosque suficientemente numeroso, edad exacta de las personas de una

población suficientemente numerosa…).

Al hablar de una variable discreta los valores están perfectamente determinados

(número de hermanos: 1, 2, 3, 4, 5…). Sin embargo, a la hora de hablar de los valores

de una variable continua esto no es así, por lo que se habla de clases. Los valores de una

variable continua se agrupan en clases, que son intervalos de valores comprendidos

entre dos, llamados extremos (inferior y superior). Además, llamaremos marca de clase

al punto medio de esa clase o intervalo.

(Clase [10, 15] / extremo inferior: 10; extremo superior: 15; marca de clase: 12’5)

(Clase [a, b] / marca de clase: (a + b) / 2)

Las clases de una variable continua no tienen porque tener la misma longitud.

Podemos encontrarnos con clases escritas de la siguiente forma:

El 20, ¿a qué clase pertenece?

Por ello es conveniente escribirlas en forma de intervalos abiertos y cerrados:

[18, 20) [20, 25) [25, 27) [27, 30) [30, 35]

Corchete: el valor forma parte de esa clase / Paréntesis: no forma parte de esa clase.

El criterio que se suele seguir es el de escribir las clases así: [ , ).

Esto es indiferente en relación a la marca de clase.

Si en este caso hablásemos de la edad de los alumnos de una determinada facultad, para

acabar de entender la variable sería necesario escribir el número de alumnos que hay en

cada clase:

Estos valores (500, 1250, 900, 300, 50) son las llamadas frecuencias.

LECCIÓN 2

Frecuencias:

Se llama frecuencia absoluta (ni) de un valor de la variable al número de veces que

aparece dicho valor. (xi: valores de la variable)

En el caso de una variable continua, se llama frecuencia absoluta de una clase al número

de objetos comprendidos en dicha clase:

[18, 20) 500
[20, 25) 1250
[25, 27) 900
[27, 30) 300
[30, 35) 50

xi ni

A partir de este momento hablaremos siempre en tanto por 1.

Si tenemos unos valores xi y frecuencias relativa fi, la suma de las frecuencias relativas

será 1:

Representación gráfica de variables estadísticas:

En general, en una representación gráfica utilizaremos unos ejes de coordenadas

(abscisas y ordenadas), así podremos representar todos los puntos o pares de valores.

Para representar una variable estadística, en general representamos en el eje de abscisas

los valores de la variable, y en el de ordenadas las frecuencias.

A la hora de representar una variable estadística, un primer tipo de representación es el

diagrama de puntos (donde se puede formar una

nube de puntos).

En general, el diagrama de puntos es válido

para todo tipo de variables (cualitativas o

cuantitativas), y está formado por puntos. Para

cada punto, la abscisa representa el valor de la

variable, y la ordenada la frecuencia

correspondiente (como las frecuencias son

positivas, la gráfica siempre estará por encima del eje de abscisas).

Para una variable cualitativa no hay un orden; el eje de ordenadas puede estar en

cualquier lugar y los valores ordenados de cualquier forma.

Ejemplo: comida preferida:

Tenemos unos valores x 1 , x 2 ,…, xr

0

3

5

8

10

0 2 3 5 6

Frecuencia

0

4

8

12

16

verdura/carne/marisco/pescado/lentejas

Prácticamente igual es el diagrama de

barras, que consiste en trazar líneas

verticales desde los puntos de la nube

hasta el eje de abscisas. Este diagrama

también es válido para variables

cualitativas y variables cuantitativas.

Para el caso de variables cuantitativas discretas se utiliza también el polígono de

frecuencias, que consiste en unir mediante trazos rectos los puntos consecutivos de la

nube de puntos. A veces se acostumbra a cerrar ese polígono de frecuencias, añadiendo

un valor anterior y otro posterior de la variable, ambos con frecuencia 0. El polígono

está cerrado en el sentido de que llega

por ambos lados al eje de abscisas.

x (valores) ni

Verduras 5

Carne 10

Marisco 16

Pescado 12

Lentejas 2

frecuencias

0

10

20

30

40

valores

0 5 9 14 18

Frecuencia

0

4

8

12

16

verdura/carne/marisco/pescado/lentejas

Ci ni xi

[0, 5) 50 2.
[5, 10) 100 7.
[10, 15) 150 12.
[15, 20) 150 17.
[20, 25) 200 22.
[25, 30) 120 27.
[30, 35) 60 32.

0

50

100

150

200

5 10 15 20 25 30 35

0

50

100

150

200

0 10 20 30 40

0

25

50

75

100

800 1200 1600 2000 2400 2800

Si las clases tienen distinta longitud se utiliza la densidad de frecuencia (hi):

, siendo li la longitud de la clase correspondiente.

En estos casos el histograma puede resultar engañoso.

En cambio, la densidad de

frecuencia es mucho más

clara.

LECCIÓN 3

Estadísticos:

Entendemos por estadísticos las medidas relativas a una variable estadística (media,

mediana, moda…). Se distinguen muchos tipos de estadísticos:

De posición (o de centralización, de promedio…): son medidas centrales (media,

mediana, moda y cuantiles).

De dispersión: indican el mayor o menor grado de centralización de una variable.

De simetría (o asimetría).

De kurtosis (o apuntamiento).

Estadísticos de posición:

La media (x):

Podemos definirla como el valor que correspondería a todos los datos de la variable

estadística, si todos fuesen iguales.

i

i

i

l

n

h =

i i i

i i i

l b a

C a b

= [ , )

Ci ni hi

[500, 1000) 100 0.
[1000, 1200) 50 0.
[1200, 1500) 30 0.
[1500, 2000) 10 0.
[2000, 3000) 5 0.

2100 2500 2900

=

=

= =

r

i

i

r

i

i i

siendoN n

N

x n

x

1

1

,

Propiedades de la media:

La media de la variable es un valor comprendido entre el mayor y el menor de los

valores de esa variable.

La media queda muy influenciada por los valores extremos de la variable.

Si a todos los valores de una variable se le suma una constante, su media queda

sumada en dicha constante.

Si todos los valores de una variable se multiplican por una constante, su media

queda multiplicada por dicha constante.

La suma de los desvíos de una variable con respecto a su media es 0. Entendemos

por desvíos respecto a la media (di) las diferencias entre el valor de la variable y su

media.

Cálculo abreviado de la media:

Para el cálculo abreviado de la media de una variable x, con valores xi, se considera la

nueva variable yi:

! , siendo a un valor central de la variable, y b el máximo común divisor de las

diferencias xi-xi-1 (entre cada valor y el anterior).

Una vez realizado esto hallamos la media de la variable y; entonces!.

Ejemplo 1:

N

y n

y

i

i i

yi = axi

a x

N

x n

a

N

a x n

N

a x n

N

y n

y

i

i i

i

i i

i

i i

i

i i

d i = xix

i

di n i

i

i i

i

i i

i

i i

i

i i

i

i i

i

i

i

i i

i

i

i

i i

i

i i i

i

i i

i

i i

N x n x n

N

x n

x n x N x n

d n x x n x n x n x n x n x n x n

b

x a

y

i

i

x = a + by

b

x a

y

i

i

a + byi = xi a + by = x

x c

N

c N

x

N

c n

x

N

c n

N

x n

N

x n c n

N

x n c n

N

x c n

N

y n

y

i

i

i

i

i

i i

i

i

i

i i

i

i i i

i

i i

i

i i

Las notas obtenidas por los alumnos en un examen vienen dadas por la siguiente

variable estadística. ¿Cuál sería la nota correspondiente a cada uno si todos obtuviesen

la misma nota? (media)

Si hay dos valores centrales (125 y 175), es conveniente utilizar el que tiene mayor

frecuencia (125).

Ejemplo 2:

Los sueldos de una empresa vienen dados por la siguiente tabla. ¿Qué salario recibiría

cada empleado si todos cobrasen el mismo salario? (media)

Notas Frecuencias (ni) Marcas de clase (xi) yi

yin i

b

x a

y

i

i

b mc d

a

N

y n

i

i i

N

y n

y

i

i i

x = a + by = 125 + 50 ⋅(− 0. 37 )= 106. 5

Ci (salarios) ni (frecuencias) xi (marcas de clase)

b

x a

y

i

i

yini

Clase modal: [10, 15)

Los triángulos ABC y CDE son semejantes (tienen los ángulos iguales, y los lados y

alturas proporcionales), por lo tanto:

Todo esto sólo es válido para variables continuas en las que todas las clases tienen la

misma longitud. Para variables con clases de distinta longitud se calcula de la misma

forma, pero en lugar de utilizar las frecuencias se usarán las densidades de frecuencia:

Clase modal: [5, 10)

Ci ni

[0, 5) 8
[5, 10) 10
[10, 15) 20
[15, 20) 12
[20, 25) 5
M

x x x x

x x x

DE

x

BA

Ci ni

[0, 5) 9 1.
[5, 10) 16 3.
[10, 20) 20 2
[20, 28) 18 2.
[28, 36) 14 1.
[36, 40) 5 1.

li

ni

hi =

La mediana (Me):

La mediana de una variable estadística es el valor de dicha variable que deja la mitad de

los datos a cada lado (en variables cuantitativas: la mitad de datos son mayores que la

mediana, y la otra mitad son menores).

En este tipo de variables, si hay un número impar de valores la mediana es el valor

central, y si hay un número par de valores la mediana es el punto medio entre los dos

valores centrales.

M

x x x x

x x

Xi

Xi

Me = 3. 5 Me = 4

Clase de la mediana: [21, 25)

Fractiles:

Cuartiles: Q 1 , Q 2 , Q 3.

▪Q 1 : valor de la variable que deja por debajo un cuarto de los valores de la variable.

▪Q 2 : …dos cuartos… (Q 2 = Me)

Deciles: D 1 , D 2 … D 9.

▪D 1 : valor de la variable que deja por debajo una décima parte de los valores de la

variable.

▪D 5 : …cinco décimas partes… (D 5 = Q 2 = Me)

Centiles: C 1 , C 2 … C 99.

▪C 1 : valor de la variable que deja por debajo una centésima parte (el 1 %) de los

valores de la variable.

▪C 50 : …cincuenta centésimas partes (el 50 %)… (C 50 = D 5 = Q 2 = Me)

Xi ni Ci Ni

3 8 [0, 5) 8
7 15 [5, 9) 23
11 18 [9, 13) 41
15 32 [13, 17) 73
19 46 [17, 21) 113
23 52 [21, 25) 171
27 17 [25, 29) 188
31 23 [29, 33) 211
35 31 [33, 37) 242
39 12 [37, 41) 254
43 6 [41, 45) 260
47 2 [45, 49) 262

= ⇒ x =

x

Me = 22. 38

En muchos libros a los centiles les llaman percentiles, pero los percentiles se

refieren a mil.

El cálculo de los fractiles es igual al cálculo de la mediana, sólo que el número de datos

que se dejan por debajo ya no es la mitad, sino que depende del fractil que sea.

Ejemplo:

Las notas de un examen vienen dadas por la siguiente tabla:

a) Si superan el notable la cuarta parte de los alumnos, ¿cuál es la nota exigida para

ello?

b) Si se desea aprobar al 80 % de los alumnos, ¿cuál es la nota mínima exigida para

ello?

c) ¿Entre qué notas están el 50 % de los alumnos que obtienen las notas centrales?

d) ¿Entre qué notas están el 30 % de los alumnos que obtienen las notas centrales?

a) Q 3 deja por debajo

Clase de Q 3 : [29, 33)

Xi ni Ci Ni

3 8 [0, 5) 8
7 15 [5, 9) 23
11 18 [9, 13) 41
15 32 [13, 17) 73
19 46 [17, 21) 113
23 52 [21, 25) 171
27 17 [25, 29) 188
31 23 [29, 33) 211
35 31 [33, 37) 242
39 12 [37, 41) 254
43 6 [41, 45) 260
47 2 [45, 49) 262
N = =

Estadísticos de dispersión:

Son estadísticos que miden el mayor o menor grado de concentración o de dispersión de

los valores de la variable.

Rango:

Una medida de dispersión es el rango o recorrido de la variable, que es la diferencia

entre el mayor y el menor valor de los valores de la variable (a mayor rango, más

dispersa es la variable).

Rango = xmáx – xmín.

Esta medida está muy influenciada por los extremos. Para evitar esta influencia se

utiliza el rango intercuartílico (Q 3 – Q 1 ). Como quizá sea prescindir de muchos valores

(el 50 %), se utiliza también el rango interdecílico (D 9 – D 1 ), que prescinde del 20 %.

También se podría hablar de rango intercentílico (C 99 – C 1 ), que prescinde del 2 %.

Desviación media absoluta:

Otra medida de dispersión es la desviación media absoluta (o desviación absoluta

media), generalmente llamada desviación media. Es la media de los desvíos de la

variable con respecto a su media, tomados en valor absoluto.

!! si!! si x < 0

La desviación media es el valor que tendrían todos los desvíos si todos fuesen iguales.

Varianza y desviación típica:

Las medidas de dispersión más utilizadas son la varianza (! ) y la desviación

típica (! ). A mayor varianza o desviación típica, mayor dispersión de la variable.

N

x x n

N

d n

d m

i

i i

i

i i

x = x x ≥ 0

x =− x

2

V = σ

σ= V

C

x

x

C

x

x

La varianza es la media de los desvíos de la variable, elevados al cuadrado; es decir, la

media de los cuadrados de los desvíos.

Ejemplo:

Propiedades de la varianza:

La varianza de una variable siempre es positiva.

Si todos los datos fuesen iguales la varianza sería 0.

! para todos los i.

! para todos los i.

La media de los cuadrados de los desvíos de una variable con respecto a un valor

central toman su menor valor cuando dicho valor central es precisamente la media de

la variable.

! mínimo para!

Fórmula de König:!

(media de los cuadrados – cuadrado de la media)

N

x x n

V

i

i i

2

2

σ

xi ni

xix !

xini

xixni

2

( )

!

2

( xix )

N

x n

x

i

i i

2

N

x x n

V

i

i i

2

xixni ≥ 0 N ≥ 0 ⇒ V ≥ 0

2

V = ⇐⇒ xix =

V = 0 ⇐⇒ xi = x

2

N

x a n

i

i i

a = x

2

2

( x )

N

x n

V

i

i i