Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Apunts SOL, Apuntes de Estadística

Asignatura: Estadística, Profesor: , Carrera: Eng. Tècnica d'Informàtica de Sistemes, Universidad: UPC

Tipo: Apuntes

Antes del 2010

Subido el 24/09/2009

miguelangel9002
miguelangel9002 🇪🇸

4.1

(117)

25 documentos

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Apunts Enginyeria Informàtica
EST
ESTADÍSTICA
Professora: Elena
ACADEMIASOL*
* el nostre objectiu, el teu aprovat
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Apunts SOL y más Apuntes en PDF de Estadística solo en Docsity!

Apunts Enginyeria Informàtica

EST

ESTADÍSTICA

Professora: Elena

ACADEMIA SOL *

* el nostre objectiu, el teu aprovat

Enginyeria Informàtica

1. NATURALEZA Y TIPOS DE DATOS

1.1 Definición de estadística

La Estadística es la ciencia que trata de la teoría y aplicación de métodos apropiados para coleccionar, representar, resumir y analizar datos para hacer inferencias a partir de ellos.

1.2 Clasificaciones de estadística

ƒ Estadística descriptiva o deductiva

La estadística descriptiva o deductiva se encarga de recoger y resumir las características de una población o muestra deduciendo de esta descripción conclusiones sobre su estructura, además de las relaciones existentes entre otros colectivos distintos con los cuales se compara.

ƒ Estadística inductiva o inferencial

La estadística inductiva o inferencial se basa en los resultados del análisis de la muestra de la

población induce o estima las leyes generales de comportamiento de la población.

1.3 Objetivo de la estadística

Población y muestra (IMP)

ƒ Población es el conjunto de todos los individuos o elementos que tienen unas características

comunes y sobre el cual queremos efectuar nuestro estudio.

ƒ Muestra es una parte de la población seleccionada aleatoriamente. Atención: muestra

representativa es aquella que mantiene las características del conjunto de la población.

El objetivo de la estadística es encontrar un punto óptimo entre costes y fiabilidad.

Enginyeria Informàtica

  • Discretos : sólo pueden tomar valores enteros. Ej: nº de hermanos.
  • Continuos : hacen referencia a variables que pueden tomar valores fraccionarios, y dados 2 valores cualesquiera, siempre pueden tomar infinitos valores entre ellos. Ej: altura.

1.5.2. Datos de corte transversal y datos temporales

ƒ Los datos de corte transversal (o cross-section) se miden en un instante concreto del tiempo, y hacen referencia a varios individuos.

Ejemplo: beneficios de ciertas empresas durante el ejercicio 1998.

ƒ En los datos temporales , analizamos a un único individuo a lo largo del tiempo.

Ejemplo: beneficios de una empresa desde el ejercicio 1995 hasta el de 1998.

1.5.3. Datos unidimensionales y datos multidimensionales

ƒ Hablamos de datos unidimensionales cuando nos referimos a una única variable.

ƒ Los datos multidimensionales se obtienen observando simultáneamente varias variables. Estos datos dan lugar a las matrices de datos (que estudiaremos en el siguiente tema).

Enginyeria Informàtica

2. DESCRIPCIÓN DE DATOS CUANTITATIVOS

2.1 Datos unidimensionales

2.1.1. Métodos de tabulación

La tabulación es un proceso que consiste en la construcción de tablas que sintetizan la información recogida. Estas tablas se conocen como tablas de frecuencias o tablas de distribución de frecuencias.

Ejemplo: Variable de estudio la estatura. Consideraremos una población de 150 alumnos de estadística. Extraemos de la misma una muestra de 6 alumnos que llamaremos “n” (siendo n el tamaño muestral). Como n=6, tenemos 6 observaciones (o 6 datos) de nuestra variable. Que son los siguientes: (1’77, 1’65, 1’65, 1’84, 1’82, 1’75).

A partir de aquí construiremos la tabla, colocando en la misma la variable “X” con sus respectivos valores “x1, x2,…”. ¡OJO!: en la tabla representamos los valores de la variable, no los datos u observaciones. En nuestro caso, tenemos 5 valores diferentes de la variable.

Definiciones:

ƒ Frecuencia absoluta es el número de veces que se repite cada valor de la variable. Se representa por n (^) i. Siendo ∑ n (^) i = n.

ƒ Frecuencia relativa es la frecuencia absoluta dividida por el tamaño muestral. Se representa por f (^) i , siendo ∑ fi = 1. f (^) i = n (^) i /n

ƒ Porcentaje (de la modalidad xi). Viene dada por el producto p (^) i = fi ·.

Tipos de frecuencias para variables cuantitativas.

ƒ Frecuencia acumulada

  • Frecuencia absoluta acumulada : indica el nº de observaciones que hemos obtenido igual al considerado o inferiores a él. Se representa por Ni.
  • Frecuencia relativa acumulada : acumula frecuencias relativas. Se representa por F (^) i.

Enginyeria Informàtica

2.1.2. Métodos gráficos para variables unidimensionales

Consiste en crear gráficos que sintetizan el comportamiento de la variable. En una representación gráfica siempre debe haber constancia en el gráfico de las variables que estamos representando. Un resumen gráfico es un método complementario al resumen numérico. Por sí solo no nos da información. Los gráficos se basarán en el sistema cartesiano. Van acompañados siempre de resúmenes numéricos. Se dividen en dos grupos:

  1. Cualitativos.
  2. Cuantitativos.

2.1.2.1. Métodos gráficos para datos cualitativos

ƒ Diagramas de barras (no histogramas)

Se construye colocando las distintas modalidades de la variable cualitativa sobre el eje de abscisas y sobre cada una de ellas se levanta un rectángulo de igual base y altura igual a su frecuencia (absoluta o relativa).

  • Caso vertical: n

0

1

2

3

4

5

6

7

8

9

1 2 3 4 5

Xi

ni ó Fi

  • Caso horizontal:

n

0

2

4

6

8

10

1 2 3 4 5 Xi

ni

ƒ Diagramas de sectores

Enginyeria Informàtica

Sirve para variables cualitativas no agrupadas. Se construye repartiendo el área del círculo en sectores de tamaño proporcional a la frecuencia de cada modalidad. Hay tantos sectores como valores de la variable y los ángulos se calculan de forma proporcional a las frecuencias relativas de cada sector:^ α^ =^ fi^ ⋅360º

Color de pelo Moreno Otros60% 15%

Rubio 25%

ƒ Pictogramas

Consiste en que se emplean figuras relacionadas con el fenómeno que se está estudiando de forma que su tamaño (tipo 1) o número (tipo 2) nos indique la frecuencia asociada a cada modalidad. Las figuras tienen un tamaño proporcional a la frecuencia en el tipo 1.

Casas Apartamentos Pisos

El segundo tipo de pictograma sería el siguiente:

Tipo de viviendas ni Casas 200 Apartamentos 400 Pisos 600

Casas: (200)

Apartamentos: (400)

Pisos: (600)

Enginyeria Informàtica

ƒ Polígono de frecuencias:

ƒ Caso no agrupado en intervalos y frecuencias no acumuladas

En este caso se construye sobre el diagrama de barras uniendo los extremos superiores de barras consecutivas mediante una línea.

Para variables discretas

ƒ Caso no agrupado en intervalos y frecuencias acumuladas

La curva acumulativa, una vez colocados en el eje de abscisas los distintos valores de la variable y en el eje de ordenadas las frecuencias acumuladas correspondientes (absolutas y correlativas) se trazan segmentos desde el punto.

Para variables discretas N (^) i ó F (^) i F (^) k– 1

F 2 F 1 x (^) i x 1 x 2 x 3 ........ x (^) n

ƒ Box-Plot (Diagrama de caja y bigotes) Para construirlo hay que fijar la escala con los valores del máximo y el mínimo. Localizar la Me y los cuartiles y dibujar un rectángulo que conecte estos últimos y dentro de los mismos marcar la mediana con un segmento.

x n 1 4 2 8 3 5 4 2 5 1

n

ni

Enginyeria Informàtica

0

5

10

15

20

25

(0, 10] (10, 20] (20, 30] (30, 40] (40, 50]

Datos cuantitativos agrupados

ƒ Histograma (para tablas de frecuencia sí agrupadas) Se construye representando sobre las abscisas cada uno de los intervalos asociados a la variable y sobre cada uno de esos intervalos se levanta con área igual (proporcional) a la frecuencia de dicho intervalo.

hi = altura de Ii en el histograma Ar = b×alt. Ni = ai × hi

h i na i h af

i i i i

Salarios n (^) i

( 0, 10] 13 (10,20] 15 (20,30] 20 (30,40] 8 (40,50] 4

ƒ Polígono de frecuencias:

ƒ Caso agrupado en intervalos y frecuencias no acumuladas

1º Se construye el histograma. 2º Sobre este se unen los puntos medios de la base superior del rectángulo y uniéndolos mediante una poligonal

Para variables contínuas.

0

5

10

15

20

25

(0, 10] (10, 20] (20, 30] (30, 40] (40, 50]

Enginyeria Informàtica

2.1.3.1.1. Medidas de posición

Hay de dos tipos, centradas y no centradas

ƒ Centradas

Determinan el valor de X que ocupa la posición central, es decir, buscan el “centro” alrededor del cual se agrupan todos los datos. Intentan representar los valores de una muestra o población indicando dónde se localizan pero no cómo se localizan. Las más importantes son :

1.- MEDIA ARITMÉTICA ( X )

Se calcula sumando todos los valores observados, y dividiéndolos por el tamaño muestral.

n

Xi

X

n i

= =^1 ó

n

Xi n

X

n i

i

Es la suma ponderada de todas las modalidades de la variable por sus respectuvas frecuencias relativas.

x x f

n

i i x^ i ni

i

k

i

k

= =

∑ ∑

1 1 Si la tabla de frecuencias está agrupada en intervalos, se calcula con las marcas de clase.

x

n c

n

i i^ i

m

∑ 1

Propiedades:

  • Si a todos los valores observados les sumamos una constante K ( cambio de origen), la media de los nuevos valores se obtiene sumando a la media de los valores originales esta constante K. X (^) A = { x (^) 1 , x (^) 2 ,..., x (^) n }⇒ XA X (^) B = { x (^) 1 + k x , (^) 2 + k ,..., x (^) n + k }⇒ X (^) B = X (^) A + k
  • Si todas las observaciones se multiplican por una constante K ( cambio de escala), la nueva media es el producto de la anterior por la constante K.
  • La media de una constante es la misma constante.
  • Es centro de gravedad de la distribución (^) ∑( )

n i

Xi X

1

Enginyeria Informàtica

  • La media es la cantidad que hace mínima la suma de los cuadrados de las desviaciones respecto a un valor.
  • ( )

2

1 ∑ =

n i

Xi X : esta diferencia es mínima cuando la constante es la media aritmética.

Ventajas e inconvenientes de la media aritmética sobre otras medidas de síntesis

  • Ventajas : siempre es calculable, es única (para una distribución dada, siempre toma el mismo valor), y tiene en cuenta a todos los valores de la distribución.
  • Inconvenientes : al tener en cuenta todos los valores, es sensible a valores extremos. Estos valores pueden distorsionar el sentido de la media aritmética, es poco robusta a errores.

2.- MEDIANA (Me).

Es el valor que quedaría en medio de la distribución si ordenásemos de menor a mayor todas las observaciones. La mediana deja un 50% de las observaciones a cada lado.

  • Si n es par la mediana se calcula como la media aritmética de los dos valores centrales. La media aritmética de los valores n/2 y (n/2)+

+ ⎛^ +

x n x^ n

Me

Ejemplo: X = { 1 2 5 7 9 10 13 14, , , , , , , }

n=8 (par) ⇒ n/2=4 (número que ocupa la 4ª posición, en nuestro ej. es el 7). (n/2) + 1=5 (número que ocupa la 5ª posición, en nuestro ej. es el 9). Me = (7+9)/2 = 8.

  • Si n es impar la mediana es la posición (n+1)/2.

= ⎛^ +

n 1

Me x

Ejemplo: X ={ 1 2 5 7 9 10 13 , , , , , , } n = 7 (impar) ⇒ (n+1)/2 = 4 (valor que ocupa la 4ª posición, en nuestro ej. es el 7). Me = 7.

Ventajas e inconvenientes de la mediana

  • Ventajas : divide la distribución en dos partes iguales y no es sensible a valores extremos (esto es una ventaja respecto la media aritmética).

Enginyeria Informàtica

  • Media armónica

Dadas x1,…, xk (>0)

H n

x

n

H

x

n

n

i

i i

k

i

i i

n

=

= ∑

1

;^1

  • Media cuadrática

Q

x n

n

i i i

k

∑ 2 1