Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

Por cada documento subido

Responde a las preguntas

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

estadistica, Apuntes de Estadística

Universitat de València (UV)Estadística

Prof. Carmen Dasí

Asignatura: Estadistica 1º, Profesor: Carmen Dasí, Carrera: Psicologia, Universidad: UV

Tipo: Apuntes

2013/2014

Subido el 19/01/2014

inmaco-7 🇪🇸

3.3

(46)

33 documentos

1 / 40

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1

Tema 1. Requisitos previos para el estudio del análisis multivariable

1.. Introducción

2.. Variables, medidas y escalas

3.. Análisis exploratorio de los datos

4.. La distribución Normal

1.5 Inferencia estadística: población y muestra, distribuciones muestrales, estimación puntual,

intervalos de confianza, Test de Hipótesis

6. Estadística bivariable o bidimensional

7. Clasificaciones de las variables

8. Tipos de datos en el Análisis Multivariable.

9. Matrices

10. Otros conceptos básicos del Análisis Multivariable

1.11 Las técnicas multivariantes y su clasificación

1.12 Etapas de un análisis multivariante

1.1 Introducción

Las técnicas multivariantes ofrecen al investigador una herramienta analítica muy potente, pero

es imprescindible asegurarse antes de usar cualquier técnica de que se cumplen los requisitos

tanto teóricos como estadísticos relativos a la técnica multivariante elegida.

Además también es importante examinar cuidadosamente los datos disponibles, antes de

aplicar cualquier tipo de análisis multivariante.

El conocimiento en profundidad de cada una de las variables de interés (análisis univariante),

así como de las relaciones existentes entre cada par de variables (análisis bivariante) es un

paso previo necesario antes de la aplicación de cualquier análisis multivariante. Por ello es

imprescindible recordar las nociones básicas de la estadística.

Antes de ver una clasificación de las técnicas multivariantes, teniendo en cuenta que dicha

clasificación se basa en las escala de medida de las variables que intervienen en el análisis

repasaremos rápidamente las diferentes escalas de medida, que se supone son conocidas de

cursos anteriores.

1.2. VARIABLES, MEDIDAS Y ESCALAS.

Las variables son características no uniformes de las unidades de información.

Unidades son las entidades de las que se obtienen las observaciones.

Antes de que se pueda tratar a una variable estadísticamente, debe ser observada, es decir

clasificada, medida o cuantificada.

Medición es el proceso por el que se asignan números a las observaciones de una variable.

Medida : observación cuantificada o categorizada.

Una misma variable puede ser medida de diversas maneras. El investigador ha de procurar que

sus medidas sean válidas y fiables.

Una medida es válida cuando mide lo que pretende medir

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

Descubre Apuntes de Estadística Universitat de València (UV)

Documentos relacionados

La ciencia como método científico

(5)

Práctica 4 ejercicios 1 y 2

(3)

modelo evaluacion

ENCUESTAS Y ESTUDIOS DE OPINIÓN

Piaget vs vygotski

(1)

Entrevista del periodo prenatal

(5)

Tema 2 ciclo vital I

(3)

apuntes de lislexia

Aproximación conceptual a los trastornos del desarrollo

(2)

Trastornos. Preguntas tipo test contestadas

(19)

Aproximación conceptual a los trastornos del desarrollo

Vista previa parcial del texto

¡Descarga estadistica y más Apuntes en PDF de Estadística solo en Docsity!

Tema 1. Requisitos previos para el estudio del análisis multivariable 1.. Introducción 2.. (^) Variables, medidas y escalas 3.. Análisis exploratorio de los datos 4.. (^) La distribución Normal 1.5 Inferencia estadística: población y muestra, distribuciones muestrales, estimación puntual, intervalos de confianza, Test de Hipótesis

Estadística bivariable o bidimensional
Clasificaciones de las variables
Tipos de datos en el Análisis Multivariable.
Matrices
Otros conceptos básicos del Análisis Multivariable 1.11 Las técnicas multivariantes y su clasificación 1.12 Etapas de un análisis multivariante

1.1 Introducción

Las técnicas multivariantes ofrecen al investigador una herramienta analítica muy potente, pero es imprescindible asegurarse antes de usar cualquier técnica de que se cumplen los requisitos tanto teóricos como estadísticos relativos a la técnica multivariante elegida.

Además también es importante examinar cuidadosamente los datos disponibles, antes de aplicar cualquier tipo de análisis multivariante.

El conocimiento en profundidad de cada una de las variables de interés ( análisis univariante ), así como de las relaciones existentes entre cada par de variables ( análisis bivariante ) es un paso previo necesario antes de la aplicación de cualquier análisis multivariante. Por ello es imprescindible recordar las nociones básicas de la estadística.

Antes de ver una clasificación de las técnicas multivariantes, teniendo en cuenta que dicha clasificación se basa en las escala de medida de las variables que intervienen en el análisis repasaremos rápidamente las diferentes escalas de medida, que se supone son conocidas de cursos anteriores.

1.2. VARIABLES, MEDIDAS Y ESCALAS.

Las variables son características no uniformes de las unidades de información.

Unidades son las entidades de las que se obtienen las observaciones. Antes de que se pueda tratar a una variable estadísticamente, debe ser observada, es decir clasificada, medida o cuantificada.

Medición es el proceso por el que se asignan números a las observaciones de una variable.

Medida : observación cuantificada o categorizada. Una misma variable puede ser medida de diversas maneras. El investigador ha de procurar que sus medidas sean válidas y fiables.

Una medida es válida cuando mide lo que pretende medir

Una medida es fiable si al repetir la medición en circunstancias similares se obtiene el mismo resultado. Para representar a las variables se suelen emplear las últimas letras del alfabeto: X, Y, Z ... El símbolo X representa una variable medible, pero si escribimos X (^) i estamos representando el valor que toma la variable X en una observación concreta (la observación i ).

Las variables se pueden clasificar en: dependientes e independientes

Variable dependiente: es la variable que se quiere explicar

Variable independiente: es la variable que explica la variable dependiente

ESCALAS DE MEDIDA de las variables La escala nominal consiste en agrupar las observaciones de la variable en varias categorías cualitativas: (hombre-mujer, agrupar por nacionalidad, etc.) Las categorías pueden ser nombres o números, pero los números no indican orden ni diferencias en magnitud. La escala ordinal , consiste en agrupar las observaciones de la variable en categorías que se pueden ordenar. (Clase social, nivel de estudios, etc.) La escala de intervalo, existe una unidad de medida, pero el cero se fija en función del instrumento de medida, no significa ausencia de la característica estudiada. Por ejemplo la temperatura ( o^ C,^ o^ F, etc.) La escalas de razón cociente o proporción , son escalas de intervalo pero con un cero absoluto. Peso, edad, distancia, etc.

También se suelen clasificar las variables en: Cualitativas o categóricas : indican a qué grupo o categoría pertenece un individuo (grupo sanguíneo, estado civil, etc.) Cuantitativas : la variable toma valores numéricos con los que tiene sentido hacer operaciones aritméticas.

En cuanto a la Estadística univariable , hay que recordar las diferentes representaciones

gráficas de las variables (gráficos de sectores, histogramas, de árbol, de cajas), medidas de tendencia central (media, moda, mediana), medidas de dispersión (rango o recorrido, varianza, desviación típica).

1.3. Análisis exploratorio de los datos Se suele empezar examinado cada variable de forma independiente y luego se pasa a estudiar las relaciones entre variables. Se realizan uno o más gráficos y después se añaden resúmenes y aspectos numéricos de los datos. Las tablas de frecuencias son útiles cuando el número de datos es elevado (N).

X i n i N i f i F i

Histogramas. Las variables cuantitativas a veces toman muchos valores diferentes, por lo que se suelen agrupar los valores próximos. Los Histogramas son representaciones gráficas por áreas. Sobre el eje de abcisas se marcan los extremos de los intervalos de clase y se levantan rectángulos de base los intervalos y de altura tal que el área del rectángulo sea igual o proporcional a la frecuencia correspondiente. Marca de clase es el punto medio de cada intervalo Polígono de frecuencias: se obtiene uniendo los puntos medios de los lados superiores de los rectángulos levantados en el histograma de frecuencias.

Gráfico de tallos y hojas. Se separa cada observación en un tallo que contenga todos los dígitos menos el de las unidades y en una hoja el dígito de las unidades. a) se sitúan los tallos en vertical y en orden creciente de arriba abajo. Se traza una vertical a la derecha de los tallos b) Repasa todos los datos y sitúa cada hoja a la derecha de su tallo c) (^) Sitúa otra vez las hojas colocándolas esta vez en orden creciente desde cada tallo. Ejemplo: El número de operaciones realizadas por los cirujanos de un hospital durante el último año han sido: 27, 50, 33, 25, 86, 25, 85, 20, 31, 37, 44, 36, 59, 34 y 28.

2 7 5 5 0 8 2 0 5 5 7 8 3 3 1 7 6 4 3 1 3 4 6 7 4 4 4 4 5 0 9 5 0 9 6 6 7 7 8 6 5 8 5 6

Medidas de tendencia CENTRAL: MEDIA, MODA Y MEDIANA. La Media de la variable x que toma los valores : x 1 , x 2 , x 3 , ..., xn, es:

(x 1 + x 2 ,+x 3 , +..., x n) / N= (1/N) ∑ x i

Si hay N observaciones y cada valor x (^) i se presenta con frecuencia de n (^) i la media es

1/N ∑ x i n i

El inconveniente de la media es que le afectan los valores extremos.

La MODA es el valor (o el intervalo) más frecuente en la distribución. La MEDIANA es el valor que queda en el centro de los datos tras ordenarlos de menor a mayor. Cuartiles, deciles y percentiles El primer cuartil se define como el valor que deja por debajo la cuarta parte de la distribución. El segundo cuartil coincide con la mediana El tercer cuartil es el valor que tiene por encima el 25% de la distribución El primer decil es el valor de la variable tal que el 10% de las observaciones son menores que él. (Hay 9 deciles) El primer centil : 1% del las observaciones son menores que él. (Hay 99 centiles)

GRAFICOS DE CAJA

a b c d e a y e = valores mínimo y máximo de la distribución; b= primer cuartil de la distribución c= mediana de la distribución ; d= tercer cuartil de la distribución

Calculo de la MEDIANA y la MODA cuando los datos están agrupados en intervalos: N/2 - Ni- Me = Li + ------------------ ai ni

h i+ Mo = Li + ------------------ ai h i-1 + h i+

Me = mediana Mo = moda Li = extremo inferior del intervalo que contiene a la mediana (moda) N = número de casos Ni-1 =Frecuencia absoluta acumulada anterior al intervalo que contiene a la mediana ni = Frecuencia absoluta del intervalo que contiene a la mediana ai = amplitud del intervalo que contiene a la mediana (moda) hi = ni / ai (altura del intervalo modal) hi-1 altura del intervalo anterior al modal hi+1 altura del intervalo posterior al modal

Medidas de dispersión: Rango: diferencia entre el valor mayor y el menor de la distribución Varianza: media de los cuadrados de las desviaciones de los datos respecto de la media F A4 n^ i (x^ i -^ F 07 8 )^2

F A4 n^ i (x^ i )^2 -------------------- o ---------------- -- F 07 8^2 N N

El denominador es (N-1) cuando trabajamos con muestras , en ese caso sólo sirve la primera fórmula Desviación típica : raíz cuadrada de la varianza Coeficiente de variación: sirve para comparar dispersiones de diversas variables. Es el cociente entre la desviación típica y la media Medidas de asimetría.: La asimetría de la distribución se puede ver en el histograma, para cuantificarla se usan : Primer coeficiente de asimetría de Pearson : Se divide la diferencia entre la media y la moda entre la desviación típica. Segundo coeficiente de asimetría de Pearson : se divide el triple de la diferencia entre la media y la mediana entre la desviación típica. Si dan positivo, la asimetría se da a la derecha. Si es nulo no hay asimetría Si es negativo hay asimetría a la izquierda. Pueden tener distinto signo Tercer Coeficiente de asimetría : g 1 = (1/N) F 0A 4 n (^) i (x (^) i - x) 3 /(D.típica) 3

Cuando una distribución normal tiene su media igual a 0 y su desviación típica igual a 1, se la conoce como distribución Normal Estándar. La variable que sigue esta distribución se llama tipificada y se la representa con Z. La áreas bajo la curva normal tipificada se calculan usando las tablas de la curva normal. Las tablas dan el área bajo la curva desde -∞ a K. El valor del área se encuentra en el cruce de la columna que contiene las unidades y décimas de K con la fila de las centésimas. Propiedades de la distribución Normal

Su campo de existencia es la recta real R.
Es simétrica respecto de su media μ.
Tiene un máximo que coincide con su media, moda y mediana
En μ+σ y μ-σ tiene los puntos de inflexión.
El área bajo la curva es 1 y entre los puntos: μ+ σ y μ- σ es 0, μ+2σ y μ-2σ es 0, μ+3σ y μ-3σ es 0,

Tipificación Si la variable estudiada X, sigue una distribución N (μ,σ), para trabajar con las tablas de la Curva normal tipificada, es necesario tipificar la variable X, para ello definimos la variable Z

X - μ Z = --------- σ

Uso de las tablas N(0,1) P(X≤1,75) = 0,9599, cruce fila de 1,7 y columna de 0, P(1≤X≤1,85)= P(X≤1,85)-P(X≤1)=0,9678-0,8413=0,

Si la variable no está tipificada, por ejemplo N(5,3), se la tipifica antes de buscar en las tablas. P(X≤8)= P((X - 5) / 3≤ (8 - 5 ) / 3)=P(Z ≤ 1) = 0,

INFERENCIA ESTADÍSTICA

Población : conjunto de todos los individuos objeto de estudio. (Pueden no ser personas) Muestra : parte de la población en la que se miden las características estudiadas Muestreo : proceso seguido para extraer una muestra Razones para trabajar con muestras: imposibilidad física o económica de acceder a la población, destrucción del objeto estudiado.

TIPOS DE MUESTREO

Muestreo ALEATORIO SIMPLE : cada individuo de la población tiene la misma posibilidad de formar parte de la muestra y además la selección de un individuo no influye en las siguientes selecciones. Puede ser con reemplazamiento o sin reemplazamiento

Tablas de Números aleatorios: son tablas confeccionadas con números elegidos aleatoriamente que aparecen en muchos libros de estadística. Ahora muchos programas de ordenador traen rutinas que generan números aleatorios.

Muestreo sistemático:

Se ordenan en una lista todos los individuos de la población. N= tamaño población. n= tamaño muestra N/n=k= coeficiente de elevación. Se elige al azar el número a menor que k Los elementos elegidos serán: a+k, a+2k, a+3k.... a+nk

Muestreo aleatorio estratificado : Se divide la población en grupos llamados estratos. Los mejores resultados se dan cuando los elementos de dentro de cada estrato son lo mas similares posibles, después se toma una muestra aleatoria simple dentro de cada estrato

Afijación proporcional : el número de elementos elegidos en cada estrato es proporcional al tamaño del estrato Afijación fija: el número de elementos elegidos en cada estrato es el mismo

Cuando no están identificados todos los individuos: Muestreo por CONGLOMERADOS Se pretende que cada conglomerado represente a la población (heterogeneidad dentro del conglomerado). Se toma una muestra aleatoria simple de los conglomerados y los elementos de los conglomerados elegidos formarían la muestra. Los conglomerados pueden ser las áreas geográficas en las que se divide la población analizada (países, comunidades autónomas, municipios, distritos, etc.) también pueden ser organizaciones o instituciones (colegios, hospitales, etc.)

Muestreo polietápico por Conglomerados. Cuando a partir de una muestra de conglomerados se extrae una nueva muestra dentro de cada conglomerado.

Muestreos no aleatorios :

Opinático (por criterios subjetivos en función de la investigación)

Por cuotas, cuando se facilita al encuestador el perfil de las personas a entrevistar: x% hombres, y % mujeres.

Por itinerarios: cuando se facilita al encuestador el itinerario a seguir para encontrar a las personas a entrevistar.

INFERENCIA ESTADÍSTICA

Las medidas de centralización, dispersión etc., de las poblaciones se llaman PARÁMETROS^ y se suelen representar con letras griegas. Las mismas medidas calculadas sobre las muestras se llaman ESTADÍSTICOS y se representas con letras latinas.

Los estimadores puntuales sólo dan una idea aproximada del verdadero valor del parámetro a estimar, pero nunca se sabe cómo de buena es la aproximación obtenida. Recordar que cada muestra da lugar a un estimador puntual.

Recordemos que la distribución de las medias muestrales sigue una N ( μ, σ / F 0D 6n ) Sabemos que el mejor estimador de μ (media de la población) es la media de la muestra F 07 8 , que como ya dijimos sigue una distribución N( μ , σ/ F 0D 6n )

Y al tipificarla (x - μ )/ (σ / F 0D 6n) = z = N ( 0,1)

Llamaremos 1 – α al nivel de confianza con el que deseamos trabajar.

Representaremos por z (^) α/2 el valor de la abscisa de la distribución N(O,1) que deja a su izquierda un área igual a α /

Se cumple que _ P( – zα/2 F 09 3 (X -^ μ) /(σ^ /^ F 0D 6n)^ F 09 3 + zα/2 ) = 1 –^ α Multiplicando por (σ / F 0D 6n) llegaremos a _ P( – zα/2(σ^ /^ F 0D 6n)^ F 09 3 (X -^ μ)^ F 09 3 + zα/2 (σ^ /^ F 0D 6n) = 1 –^ α Sumando ( μ ) se obtiene _ P( μ – zα/2 (σ / F 0D 6n) F 09 3 X F 09 3 μ + zα/2 (σ / F 0D 6n) ) = 1 – α

Pero lo desconocido es μ (media de la población) y lo que obtengo de la muestra es F 07 8 , vamos a transformar el intervalo de probabilidad (centrado en X) en un intervalo de confianza (centrado en μ);Restando μ queda: P( – z α/2 σ/^ F 0D 6n^ F 09 3^ F 07 8 -^ μ^ F 09 3 + z^ α/2 σ/^ F 0D 6n) = 1 –^ α Restando F 07 8 queda

P(– F 07 8 - zα/2 σ/^ F 0D 6n^ F 09 3 -^ μ^ F 09 3 -^ F 07 8 + zα/2 σ/^ F 0D 6n) = 1 –^ α

Multiplicando por (-1), cambiará el sentido de la desigualdad P( F 07 8 + zα/2 σ/^ F 0D 6n^ ≥^ μ^ ≥^ F 07 8 - z^ α/2 σ/^ F 0D 6n) = 1 –^ α O sea: P( F 07 8 - zα/2 σ/ F 0D 6n F 09 3 μ F 09 3^ F 07 8 + zα/2 σ/ F 0D 6n) = 1 – α

Así tengo a la media de la población dentro de un intervalo construido a partir de la media obtenida de la muestra. Es el intervalo de confianza para la media poblacional A 1 – α se le llama nivel de confianza y a α nivel de significación

Normalmente σ es desconocida por lo que se suele usar s

A s/ F 0D 6n^ se le llama error típico o error estándar de la media

Error admitido (E) y tamaño de la muestra (n)

El radio del intervalo de confianza es zα/2 σ/ F 0D 6n y esta cantidad es el máximo error admitido E=z (^) α/2 σ/ F 0D 6n De aquí se puede obtener el tamaño de la muestra para errores prefijados F 0 D 6n =^ zα/2^ σ/E^ ⇒^ n = (^ zα/2^ σ/E )^2 De forma similar se pueden definir intervalos de confianza para otros parámetros estadísticos. El intervalo de confianza para la proporción es ( p - zα/2 F 0D 6pq/n^ , p zα/2 +^ F 0D 6pq/n );^ el error es^ E =^ z^ α/2 F 0D 6pq/n E 2 = ( zα/2 )^2 pq/n ⇒ n = ( zα/2 )^2 (pq/E 2 )

Problemas de intervalos de confianza :

Se elige una muestra de 36 estudiantes y la media de sus pesos resulta ser 61´25 y su desviación típica s=10´41. Calcular el intervalo de confianza para la media de la población al 95%. Solución : (57´85 , 64´65)
Se selecciona aleatoriamente una muestra de 500 estudiantes de la ESO y se les pregunta si han usado INTERNET alguna vez, contestando afirmativamente 225. ¿Cuál es el intervalo de confianza de la proporción de alumnos que han usado alguna vez Internet con un nivel de confianza del 95%?. Solución (0´407 , 0´493 )

a) Especifiquen un valor concreto o un intervalo para un parámetro de la variable estudiada.

b) Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o

mas poblaciones.

Hipótesis Nula (H 0 ) e Hipótesis Alternativa (H 1 ) Llamamos hipótesis nula a la Hipótesis que se quiere contrastar y que puede ser rechazada como consecuencia de los resultados proporcionados por los datos de la muestra. Si rechazamos la hipótesis nula (H 0 ) estamos implícitamente aceptando la hipótesis alternativa (H 1 ) Cuando se decide aceptar o rechazar una hipótesis nula se pueden cometer dos tipos de errores: rechazarla siendo cierta (error de tipo I) aceptarla siendo falsa (error tipo II). Se llama nivel de significación (α) de un contraste de hipótesis a la probabilidad de cometer un error del tipo I. El nivel de significación lo fija el investigador antes de realizar el contraste. En ciencias sociales α suele ser 0,05 o 0,

Para realizar un contraste de Hipótesis se suele definir una medida de discrepancia entre los datos muestrales y la hipótesis nula. Esta discrepancia dependerá de la diferencia entre el valor del parámetro especificado por H 0 y el valor del estimador calculado en la muestra y para que esta diferencia no dependa de las unidades de medida se le suele dividir por su valor promedio, que es el error típico de la estimación del parámetro.

Fases en la realización de un contraste de hipótesis.

Definir la hipótesis nula (H 0 )^ a contrastar y la hipótesis alternativa^ (H 1 )
1. Definir una medida de la discrepancia entre los datos muestrales y la Hipótesis nula
2. Calcular qué discrepancias son esperables si (H 0 )^ es cierta (error relativo de la estimación)
Fijar el mínimo p-valor admisible para no rechazar (H 0 ) ,^ a este valor se le llama nivel de significación. Al fijar esta cantidad queda definida una región de rechazo o región critica, que es el conjunto de valores de la discrepancia para los que se rechaza (H 0 ).^ El nivel de significación es la probabilidad de rechazar la Hipótesis nula, siendo cierta. Normalmente se fija en 0,05 o 0,
Tomar la muestra y juzgar la discrepancia observada mediante el p-valor. Si este es menor que el nivel de significación se debe rechazar (H 0 ).^ En caso contrario se acepta^ H 0

Problemas de Test de hipótesis

Una empresa está interesada en conocer el tiempo medio que sus trabajadores permanecen en ella, antes de irse a otra empresa. Pare ello toma una muestra de 64 trabajadores y en ella el tiempo medio es 5 años y la desviación típica 4 años. Considerando un nivel de significación de 0,05. ¿Sirven estos datos para afirmar que el tiempo medio de empleo en esa empresa está por debajo de 6 años?. Se supone que la distribución es normal. Paso 1. H 0 :^ μ^ > 6^ H 1 :^ μ^ < 6

Paso 2. La prueba es de una sola dirección (unilateral), para un nivel de significación de =,05 le corresponderá un valor crítico Z (^) α = -1,645, que separa las regiones de aceptación y rechazo.

Pasos 3 y 4. La distribución de referencia es normal por lo que tipificando: _ _ Z = (x - μ ) / σ , siendo x = 5, μ = 6 y σ (^) x =(4 / √64)=0, Z= (5-6)/0,5 = -

Paso 5. Como La abcisa -1,645 define la zona de rechazo y -2 está en esa zona de rechazo habrá que rechazar la hipótesis nula y aceptar la hipótesis alternativa: "el tiempo medio de permanencia en la empresa es inferior a los 6 años.

Esta decisión también se puede tomar en términos de probabilidad. Puesto que la probabilidad de encontrar un z inferior a -2 o inferior es: P(z < -2) = 0,0228 y como 0,0228 < 0,05, esto es la probabilidad calculada es menor que el nivel de significación, habrá que rechazar la hipótesis nula.

EL tiempo medio empleado en realizar un ejercicio propuesto por una profesora de la facultad a una muestra de 100 estudiantes es de 1570 segundos, con una desviación típica de 120 segundos. Si μ fuera la media de todos los ejercicios propuestos por esa profesora. Contrasta de hipótesis de que μ = 1600 contra la hipótesis alternativa μ ≠ 1600 con un nivel de significación de 0,

Paso 1. H 0 :^ μ^ = 1600,^ H^1 :^ μ^ ≠^1600 Paso 2. La prueba es bilateral al nivel de significación 0,05 le corresponde un valor crítico de 1 ´96, que separa las zonas de rechazo y aceptación Pasos 3 y 4. La distribución de las medias muestrales es N(μ , σ / √n) En este caso N( 1600, 120/10) = N(1600, 12) _ La variable tipificada z = ( x - 1600)/12 sigue una N(0,1) EL intervalo de confianza será (1600 - 1´96 * 12 , 1600 + 1´96 * 12 ) = ( 1576´48 , 1623`52) Paso 5. Para tomar la decisión veamos si la media de la muestra pertenece al intervalo de confianza y como 1570 cae fuera del intervalo de confianza debemos rechazar la hipótesis nula y aceptar la Hipótesis alternativa de que la media es diferente a 1600.

Estadística bidimensional o bivariable

La ESTADÍSTICA BIDIMENSIONAL^ estudia las relaciones entre dos variables. A veces cada observación está formada por los datos de mas de una variable. Además de estudiar cada variable por separado podemos estudiar las relaciones entre ellas. Nos centraremos en el caso mas sencillo: el estudio de parejas de variables.

TABLAS DE DOBLE ENTRADA Tabla de distribución conjunta de frecuencias absolutas

Y X d 1 d 2 d 3 .... dm-1 d (^) m

Con f .j se representa la marginal de la segunda variable y ahora el punto indica que hemos sumado los valores de primera variable manteniendo fijo el valor j de la primera.

m k f (^) i. = F 0E 5 f (^) i j f (^). j = F 0E 5 f (^) i j j=1 i= Ejemplo de distribución de frecuencias absolutas

EDC Sitprof 1 2 3 4 5 6 1 2 2 17 1 0 1 23 2 2 9 31 1 1 4 48 3 1 0 0 0 0 0 1 4 0 1 1 1 0 0 3 5 12 49 3 1 5 75

EDC= educación (1=analfabetos, 2 sin=estudios, 3= con estudios primarios; 4 con bachillerto, 5 Estudios Univ. Grado medio, 6= estudios Univ grado superior) sitprof= situación profesional (1=patrono o profesional con empleados, 2=empresario o profesional sin empleados, 3=persona a sueldo con carácter fijo, 4= empleado eventual a sueldo)

Ejemplo de distribución de frecuencias relativas fi j = ni j / N

EDC

Sitprof 1 2 3 4 5 6 1 0,027 0,027 0,227 0,013 0 0,013 0, 2 0,013 0,12 0,413 0,013 0,013 0,053 0, 3 0,013 0 0 0 0 0 0, 4 0 0,013 0,013 0,013 0 0 0, 0,067 0,160 0,653 0,040 0,013 0,067 1

Distribuciones condicionadas

Si estamos interesados en conocer la distribución de una variable (sitprof, situación profesional) dentro de las personas de un determinado nivel educativo, por ejemplo "sin estudios" Cuando EDC=2. Estamos buscando la situación profesional dentro del grupo de los que no tienen estudios, a esa distribución se la llama distribución condicionada de la variable sitprof por el valor "sin estudios" de la variable EDC

Frecuencias de la situación profesional condicionadas por sin estudios (2) en EDC

Sitprof Sin estudios (2) f (^) i /

1 2 2/12= 0,

Frecuencias de EDC (Educación) condicionadas por la situación profesional (1) patrono o profesional con empleados

EDC 1(patrono) f (^) 1 /j 1 2 2/23=0, 2 2 2/23=0, 3 17 17/23=0, 4 1 1/23= 0, 5 0 0/23= 6 1 1/23=0, ∑ 23 1

La distribución conjunta es la que contiene toda la información sobre las dos variables, pero las distribuciones condicionadas resultan útiles para estudiar la relación entre las dos variables. Un caso interesante es cuando las distribuciones de una variable condicionadas por los diferentes valores de la otra son iguales y además coinciden con la distribución marginal. Este hecho indica que las variables no están relacionadas, son independientes.

Supongamos queremos ver si hay relación entre los resultados de un test de inteligencia y el rendimiento en un trabajo después de haber realizado un curso de capacitación. La tabla siguiente da las frecuencias observadas de las variables CI (coeficiente de inteligencia) y RT (rendimiento en el trabajo)

RT Mal Regular Bien Total CI Bajo 67 (46,4)

Medio 42 76 56 174 Alto 10 23 37 70 Total 119 163 118 400

Si se supone que las variables no están relacionadas se pueden calcular las frecuencias esperadas. Con la siguiente regla: La frecuencia esperada de una celda cualquiera se calcula multiplicando el total de su fila por el total de su columna y dividiendo el resultado entre el total de toda la tabla. Así salen los números entre paréntesis

Contraste de la independencia de dos variables mediante el test F 06 3^2 de Pearson (chi-cuadrado)

A 26 55 19 B 24 118 58 C 20 112 68

Para evitar arbitrariedades se ha decidido que cada examen de una asignatura sea corregido por 4 profesores diferentes y ninguno de ellos hace anotaciones en los exámenes. Los resultados obtenidos son: Profesores / notas Aprobados Suspensos A 68 57 B 90 60 C 70 30 D 120 30 AL nivel de significación del 0`05 podemos concluir que existe una diferencia significativa en el sistema de calificación de estos profesores?
Queremos saber si las notas obtenidas por alumnos y alumnas son significativamente diferentes al nivel 5%. Los datos son:

Notas / Sexo Alumnos alumnas Aprobado 30 40 Suspenso 10 20

En una facultad se ha preguntado a los estudiantes de los distintos cursos las horas que dedican al estudio cada día cuando no es época de exámenes y los resultados se muestran en la siguiente tabla:

Tiempo/curso 1º 2º 3º 4º 5º Menos de 1 hora 18 20 32 77 96 Entre 1 hora y 3 horas 22 35 90 83 50 Más de 3 horas 60 70 80 60 14

Se pide contrastar la hipótesis de independencia del curso y el tiempo dedicado al estudio al nivel 0´05.

Nubes de puntos

Un DIAGRAMA DE DISPERSIÓN sirve para mostrar las relaciones entre dos variables cuantitativas medidas para los mismos individuos. Cada individuo viene representado mediante un punto del plano, cuyas coordenadas son los valores que toma el individuo para cada una de las variables. En el eje X se suele representar la v. Independiente y en el eje Y la dependiente. El aspecto general del DIAGRAMA DE DISPERSIÓN debe revelar la dirección, la forma y la fuerza de la relación.

ASOCIACIÓN POSITIVA Y ASOCIACIÓN NEGATIVA

Dos variables están asociadas positivamente (relación directa) cuando valores superiores (inferiores) al promedio de una de ellas tienden a acompañar a valores superiores (inferiores) de la otra. Dos variables están asociadas negativamente^ (relación inversa)^ cuando valores superiores (inferiores) al promedio de una de ellas tienden a acompañar a valores inferiores (superiores) de la otra.

Relación lineal

La COVARIANZA es un parámetro estadístico conjunto de las dos variables estudiadas, se representa por s xy _ ∑(x (^) i – F 07 8) (y (^) i – y) ∑ x (^) i y (^) i _ (^) _____

s x y = ------------------------ = ---------- - F 07 8 y

n n

el denominador será n-1 cuando se trabaja con muestras en estadística inferencial , en ese caso sólo es válida la primera fórmula

sxy > 0 relación directa s (^) xy < 0 relación inversa

Valores grandes de s (^) xy advierten que la relación entre las variables puede ser fuerte. La covarianza depende de las unidades de medida, para evitar este problema se usa el coeficiente de correlación lineal

r = s xy / (sx sy)

r > 0 correlación directa; r < 0 correlación inversa r varía entre –1 y +1 ; |r| =1 correlación perfecta SI r es cercano a –1 la correlación es fuerte e inversa Si r es cercano a +1 la correlación es fuerte y directa Si r es cercano a 0 la correlación es débil.

COEFICIENTE DE DETERMINACIÓN

Cuando r es cercano a +1 o a –1 la correlación lineal es fuerte. Los cambios en la variable Y se explican en gran medida por los cambios de la variable X. Se pueden estimar valores de Y a