





















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Resumenes Estadistica Superior
Tipo: Esquemas y mapas conceptuales
1 / 29
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!






















Problemas de aprendizaje estadístico Aprendizaje supervisado. Tiene entradas y salidas y quiere predecir y entender. ● Medición de resultados Y (también llamada variable dependiente, respuesta, objetivo) ● Vector p de mediciones predictoras X (también llamadas entradas, regresores, covariables, características, variables independientes). ● En el problema de regresión, Y es cuantitativo (por ejemplo, precio, presión arterial). ● En el problema de clasificación, Y toma valores en un conjunto finito y desordenado (sobrevivido/fallecido, dígito de 0-9, clase de cáncer de la muestra de tejido). ● Tenemos datos de aprendizaje (training data) (x1,y1),...,(xN,yN). Datos a partir de los que estimamos el modelo. Estas son observaciones (ejemplos, instancias) de estas mediciones. Objetivos ● Sobre la base de los datos de aprendizaje (training data), nos gustaría: ● Predecir con precisión casos de prueba invisibles. ● Comprender qué aportes afectan el resultado y cómo. Es decir a partir de x comprender el comportamiento de la Y ● Evaluar la calidad de nuestras predicciones e inferencias. En resumen entender y predecir. Filosofía ● Es importante entender las ideas detrás de las diversas técnicas, para saber cómo y cuándo usarlas. ● Tenemos que entender primero los métodos más simples, para comprender los más sofisticados. ● Es importante evaluar con precisión el rendimiento de un método, saber qué tan bien o qué tan mal está funcionando [los métodos más simples a menudo funcionan tan bien como los más elegantes] ● Este es un área de investigación emocionante, que tiene importantes aplicaciones en ciencia, industria y finanzas. ● El aprendizaje estadístico es un ingrediente fundamental en la formación de un científico de datos moderno. Aprendizaje no supervisado ● Sin variable de resultado, solo un conjunto de predictores (características) medidos en un conjunto de muestras. ● El objetivo es más difuso: encontrar grupos de muestras que se comporten de manera similar, encontrar características que se comporten de manera similar, encontrar combinaciones lineales de características con la mayor variación. ● Es difícil saber si lo estamos haciendo bien. ● Diferente del aprendizaje supervisado, pero puede ser útil como paso de pre-procesamiento para el aprendizaje supervisado.
Aprendizaje estadístico (statistical learning) vs. Aprendizaje automático (machine learning) ● El aprendizaje automático surgió como un subcampo de la Inteligencia Artificial. ● El aprendizaje estadístico surgió como un subcampo de la estadística. ● Hay mucha superposición: ambos campos se centran en problemas supervisados y no supervisados: ● El aprendizaje automático tiene un mayor énfasis en las aplicaciones a gran escala y la precisión de la predicción. ● El aprendizaje estadístico enfatiza los modelos y su interpretabilidad, y precisión e incertidumbre. ● Pero la distinción se ha vuelto cada vez más borrosa, y hay una gran cantidad de "fertilización cruzada". ● ¡El aprendizaje automático tiene la ventaja en marketing!
Los inputs (X) normalmente serán vectores columna, de forma que el modelo dependerá de f(x) + e donde e son los errores que no se puedes explicar por el modelo. ¿Para qué sirve f(X)? La x sirve para la predicción y para la inferencia. Para predecir y para inferencia, es decir comprender el funcionamiento de la situación que se está estudiando.
mejor modelo es el que comete menos errores, y g(x) es la que minimiza los errores para todos los valores de x. ε = Y − f(x) es el error irreductible, es decir, incluso si supiéramos f(x), todavía cometeríamos errores en la predicción, ya que en cada X = x suele haber una distribución de posibles valores Y. La esperanza del error al cuadrado es el valor reducible mas el error irreducible. Error reducible es el que se puede mejorar y reducir más. Cómo estimar f Por lo general, tenemos pocos o ningún punto de datos con X = 4 exactamente. ¡Así que no podemos calcular E(Y |X = x)! “Relaje” la definición y deje: Donde N (x) es algún vecindario de x. Si no hay valores exactos para una x, cojo sus vecinos (N(x)) y hago la media para asignar un valor de Y para esa x El promedio del vecino más cercano puede ser bastante bueno para p pequeño, es decir, p ≤ 4 y N grande. Esto funciona para p pequeños, es decir para espacios de predicción reducidas y para N grandes, pero si la dimensión es mayor esto deja de funcionar.
Modelos paramétricos y estructurados otra clasificación de los modelos:
1. RELACIÓN DE INTERCAMBIO QUE DIFICULTA LA ELECCIÓN DEL MEJOR MODELO. Precisión de predicción versus interpretabilidad. — Los modelos lineales son fáciles de interpretar; los splines de placa delgada no lo son.
En su lugar, deberíamos, si es posible, calcularlo utilizando nuevos datos de prueba En la medición se mide la realidad mas el ruido. Por lo que hay que descubriri el modelo (curva negra).
observamos que se ajusta mal a la verdadera f (se muestra en negro) porque es demasiado meneada. Al ajustar el nivel de flexibilidad del ajuste de la spline de suavizado, podemos producir muchos ajustes diferentes a estos datos. Pasamos ahora al panel derecho de la Figura 2.9. La curva gris muestra el MSE de entrenamiento promedio en función de la flexibilidad, o más formalmente los grados de libertad, para una serie de splines suavizantes. Los grados de libertad son una cantidad que resume la flexibilidad de una curva; Se discute más a fondo en el capítulo 7. Los cuadrados naranja, azul y verde indican las MSEs asociadas con las curvas correspondientes en el panel izquierdo. Una curva más restringida y, por lo tanto, más suave tiene menos grados de libertad que una curva meneada; tenga en cuenta que en la Figura 2.9, la regresión lineal está en el extremo más restrictivo, con dos grados de libertad. El MSE de entrenamiento disminuye monótonamente a medida que aumenta la flexibilidad. En este ejemplo, la verdadera f no es lineal, por lo que el ajuste lineal naranja no es lo suficientemente flexible como para estimar bien f. La curva verde tiene el MSE de entrenamiento más bajo de los tres métodos, ya que corresponde a la más flexible de las tres curvas que se ajustan al panel izquierdo. En este ejemplo, conocemos la verdadera función f, por lo que también podemos comunicar el MSE de prueba en un conjunto de pruebas muy grande, en función de la flexibilidad. (Por supuesto, en general se desconoce f, por lo que esto no será posible). El MSE de prueba se muestra utilizando la curva roja en el panel derecho de la Figura 2.9. Al igual que con el MSE de entrenamiento, el MSE de prueba disminuye inicialmente a medida que aumenta el nivel de flexibilidad. Sin embargo, en algún momento el MSE de prueba se nivela y luego comienza a aumentar de nuevo. En consecuencia, las curvas naranja y verde tienen una prueba MSE alta. La curva azul minimiza el MSE de prueba, lo que no debería sorprender dado que visualmente parece estimar lo mejor en el panel izquierdo de la Figura 2.9. La línea discontinua horizontal indica Var(ε), el error irreductible en (2.3), que corresponde al MSE de prueba más bajo posible entre todos los métodos posibles. Por lo tanto, la spline suavizante representada por la curva azul está cerca de ser óptima. En el panel derecho de la Figura 2.9, a medida que aumenta la flexibilidad del método de aprendizaje estadístico, observamos una disminución monótona en el MSE de entrenamiento y una forma de U en la prueba MSE. Esta es una propiedad fundamental del aprendizaje estadístico que se mantiene independientemente del conjunto de datos particulares en cuestión e independientemente del método estadístico que se utilice. A medida que aumente la flexibilidad del modelo, el MSE de entrenamiento disminuirá, pero es posible que el MSE de prueba no lo haga. Cuando un método dado produce un pequeño MSE de entrenamiento pero un MSE de prueba grande, se dice que estamos sobreadaptando los datos. Esto sucede porque nuestro procedimiento de aprendizaje estadístico está trabajando demasiado duro para encontrar patrones en los datos de entrenamiento, y puede estar recogiendo algunos patrones que solo son causados por el azar en lugar de por las verdaderas propiedades de la función desconocida f. Cuando sobreadaptamos los datos de entrenamiento, el MSE de prueba será muy grande porque los supuestos patrones que el método encontró en los datos de entrenamiento simplemente no existen en los datos de prueba. Tenga en cuenta que, independientemente de si se ha producido o no un sobreajuste, casi siempre esperamos que el MSE de entrenamiento sea más pequeño que el MSE de prueba porque la mayoría de los métodos de aprendizaje estadístico buscan directa o indirectamente minimizar el MSE de entrenamiento. El sobreajuste se refiere específicamente al caso en el que un modelo menos flexible habría producido un MSE de prueba más pequeño. La Figura 2.10 proporciona otro ejemplo en el que la verdadera f es aproximadamente lineal. Una vez más observamos que el MSE de entrenamiento disminuye monótonicamente a medida que aumenta la flexibilidad del modelo, y que hay una forma de U en el MSE de prueba. Sin embargo, debido a que la verdad es casi lineal, el MSE de prueba solo disminuye ligeramente antes de aumentar de nuevo, de modo que el ajuste de mínimos cuadrados naranjas es sustancialmente mejor que la curva verde altamente flexible. Aquí la verdad es más suave, por lo que el ajuste más suave y el modelo lineal lo hacen muy bien. Los detalles son como en la Figura 2.9, usando una f verdadera diferente que está mucho más cerca de la lineal. En esta configuración, la regresión lineal proporciona un muy buen ajuste a los datos.
Coincidencia Sesgo-Variancia Supongamos que hemos ajustado un modelo f(x) con sombrero a algunos datos de entrenamiento TR, y sea (X0, Y0) una observación de prueba extraída de la población. Si el verdadero modelo es entonces: La forma de U observada en las curvas MSE de prueba (Figuras 2.9–2.11) resulta ser el resultado de dos propiedades en competencia de los métodos de aprendizaje estadístico. Aunque la prueba matemática está más allá del alcance de este libro, es posible mostrar que el MSE de prueba esperado, para un valor dado x0, puede descomponerse siempre en la suma de tres cantidades fundamentales: la varianza de f(x0), el sesgo al cuadrado de f(x0) y la varianza del error e. Es decir: La ecuación nos dice que para minimizar el error de prueba esperado, Necesitamos seleccionar un método de aprendizaje estadístico que al mismo tiempo logre una baja variación y un sesgo bajo. Tenga en cuenta que la varianza es inherentemente una cantidad no negativa, y el sesgo al cuadrado tampoco es negativo. Por lo tanto, vemos que el MSE de prueba esperado nunca puede estar por debajo de Var(ε), el error irreductible de (2.3). Como regla general, a medida que usemos métodos más flexibles, la variación aumentará y el sesgo disminuirá. La tasa relativa de cambio de estas dos cantidades determina si el MSE de prueba aumenta o disminuye. A medida que aumentamos la flexibilidad de una clase de métodos, el sesgo tiende a disminuir inicialmente más rápido de lo que aumenta la variación. En consecuencia, el MSE de prueba esperado
disminuye. Sin embargo, en algún momento el aumento de la flexibilidad tiene poco impacto en el sesgo, pero comienza a aumentar significativamente la variación. Cuando esto sucede, el MSE de prueba aumenta. Tenga en cuenta que observamos este patrón de disminución del MSE de prueba seguido de un aumento del MSE de prueba en los paneles derecho de las Figuras 2.9-2.11. Sesgo cuadrado (curva azul), varianza (curva naranja), Var(ε) (línea discontinua) y prueba MSE (curva roja) para los tres conjuntos de datos en las Figuras 2.9-2.11. La línea vertical punteada indica el nivel de flexibilidad correspondiente al MSE de prueba más pequeño. Las tres gráficas de la Figura 2.12 ilustran la Ecuación 2.7 para los ejemplos de las Figuras 2.9-2.11. En cada caso, la curva sólida azul representa el sesgo cuadrado, para diferentes niveles de flexibilidad, mientras que la curva naranja corresponde a la varianza. La línea discontinua horizontal representa Var(ε), el error irreductible. Finalmente, la curva roja, correspondiente al conjunto de pruebas MSE, es la suma de estas tres cantidades. En los tres casos, la variación aumenta y el sesgo disminuye a medida que aumenta la flexibilidad del método. Sin embargo, el nivel de flexibilidad correspondiente al MSE de prueba óptimo difiere considerablemente entre los tres conjuntos de datos, porque el sesgo cuadrado y la variación cambian a diferentes velocidades en cada uno de los conjuntos de datos. En el panel izquierdo de la Figura 2.12, el sesgo disminuye inicialmente rápidamente, lo que resulta en una fuerte disminución inicial en el MSE de prueba esperado. Por otro lado, en el panel central de la Figura 2.12 la f verdadera es casi lineal, por lo que solo hay una pequeña disminución del sesgo a medida que aumenta la flexibilidad, y el MSE de prueba solo disminuye ligeramente antes de aumentar rápidamente a medida que aumenta la varianza. Finalmente, en el panel derecho de la figura 2.12, a medida que aumenta la flexibilidad, hay una disminución dramática del sesgo porque la verdadera f es muy no lineal. También hay muy poco aumento en la variación a medida que aumenta la flexibilidad. En consecuencia, el MSE de prueba disminuye sustancialmente antes de experimentar un pequeño aumento a medida que aumenta la flexibilidad del modelo. En una situación de la vida real en la que f no se observa, generalmente no es posible calcular explícitamente la prueba MSE, el sesgo o la varianza para un método de aprendizaje estadístico. Sin embargo, siempre se debe tener en cuenta la compensación sesgada-varianza. En este libro exploramos métodos que son extremadamente flexibles y, por lo tanto, esencialmente pueden eliminar los prejuicios. Sin embargo, esto no garantiza que superen a un método mucho más simple, como la regresión lineal. Para tomar un ejemplo extremo, supongamos que la verdadera f es lineal. En esta situación, la regresión lineal no tendrá sesgo, lo que dificultará mucho que compita un método más flexible. Por el contrario, si la verdadera f es altamente no lineal y tenemos un amplio número de observaciones de entrenamiento, entonces podemos hacerlo mejor utilizando un enfoque altamente flexible, como en la Figura 2.11. En el capítulo 5 discutimos la validación cruzada, que es una forma de estimar el MSE de prueba utilizando los datos de entrenamiento. La expectativa promedia sobre la variabilidad de Y0 así como la variabilidad en Tr. Tenga en cuenta que el sesgo: Por lo general, a medida que aumenta la flexibilidad de f, aumenta su varianza y disminuye su sesgo. Por lo tanto, elegir la flexibilidad basada en el error de prueba promedio equivale a una compensación de sesgo-varianza. Varianza + sesgo. Cuando disminuye el sesgo aumenta la varianza y al revés. en este caso queremos disminuir los dos, sabiendo eso, pero no varían en la misma proporción pero varían en sentido opuesto.
El promedio del vecino más cercano se puede utilizar como antes. También se descompone a medida que crece la dimensión. Sin embargo, el impacto en Cˆ(x) es menor que en pˆk(x), k = 1,...,K_._ Si no hay para un valor de X casos cogemos las Y más cercanas y le asignamos la media. Clasificación: algunos detalles Por lo general, medimos el rendimiento de Cˆ(x) utilizando la tasa de error de clasificación errónea: El clasificador Bayes (utilizando el verdadero pk(x)) tiene el más pequeño error (en la población). Las máquinas vector de soporte construyen modelos estructurados para C(x). También construiremos modelos estructurados para representar el pk(x). ej. Regresión logística, modelos aditivos generalizados.
3.Regresión Lineal La regresión lineal es un enfoque simple supervisado. Asume que la dependencia de Y en X1, X2,….Xp es linear. Se trata de aprendizaje supervisado. ¡Las verdaderas funciones de regresión nunca son lineales! Aunque pueda parecer demasiado simplista, la regresión lineal es extremadamente útil tanto conceptual como prácticamente. Regresión lineal para los datos publicitarios Considere los datos publicitarios que se muestran en la siguiente diapositiva. Problemas típicos de un modelo de regresión. ● ¿Existe una relación entre el presupuesto publicitario y las ventas?
Las ecuaciones que minimizan el RSS son: siendo las medias muéstrales. Precisión de los coeficientes de regresión Para estimar cómo de precisos son nuestros estimadores β0^ y β1^ y como, de media, difieren del valor de los verdaderos valores de los parámetros β 0 y β1, calculamos el error estándar (SE) asociado con β0^ y β1^: Error estándar de la estimacion donde La varianza del error ϵ es en general desconocida, pero se puede estimar a partir de los datos. Esta estimación es conocida como el error estándar de los residuos (RSE) , que no es más que la raíz cuadrada de la media de la suma de los residuos al cuadrado: RSE nos dará una estimación sobre la desviación promedio de cualquier punto respecto a la verdadera recta de regresión, o lo que es lo mismo, estima la desviación estándar de ϵ. RSE se divide entre los grados de libertad del modelo n– 2 (perdemos dos grados de libertad porque estimamos dos parámetros) para hacer este estimador insesgado. Estos errores estándar se pueden utilizar para calcular intervalos de confianza. Un intervalo de confianza del 95% se define como un rango de valores de tal manera que con un 95% de probabilidad, el rango contendrá el verdadero valor desconocido del parámetro. Tiene la forma:
Intervalo de confianza (CI) Es decir, hay aproximadamente un 95 % de probabilidad de que el intervalo Contendrá el valor real de β 1 (bajo un escenario en el que obtuvimos muestras repetidas como la muestra actual). Para los datos publicitarios, el intervalo de confianza del 95% para β1 es [0,042, 0,053] A partir del cálculo del error estándar, podemos obtener los intervalos de confianza para cada uno de los estimadores. Un intervalo de confianza del 95% se definiría como el rango de valores tales que con un 95% de probabilidad, dicho rango contendría el verdadero parámetro poblacional desconocido. TEST DE HIPÓTESIS El error estándar también puede usarse para llevar a cabo un test de hipótesis sobre los parámetros del modelo. El más común establece que: H0 : β 1 = 0 (no existe relación entre X e Y) Ha : β 1 ≠ 0 (existe alguna relación entre X e Y) Para comprobar la hipótesis nula, necesitamos determinar si β1^ se aleja lo suficientemente de 0. La precisión con la que podemos determinar esto dependerá del SE(β1). Para ello llevamos a cabo un t-test, calculando el estadístico t, el cual mide el número de desviaciones estándar que el estimador β1^ y β1^ están del valor 0, y por último obtenemos el p-valor: Si el p-valor es menor que el nivel de significación establecido, podemos deducir que hay una relación entre el predictor y la variable respuesta. Coeficiente de determinación R El coeficiente de determinación R2 constituye una alternativa al RSE. Toma un valor correspondiente a la proporción de variabilidad en Y explicada por el modelo en relación a la variabilidad total. Al corresponder a una proporción, tomará valores entre 0 y 1. Para calcular esta proporción, utilizamos la fórmula: