Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Resumenes Estadistica superior, Esquemas y mapas conceptuales de Estadística

Universidad Rey Juan Carlos (URJC)Estadística

Resumenes Estadistica Superior

Tipo: Esquemas y mapas conceptuales

2022/2023

Subido el 27/02/2023

alissonxo 🇪🇸

2 documentos

1 / 29

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Introducción

Problemas de aprendizaje estadístico

Aprendizaje supervisado.

Tiene entradas y salidas y quiere predecir y entender.

●Medición de resultados Y (también llamada variable dependiente, respuesta, objetivo)

●Vector p de mediciones predictoras X (también llamadas entradas, regresores, covariables,

características, variables independientes).

●En el problema de regresión, Y es cuantitativo (por ejemplo, precio, presión arterial).

●En el problema de clasificación, Y toma valores en un conjunto finito y desordenado

(sobrevivido/fallecido, dígito de 0-9, clase de cáncer de la muestra de tejido).

●Tenemos datos de aprendizaje (training data) (x1,y1),...,(xN,yN). Datos a partir de los que

estimamos el modelo. Estas son observaciones (ejemplos, instancias) de estas mediciones.

Objetivos

●Sobre la base de los datos de aprendizaje (training data), nos gustaría:

●Predecir con precisión casos de prueba invisibles.

●Comprender qué aportes afectan el resultado y cómo. Es decir a partir de x comprender el

comportamiento de la Y

●Evaluar la calidad de nuestras predicciones e inferencias.

En resumen entender y predecir.

Filosofía

●Es importante entender las ideas detrás de las diversas técnicas, para saber cómo y cuándo usarlas.

●Tenemos que entender primero los métodos más simples, para comprender los más sofisticados.

●Es importante evaluar con precisión el rendimiento de un método, saber qué tan bien o qué tan mal

está funcionando [los métodos más simples a menudo funcionan tan bien como los más elegantes]

●Este es un área de investigación emocionante, que tiene importantes aplicaciones en ciencia,

industria y finanzas.

●El aprendizaje estadístico es un ingrediente fundamental en la formación de un científico de datos

moderno.

Aprendizaje no supervisado

●Sin variable de resultado, solo un conjunto de predictores (características) medidos en un conjunto

de muestras.

●El objetivo es más difuso: encontrar grupos de muestras que se comporten de manera similar,

encontrar características que se comporten de manera similar, encontrar combinaciones lineales de

características con la mayor variación.

●Es difícil saber si lo estamos haciendo bien.

●Diferente del aprendizaje supervisado, pero puede ser útil como paso de pre-procesamiento para el

aprendizaje supervisado.

Descubre Esquemas y mapas conceptuales de Estadística Universidad Rey Juan Carlos (URJC)

Documentos relacionados

Estadistica superior

(2)

Resúmenes Estadística

Apuntes de estadistica superior Economia urjc

(2)

Resumenes de temas de estadistica

estadistica

(2)

estadistica

(7)

estadistica

Resúmenes Matemáticas 2 Resúmenes Matemáticas 2

estadística empresarial

Estadística descriptiva

Estadística bidimensional

(1)

Vista previa parcial del texto

¡Descarga Resumenes Estadistica superior y más Esquemas y mapas conceptuales en PDF de Estadística solo en Docsity!

Introducción

Problemas de aprendizaje estadístico Aprendizaje supervisado. Tiene entradas y salidas y quiere predecir y entender. ● Medición de resultados Y (también llamada variable dependiente, respuesta, objetivo) ● Vector p de mediciones predictoras X (también llamadas entradas, regresores, covariables, características, variables independientes). ● En el problema de regresión, Y es cuantitativo (por ejemplo, precio, presión arterial). ● En el problema de clasificación, Y toma valores en un conjunto finito y desordenado (sobrevivido/fallecido, dígito de 0-9, clase de cáncer de la muestra de tejido). ● Tenemos datos de aprendizaje (training data) (x1,y1),...,(xN,yN). Datos a partir de los que estimamos el modelo. Estas son observaciones (ejemplos, instancias) de estas mediciones. Objetivos ● Sobre la base de los datos de aprendizaje (training data), nos gustaría: ● Predecir con precisión casos de prueba invisibles. ● Comprender qué aportes afectan el resultado y cómo. Es decir a partir de x comprender el comportamiento de la Y ● Evaluar la calidad de nuestras predicciones e inferencias. En resumen entender y predecir. Filosofía ● Es importante entender las ideas detrás de las diversas técnicas, para saber cómo y cuándo usarlas. ● Tenemos que entender primero los métodos más simples, para comprender los más sofisticados. ● Es importante evaluar con precisión el rendimiento de un método, saber qué tan bien o qué tan mal está funcionando [los métodos más simples a menudo funcionan tan bien como los más elegantes] ● Este es un área de investigación emocionante, que tiene importantes aplicaciones en ciencia, industria y finanzas. ● El aprendizaje estadístico es un ingrediente fundamental en la formación de un científico de datos moderno. Aprendizaje no supervisado ● Sin variable de resultado, solo un conjunto de predictores (características) medidos en un conjunto de muestras. ● El objetivo es más difuso: encontrar grupos de muestras que se comporten de manera similar, encontrar características que se comporten de manera similar, encontrar combinaciones lineales de características con la mayor variación. ● Es difícil saber si lo estamos haciendo bien. ● Diferente del aprendizaje supervisado, pero puede ser útil como paso de pre-procesamiento para el aprendizaje supervisado.

Aprendizaje estadístico (statistical learning) vs. Aprendizaje automático (machine learning) ● El aprendizaje automático surgió como un subcampo de la Inteligencia Artificial. ● El aprendizaje estadístico surgió como un subcampo de la estadística. ● Hay mucha superposición: ambos campos se centran en problemas supervisados y no supervisados: ● El aprendizaje automático tiene un mayor énfasis en las aplicaciones a gran escala y la precisión de la predicción. ● El aprendizaje estadístico enfatiza los modelos y su interpretabilidad, y precisión e incertidumbre. ● Pero la distinción se ha vuelto cada vez más borrosa, y hay una gran cantidad de "fertilización cruzada". ● ¡El aprendizaje automático tiene la ventaja en marketing!

¿Qué es el aprendizaje estadístico?

Los inputs (X) normalmente serán vectores columna, de forma que el modelo dependerá de f(x) + e donde e son los errores que no se puedes explicar por el modelo. ¿Para qué sirve f(X)? La x sirve para la predicción y para la inferencia. Para predecir y para inferencia, es decir comprender el funcionamiento de la situación que se está estudiando.

predecir no es el futuro, sino que se trata de determinar el valor de la variable para un cierto conjunto de datos.
Inferencia es explicar en que grado las X explican a la Y. Con una buena f podemos hacer predicciones de Y en nuevos puntos X = x. Podemos entender qué componentes de X = (X1, X2,... , Xp) son importantes para explicar Y , y cuales son irrelevantes. ej. La antigüedad y los años de educación tienen un gran impacto en los ingresos, pero el estado civil generalmente no lo tiene. Dependiendo de la complejidad de f, es posible que podamos entender cómo cada componente Xj de X afecta a Y. ¿Hay un f(X) ideal? En particular, ¿cuál es un buen valor para f(X) en cualquier valor seleccionado de X, digamos X = 4? puede haber muchos valores de Y en X = 4. Un buen valor es: f(x) = E(Y |X = x) se llama la función de regresión La función de regresión es la media. La función de regresión f(x) También se define para el vector X; por ejemplo, f(x)=f(x1,x2,x3)=E(Y|X1 =x1,X2 =x2,X3 =x3) Es el predictor ideal u óptimo de Y con respecto al error de predicción de cuadrado medio: f(x) = E(Y |X = x) es la función que minimiza E[(Y − g(X))^2|X = x] sobre todas las funciones g en todos los puntos X = x. El

mejor modelo es el que comete menos errores, y g(x) es la que minimiza los errores para todos los valores de x. ε = Y − f(x) es el error irreductible, es decir, incluso si supiéramos f(x), todavía cometeríamos errores en la predicción, ya que en cada X = x suele haber una distribución de posibles valores Y. La esperanza del error al cuadrado es el valor reducible mas el error irreducible. Error reducible es el que se puede mejorar y reducir más. Cómo estimar f Por lo general, tenemos pocos o ningún punto de datos con X = 4 exactamente. ¡Así que no podemos calcular E(Y |X = x)! “Relaje” la definición y deje: Donde N (x) es algún vecindario de x. Si no hay valores exactos para una x, cojo sus vecinos (N(x)) y hago la media para asignar un valor de Y para esa x El promedio del vecino más cercano puede ser bastante bueno para p pequeño, es decir, p ≤ 4 y N grande. Esto funciona para p pequeños, es decir para espacios de predicción reducidas y para N grandes, pero si la dimensión es mayor esto deja de funcionar.

Los espacios cuando aumenta la dimensión, se vacía, es decir que la distancia entre los puntos es mayor a medida que se aumenta la dimensión.

Modelos paramétricos y estructurados otra clasificación de los modelos:

paramétricos: nosotros proponemos la forma del modelo
no paramétricos: no se dice nada El modelo lineal es un ejemplo importante de un modelo paramétrico: b1 es la variación media de la Y cuando la X1 varía en 1 und. Se especifica un modelo lineal en términos de p + 1 parámetros Β0,β1,...,βp. Estimamos los parámetros ajustando el modelo a Datos de entrenamiento. Aunque casi nunca es correcto, un modelo lineal a menudo sirve como una aproximación buena e interpretable a la función verdadera desconocida f(X). En el modelo lineal no es exacto y hay muchos errores, y en no lineal el ajuste es mejor.

1. RELACIÓN DE INTERCAMBIO QUE DIFICULTA LA ELECCIÓN DEL MEJOR MODELO. Precisión de predicción versus interpretabilidad. — Los modelos lineales son fáciles de interpretar; los splines de placa delgada no lo son.

Buen ajuste versus over-fit o under-fit. Sobre-estimación frente a sub-estimación. Modelos muy complicados se ajustan muy bien, pero también el ruido, cosa que no interesa. Con modelos mas sencillos es más fácil aunque hay mas errores. ¿Cómo sabemos cuándo el ajuste es el correcto?
Parsimonia versus caja negra (black box) Parsimonia: sencillez del modelo. Los modelos son sencillos, son mas fáciles de interpretar y predicen mejor. En un modelo sencillo parsimonioso frente a uno complicado (caja negra) preferimos el parsimonioso porque la predicción es mejor aunque se entienda menos. Frente al modelo más complicado que se llama modelo de caja negra que no se entiende. — A menudo preferimos un modelo más simple que involucre menos variables a un predictor de caja negra que las involucre a todas. Se prefiere un modelo parsimonioso frente a un Black box porque aunque comete más errores se entiende mejor. Una representación de la compensación entre flexibilidad e interrelación, utilizando diferentes métodos de aprendizaje estadístico. En general, a medida que aumenta la flexibilidad de un método, su interpretabilidad disminuye.

En su lugar, deberíamos, si es posible, calcularlo utilizando nuevos datos de prueba En la medición se mide la realidad mas el ruido. Por lo que hay que descubriri el modelo (curva negra).

la linea roja es malo.
la linea azul es un modelo mas complicado.
linea verde, es más flexible y sigue mejor el comportamiento de los datos, pero el modeo simula mejor los datos mas el ruido, pero se aproxima peor a la verdad por ser mas complicado. La mejor solucion es un punto intermedio, por lo que los modelos los eleginos por el erorr medio con datos de apredizaje. con datos de test la linea roja, al aumentar la flexibilidad, disminuye el error media cuadrático del modelo azul, pero al aumentar la flexibilidad el error aumenta y la verde aumenta el error comportamiento del error medio cuadrático con los datos de aprendizaje, y al aumenta la flexibildiad disminuye el eror, y si nos fiamos solo de estos datos la solucion está clara. Porque al incrementar la flexibliidad el eror es menor y por tanto el modeo es mejor. Izquierda: Datos simulados de f, mostrados en negro. Se muestran tres estimaciones de f: la línea de regresión lineal (curva naranja) y dos ajustes de spline suavizantes (curvas azules y verdes). Derecha: Entrenamiento MSE (curva gris), prueba MSE (curva roja) y MSE de prueba mínimo posible en todos los métodos (línea discontinua). Los cuadrados representan las MSEs de entrenamiento y prueba para los tres ajustes que se muestran en el panel izquierdo. La Figura 2.9 ilustra este fenómeno en un simple ejemplo. En el panel izquierdo de la Figura 2.9, hemos generado observaciones de (2.1) con la verdadera f dada por la curva negra. Las curvas naranja, azul y verde ilustran tres posibles estimaciones para f obtenidas utilizando métodos con niveles crecientes de flexibilidad. La línea naranja es el ajuste de regresión lineal, que es relativamente inflexible. Las curvas azul y verde se produjeron utilizando splines suavizantes, discutidos en el capítulo 7, con diferentes niveles de suavidad. Está claro que a medida que aumenta el nivel de flexibilidad, las curvas se ajustan más a los datos observados. La curva verde es la más flexible y coincide muy bien con los datos; sin embargo,

observamos que se ajusta mal a la verdadera f (se muestra en negro) porque es demasiado meneada. Al ajustar el nivel de flexibilidad del ajuste de la spline de suavizado, podemos producir muchos ajustes diferentes a estos datos. Pasamos ahora al panel derecho de la Figura 2.9. La curva gris muestra el MSE de entrenamiento promedio en función de la flexibilidad, o más formalmente los grados de libertad, para una serie de splines suavizantes. Los grados de libertad son una cantidad que resume la flexibilidad de una curva; Se discute más a fondo en el capítulo 7. Los cuadrados naranja, azul y verde indican las MSEs asociadas con las curvas correspondientes en el panel izquierdo. Una curva más restringida y, por lo tanto, más suave tiene menos grados de libertad que una curva meneada; tenga en cuenta que en la Figura 2.9, la regresión lineal está en el extremo más restrictivo, con dos grados de libertad. El MSE de entrenamiento disminuye monótonamente a medida que aumenta la flexibilidad. En este ejemplo, la verdadera f no es lineal, por lo que el ajuste lineal naranja no es lo suficientemente flexible como para estimar bien f. La curva verde tiene el MSE de entrenamiento más bajo de los tres métodos, ya que corresponde a la más flexible de las tres curvas que se ajustan al panel izquierdo. En este ejemplo, conocemos la verdadera función f, por lo que también podemos comunicar el MSE de prueba en un conjunto de pruebas muy grande, en función de la flexibilidad. (Por supuesto, en general se desconoce f, por lo que esto no será posible). El MSE de prueba se muestra utilizando la curva roja en el panel derecho de la Figura 2.9. Al igual que con el MSE de entrenamiento, el MSE de prueba disminuye inicialmente a medida que aumenta el nivel de flexibilidad. Sin embargo, en algún momento el MSE de prueba se nivela y luego comienza a aumentar de nuevo. En consecuencia, las curvas naranja y verde tienen una prueba MSE alta. La curva azul minimiza el MSE de prueba, lo que no debería sorprender dado que visualmente parece estimar lo mejor en el panel izquierdo de la Figura 2.9. La línea discontinua horizontal indica Var(ε), el error irreductible en (2.3), que corresponde al MSE de prueba más bajo posible entre todos los métodos posibles. Por lo tanto, la spline suavizante representada por la curva azul está cerca de ser óptima. En el panel derecho de la Figura 2.9, a medida que aumenta la flexibilidad del método de aprendizaje estadístico, observamos una disminución monótona en el MSE de entrenamiento y una forma de U en la prueba MSE. Esta es una propiedad fundamental del aprendizaje estadístico que se mantiene independientemente del conjunto de datos particulares en cuestión e independientemente del método estadístico que se utilice. A medida que aumente la flexibilidad del modelo, el MSE de entrenamiento disminuirá, pero es posible que el MSE de prueba no lo haga. Cuando un método dado produce un pequeño MSE de entrenamiento pero un MSE de prueba grande, se dice que estamos sobreadaptando los datos. Esto sucede porque nuestro procedimiento de aprendizaje estadístico está trabajando demasiado duro para encontrar patrones en los datos de entrenamiento, y puede estar recogiendo algunos patrones que solo son causados por el azar en lugar de por las verdaderas propiedades de la función desconocida f. Cuando sobreadaptamos los datos de entrenamiento, el MSE de prueba será muy grande porque los supuestos patrones que el método encontró en los datos de entrenamiento simplemente no existen en los datos de prueba. Tenga en cuenta que, independientemente de si se ha producido o no un sobreajuste, casi siempre esperamos que el MSE de entrenamiento sea más pequeño que el MSE de prueba porque la mayoría de los métodos de aprendizaje estadístico buscan directa o indirectamente minimizar el MSE de entrenamiento. El sobreajuste se refiere específicamente al caso en el que un modelo menos flexible habría producido un MSE de prueba más pequeño. La Figura 2.10 proporciona otro ejemplo en el que la verdadera f es aproximadamente lineal. Una vez más observamos que el MSE de entrenamiento disminuye monótonicamente a medida que aumenta la flexibilidad del modelo, y que hay una forma de U en el MSE de prueba. Sin embargo, debido a que la verdad es casi lineal, el MSE de prueba solo disminuye ligeramente antes de aumentar de nuevo, de modo que el ajuste de mínimos cuadrados naranjas es sustancialmente mejor que la curva verde altamente flexible. Aquí la verdad es más suave, por lo que el ajuste más suave y el modelo lineal lo hacen muy bien. Los detalles son como en la Figura 2.9, usando una f verdadera diferente que está mucho más cerca de la lineal. En esta configuración, la regresión lineal proporciona un muy buen ajuste a los datos.

Coincidencia Sesgo-Variancia Supongamos que hemos ajustado un modelo f(x) con sombrero a algunos datos de entrenamiento TR, y sea (X0, Y0) una observación de prueba extraída de la población. Si el verdadero modelo es entonces: La forma de U observada en las curvas MSE de prueba (Figuras 2.9–2.11) resulta ser el resultado de dos propiedades en competencia de los métodos de aprendizaje estadístico. Aunque la prueba matemática está más allá del alcance de este libro, es posible mostrar que el MSE de prueba esperado, para un valor dado x0, puede descomponerse siempre en la suma de tres cantidades fundamentales: la varianza de f(x0), el sesgo al cuadrado de f(x0) y la varianza del error e. Es decir: La ecuación nos dice que para minimizar el error de prueba esperado, Necesitamos seleccionar un método de aprendizaje estadístico que al mismo tiempo logre una baja variación y un sesgo bajo. Tenga en cuenta que la varianza es inherentemente una cantidad no negativa, y el sesgo al cuadrado tampoco es negativo. Por lo tanto, vemos que el MSE de prueba esperado nunca puede estar por debajo de Var(ε), el error irreductible de (2.3). Como regla general, a medida que usemos métodos más flexibles, la variación aumentará y el sesgo disminuirá. La tasa relativa de cambio de estas dos cantidades determina si el MSE de prueba aumenta o disminuye. A medida que aumentamos la flexibilidad de una clase de métodos, el sesgo tiende a disminuir inicialmente más rápido de lo que aumenta la variación. En consecuencia, el MSE de prueba esperado

disminuye. Sin embargo, en algún momento el aumento de la flexibilidad tiene poco impacto en el sesgo, pero comienza a aumentar significativamente la variación. Cuando esto sucede, el MSE de prueba aumenta. Tenga en cuenta que observamos este patrón de disminución del MSE de prueba seguido de un aumento del MSE de prueba en los paneles derecho de las Figuras 2.9-2.11. Sesgo cuadrado (curva azul), varianza (curva naranja), Var(ε) (línea discontinua) y prueba MSE (curva roja) para los tres conjuntos de datos en las Figuras 2.9-2.11. La línea vertical punteada indica el nivel de flexibilidad correspondiente al MSE de prueba más pequeño. Las tres gráficas de la Figura 2.12 ilustran la Ecuación 2.7 para los ejemplos de las Figuras 2.9-2.11. En cada caso, la curva sólida azul representa el sesgo cuadrado, para diferentes niveles de flexibilidad, mientras que la curva naranja corresponde a la varianza. La línea discontinua horizontal representa Var(ε), el error irreductible. Finalmente, la curva roja, correspondiente al conjunto de pruebas MSE, es la suma de estas tres cantidades. En los tres casos, la variación aumenta y el sesgo disminuye a medida que aumenta la flexibilidad del método. Sin embargo, el nivel de flexibilidad correspondiente al MSE de prueba óptimo difiere considerablemente entre los tres conjuntos de datos, porque el sesgo cuadrado y la variación cambian a diferentes velocidades en cada uno de los conjuntos de datos. En el panel izquierdo de la Figura 2.12, el sesgo disminuye inicialmente rápidamente, lo que resulta en una fuerte disminución inicial en el MSE de prueba esperado. Por otro lado, en el panel central de la Figura 2.12 la f verdadera es casi lineal, por lo que solo hay una pequeña disminución del sesgo a medida que aumenta la flexibilidad, y el MSE de prueba solo disminuye ligeramente antes de aumentar rápidamente a medida que aumenta la varianza. Finalmente, en el panel derecho de la figura 2.12, a medida que aumenta la flexibilidad, hay una disminución dramática del sesgo porque la verdadera f es muy no lineal. También hay muy poco aumento en la variación a medida que aumenta la flexibilidad. En consecuencia, el MSE de prueba disminuye sustancialmente antes de experimentar un pequeño aumento a medida que aumenta la flexibilidad del modelo. En una situación de la vida real en la que f no se observa, generalmente no es posible calcular explícitamente la prueba MSE, el sesgo o la varianza para un método de aprendizaje estadístico. Sin embargo, siempre se debe tener en cuenta la compensación sesgada-varianza. En este libro exploramos métodos que son extremadamente flexibles y, por lo tanto, esencialmente pueden eliminar los prejuicios. Sin embargo, esto no garantiza que superen a un método mucho más simple, como la regresión lineal. Para tomar un ejemplo extremo, supongamos que la verdadera f es lineal. En esta situación, la regresión lineal no tendrá sesgo, lo que dificultará mucho que compita un método más flexible. Por el contrario, si la verdadera f es altamente no lineal y tenemos un amplio número de observaciones de entrenamiento, entonces podemos hacerlo mejor utilizando un enfoque altamente flexible, como en la Figura 2.11. En el capítulo 5 discutimos la validación cruzada, que es una forma de estimar el MSE de prueba utilizando los datos de entrenamiento. La expectativa promedia sobre la variabilidad de Y0 así como la variabilidad en Tr. Tenga en cuenta que el sesgo: Por lo general, a medida que aumenta la flexibilidad de f, aumenta su varianza y disminuye su sesgo. Por lo tanto, elegir la flexibilidad basada en el error de prueba promedio equivale a una compensación de sesgo-varianza. Varianza + sesgo. Cuando disminuye el sesgo aumenta la varianza y al revés. en este caso queremos disminuir los dos, sabiendo eso, pero no varían en la misma proporción pero varían en sentido opuesto.

El promedio del vecino más cercano se puede utilizar como antes. También se descompone a medida que crece la dimensión. Sin embargo, el impacto en Cˆ(x) es menor que en pˆk(x), k = 1,...,K_._ Si no hay para un valor de X casos cogemos las Y más cercanas y le asignamos la media. Clasificación: algunos detalles Por lo general, medimos el rendimiento de Cˆ(x) utilizando la tasa de error de clasificación errónea: El clasificador Bayes (utilizando el verdadero pk(x)) tiene el más pequeño error (en la población). Las máquinas vector de soporte construyen modelos estructurados para C(x). También construiremos modelos estructurados para representar el pk(x). ej. Regresión logística, modelos aditivos generalizados.

3.Regresión Lineal La regresión lineal es un enfoque simple supervisado. Asume que la dependencia de Y en X1, X2,….Xp es linear. Se trata de aprendizaje supervisado. ¡Las verdaderas funciones de regresión nunca son lineales! Aunque pueda parecer demasiado simplista, la regresión lineal es extremadamente útil tanto conceptual como prácticamente. Regresión lineal para los datos publicitarios Considere los datos publicitarios que se muestran en la siguiente diapositiva. Problemas típicos de un modelo de regresión. ● ¿Existe una relación entre el presupuesto publicitario y las ventas?

¿Qué tan fuerte es la relación entre el presupuesto publicitario y las ventas?
¿Qué medios contribuyen a las ventas?
¿Con qué precisión podemos predecir las ventas futuras?
¿La relación es lineal?
¿Existe sinergia entre los medios publicitarios? Si hay sinergia entre los medios, es decir que si hay interacción entre las variables.

Las ecuaciones que minimizan el RSS son: siendo las medias muéstrales. Precisión de los coeficientes de regresión Para estimar cómo de precisos son nuestros estimadores β0^ y β1^ y como, de media, difieren del valor de los verdaderos valores de los parámetros β 0 y β1, calculamos el error estándar (SE) asociado con β0^ y β1^: Error estándar de la estimacion donde La varianza del error ϵ es en general desconocida, pero se puede estimar a partir de los datos. Esta estimación es conocida como el error estándar de los residuos (RSE) , que no es más que la raíz cuadrada de la media de la suma de los residuos al cuadrado: RSE nos dará una estimación sobre la desviación promedio de cualquier punto respecto a la verdadera recta de regresión, o lo que es lo mismo, estima la desviación estándar de ϵ. RSE se divide entre los grados de libertad del modelo n– 2 (perdemos dos grados de libertad porque estimamos dos parámetros) para hacer este estimador insesgado. Estos errores estándar se pueden utilizar para calcular intervalos de confianza. Un intervalo de confianza del 95% se define como un rango de valores de tal manera que con un 95% de probabilidad, el rango contendrá el verdadero valor desconocido del parámetro. Tiene la forma:

Intervalo de confianza (CI) Es decir, hay aproximadamente un 95 % de probabilidad de que el intervalo Contendrá el valor real de β 1 (bajo un escenario en el que obtuvimos muestras repetidas como la muestra actual). Para los datos publicitarios, el intervalo de confianza del 95% para β1 es [0,042, 0,053] A partir del cálculo del error estándar, podemos obtener los intervalos de confianza para cada uno de los estimadores. Un intervalo de confianza del 95% se definiría como el rango de valores tales que con un 95% de probabilidad, dicho rango contendría el verdadero parámetro poblacional desconocido. TEST DE HIPÓTESIS El error estándar también puede usarse para llevar a cabo un test de hipótesis sobre los parámetros del modelo. El más común establece que: H0 : β 1 = 0 (no existe relación entre X e Y) Ha : β 1 ≠ 0 (existe alguna relación entre X e Y) Para comprobar la hipótesis nula, necesitamos determinar si β1^ se aleja lo suficientemente de 0. La precisión con la que podemos determinar esto dependerá del SE(β1). Para ello llevamos a cabo un t-test, calculando el estadístico t, el cual mide el número de desviaciones estándar que el estimador β1^ y β1^ están del valor 0, y por último obtenemos el p-valor: Si el p-valor es menor que el nivel de significación establecido, podemos deducir que hay una relación entre el predictor y la variable respuesta. Coeficiente de determinación R El coeficiente de determinación R2 constituye una alternativa al RSE. Toma un valor correspondiente a la proporción de variabilidad en Y explicada por el modelo en relación a la variabilidad total. Al corresponder a una proporción, tomará valores entre 0 y 1. Para calcular esta proporción, utilizamos la fórmula: