







Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
APUNTES MACHINE LEARNING REGRESION LINEAY CORRELACIONES, FUNCION COSTE Y GRADIENTE DESCENDIENTE
Tipo: Apuntes
1 / 13
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!








Lectura 1 ¿Qué es el aprendizaje automático? Se ofrecen dos definiciones de Machine Learning. Arthur Samuel lo describió como: "el campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programadas explícitamente". Ésta es una definición informal más antigua. Tom Mitchell proporciona una definición más moderna: "Se dice que un programa de computadora aprende de la experiencia E con respecto a alguna clase de tareas T y medida de desempeño P, si su desempeño en las tareas de T, medido por P, mejora con la experiencia E. " Ejemplo: jugar a las damas. E = la experiencia de jugar muchos juegos de damas T = la tarea de jugar a las damas. P = la probabilidad de que el programa gane el próximo juego. En general, cualquier problema de aprendizaje automático se puede asignar a una de dos clasificaciones generales: Aprendizaje supervisado y aprendizaje no supervisado. Lectura 3 Aprendizaje supervisado En el aprendizaje supervisado, se nos da un conjunto de datos y ya sabemos cómo debería ser nuestra salida correcta, teniendo la idea de que existe una relación entre la entrada y la salida. Los problemas de aprendizaje supervisado se clasifican en problemas de "regresión" y "clasificación". En un problema de regresión, estamos tratando de predecir resultados dentro de una salida continua, lo que significa que estamos tratando de asignar variables de entrada a alguna función continua. En un problema de clasificación, en cambio, estamos tratando de predecir resultados en una salida discreta. En otras palabras, estamos tratando de mapear variables de entrada en categorías discretas. Ejemplo 1: Teniendo en cuenta los datos sobre el tamaño de las casas en el mercado inmobiliario, intente predecir su precio. El precio en función del tamaño es una salida continua, por lo que este es un problema de regresión. Podríamos convertir este ejemplo en un problema de clasificación al hacer nuestra salida sobre si la casa "se vende por más o menos que el precio de venta". Aquí clasificamos las casas según el precio en dos categorías discretas. Ejemplo 2: (a) Regresión: dada la imagen de una persona, tenemos que predecir su edad sobre la base de la imagen dada
(b) Clasificación: dado un paciente con un tumor, tenemos que predecir si el tumor es maligno o benigno. Lectura 4 Aprendizaje sin supervisión El aprendizaje no supervisado nos permite abordar los problemas con poca o ninguna idea de cómo deberían verse nuestros resultados. Podemos derivar la estructura de los datos en los que no necesariamente conocemos el efecto de las variables. Podemos derivar esta estructura agrupando los datos en función de las relaciones entre las variables en los datos. Con el aprendizaje no supervisado, no hay retroalimentación basada en los resultados de la predicción. Ejemplo: Agrupación: tome una colección de 1,000,000 de genes diferentes y encuentre una manera de agrupar automáticamente estos genes en grupos que sean de alguna manera similares o relacionados por diferentes variables, como la vida útil, la ubicación, los roles, etc. No agrupación: el "Algoritmo de cóctel", le permite encontrar estructura en un entorno caótico. (es decir, identificar voces y música individuales a partir de una malla de sonidos en un cóctel). REGRESION LINEAL Representación del modelo Para establecer la notación para uso futuro, usaremos x (i) para denotar las variables de "entrada" (área habitable en este ejemplo), también llamadas características de entrada, e y (i) para denotar la "salida" o variable de destino que estamos tratando de predecir (precio). Un par (x (i), y (i)) se denomina ejemplo de entrenamiento y el conjunto de datos que usaremos para aprender: una lista de m ejemplos de entrenamiento (x (i), y (i)); i = 1, ..., m: se denomina conjunto de entrenamiento. Tenga en cuenta que el superíndice "(i)" en la notación es simplemente un índice del conjunto de entrenamiento y no tiene nada que ver con la exponenciación. También usaremos X para denotar el espacio de valores de entrada e Y para denotar el espacio de valores de salida. En este ejemplo, X = Y = ℝ. Para describir el problema de aprendizaje supervisado de manera un poco más formal, nuestro objetivo es, dado un conjunto de entrenamiento, aprender una función h: X → Y de modo que h (x) sea un predictor "bueno" para el valor correspondiente de y. Por razones históricas, esta función h se llama hipótesis. Visto gráficamente, el proceso es, por tanto, así:
Cost Function We can measure the accuracy of our hypothesis function by using a cost function. This takes an average difference (actually a fancier version of an average) of all the results of the hypothesis with inputs from x's and the actual output y's. Función de costo Podemos medir la precisión de nuestra función de hipótesis usando una función de costo. Esto toma una diferencia promedio (en realidad, una versión más elegante de un promedio) de todos los resultados de la hipótesis con entradas de x y la salida real y.
To break it apart, it is ½ xˉ where xˉ is the mean of the squares of hθ(xi) −yiyi , or the difference between the predicted value and the actual value. This function is otherwise called the "Squared error function", or "Mean squared error". The mean is halved (½) as a convenience for the computation of the gradient descent, as the derivative term of the square function will cancel out the ½ term. The following image summarizes what the cost function does: Para dividirlo, es ½ xˉ donde xˉ es la media de los cuadrados de hθ (xi) −yiyi, o la diferencia entre el valor predicho y el valor real. Esta función también se denomina "Función de error al cuadrado" o "Error al cuadrado medio". La media se reduce a la mitad (½) como una conveniencia para el cálculo del descenso del gradiente, ya que el término derivado de la función cuadrada cancelará el término ½. La siguiente imagen resume lo que hace la función de costos:
Cost Function - Intuition I If we try to think of it in visual terms, our training data set is scattered on the x-y plane. We are trying to make a straight line (defined by hθ(x)) which passes through these scattered data points. Our objective is to get the best possible line. The best possible line will be such so that the average squared vertical distances of the scattered points from the line will be the least. Ideally, the line should pass through all the points of our training data set. In such a case, the value of J(θ0,θ1) will be 0. The following example shows the ideal situation where we have a cost function of 0. Función de costo - Intuición I Si tratamos de pensarlo en términos visuales, nuestro conjunto de datos de entrenamiento está disperso en el plano x-y. Estamos tratando de hacer una línea recta (definida por hθ (x)) que pase a través de estos puntos de datos dispersos. Nuestro objetivo es conseguir la mejor línea posible. La mejor línea posible será tal que las distancias verticales cuadradas promedio de los puntos dispersos desde la línea sean las menores. Idealmente, la línea debería pasar por todos los puntos de nuestro conjunto de datos de entrenamiento. En tal caso, el valor de J (θ0, θ1) será 0. El siguiente ejemplo muestra la situación ideal donde tenemos una función de costo de 0. When θ1=1, we get a slope of 1 which goes through every single data point in our model. Conversely, when θ1=0.5, we see the vertical distance from our fit to the data points increase.
A contour plot is a graph that contains many contour lines. A contour line of a two variable function has a constant value at all points of the same line. An example of such a graph is the one to the right below. Taking any color and going along the 'circle', one would expect to get the same value of the cost function. For example, the three green points found on the green line above have the same value for J(θ0,θ1) and as a result, they are found along the same line. The circled x displays the value of the cost function for the graph on the left when θ0 = 800 and θ1= -0.15. Taking another h(x) and plotting its contour plot, one gets the following graphs:
When θ0 = 360 and θ1 = 0, the value of J(θ0,θ1) in the contour plot gets closer to the center thus reducing the cost function error. Now giving our hypothesis function a slightly positive slope results in a better fit of the data. The graph above minimizes the cost function as much as possible and consequently, the result of θ1 and θ0 tend to be around 0.12 and 250 respectively. Plotting those values on our graph to the right seems to put our point in the center of the inner most 'circle'. Gradient Descent So we have our hypothesis function and we have a way of measuring how well it fits into the data. Now we need to estimate the parameters in the hypothesis function. That's where gradient descent comes in. Imagine that we graph our hypothesis function based on its fields θ0 and θ1(actually we are graphing the cost function as a function of the parameter estimates). We are not graphing x and y itself, but the parameter range of our hypothesis function and the cost resulting from selecting a particular set of parameters. We put θ0 on the x axis and θ1 on the y axis, with the cost function on the vertical z axis. The points on our graph will be the result of the cost function using our hypothesis with those specific theta parameters. The graph below depicts such a setup.
j=0,1 represents the feature index number. At each iteration j, one should simultaneously update the parameters θ1,θ ,...,θn. Updating a specific parameter prior to calculating another one on the j^{(th)}j(th) iteration would yield to a wrong implementation. Gradient Descent Intuition In this video we explored the scenario where we used one parameter θ1 and plotted its cost function to implement a gradient descent. Our formula for a single parameter was: Repeat until convergence: Regardless of the slope's sign for eventually converges to its minimum value. The following graph shows that when the slope is negative, the value of θ1 increases and when it is positive, the value of θ1 decreases.
On a side note, we should adjust our parameter to ensure that the gradient descent algorithm converges in a reasonable time. Failure to converge or too much time to obtain the minimum value imply that our step size is wrong. How does
The intuition behind the convergence is that approaches 0 as we approach the bottom of our convex function. At the minimum, the derivative will always be 0 and thus we get: Gradient Descent For Linear Regression Note: [At 6:15 "h(x) = -900 - 0.1x" should be "h(x) = 900 - 0.1x"]
The ellipses shown above are the contours of a quadratic function. Also shown is the trajectory taken by gradient descent, which was initialized at (48,30). The x’s in the figure (joined by straight lines) mark the successive values of θ that gradient descent went through as it converged to its minimum. LECTURA 1 PRUEBA SEMANA 1 Matrices and Vectors