Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

APUNTES SOBRE CURSO LEARNING MACHINE, Apuntes de Matemáticas

Universidad del Zulia (LUZ)Matemáticas

APUNTES MACHINE LEARNING REGRESION LINEAY CORRELACIONES, FUNCION COSTE Y GRADIENTE DESCENDIENTE

Tipo: Apuntes

2020/2021

Subido el 02/02/2021

juanka82 🇪🇨

1 documento

1 / 13

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Lectura 1

¿Qué es el aprendizaje automático?

Se ofrecen dos definiciones de Machine Learning. Arthur Samuel lo describió

como: "el campo de estudio que brinda a las computadoras la capacidad de

aprender sin ser programadas explícitamente". Ésta es una definición

informal más antigua.

Tom Mitchell proporciona una definición más moderna: "Se dice que un

programa de computadora aprende de la experiencia E con respecto a

alguna clase de tareas T y medida de desempeño P, si su desempeño en las

tareas de T, medido por P, mejora con la experiencia E. "

Ejemplo: jugar a las damas.

E = la experiencia de jugar muchos juegos de damas

T = la tarea de jugar a las damas.

P = la probabilidad de que el programa gane el próximo juego.

En general, cualquier problema de aprendizaje automático se puede asignar

a una de dos clasificaciones generales:

Aprendizaje supervisado y aprendizaje no supervisado.

Lectura 3

Aprendizaje supervisado

En el aprendizaje supervisado, se nos da un conjunto de datos y ya sabemos

cómo debería ser nuestra salida correcta, teniendo la idea de que existe una

relación entre la entrada y la salida.

Los problemas de aprendizaje supervisado se clasifican en problemas de

"regresión" y "clasificación". En un problema de regresión, estamos tratando

de predecir resultados dentro de una salida continua, lo que significa que

estamos tratando de asignar variables de entrada a alguna función

continua. En un problema de clasificación, en cambio, estamos tratando de

predecir resultados en una salida discreta. En otras palabras, estamos

tratando de mapear variables de entrada en categorías discretas.

Ejemplo 1:

Teniendo en cuenta los datos sobre el tamaño de las casas en el mercado

inmobiliario, intente predecir su precio. El precio en función del tamaño es

una salida continua, por lo que este es un problema de regresión.

Podríamos convertir este ejemplo en un problema de clasificación al hacer

nuestra salida sobre si la casa "se vende por más o menos que el precio de

venta". Aquí clasificamos las casas según el precio en dos categorías

discretas.

Ejemplo 2:

(a) Regresión: dada la imagen de una persona, tenemos que predecir su

edad sobre la base de la imagen dada

Descubre Apuntes de Matemáticas Universidad del Zulia (LUZ)

Documentos relacionados

Machine Learning Introducción

Introducción al Machine Learning.

Machine Learning Machine Learning

Taller Machine Learning Regresion

Gradiente descendente en machine learning

AI & Machine learning

Machine Learning . ingenieria

machine learning con imagenes

Soluciones Mitchel Machine Learning

[Machine Learning] Regresión Lineal

Big Data y Machine Learning

Big data y machine LearNing

Vista previa parcial del texto

¡Descarga APUNTES SOBRE CURSO LEARNING MACHINE y más Apuntes en PDF de Matemáticas solo en Docsity!

Lectura 1 ¿Qué es el aprendizaje automático? Se ofrecen dos definiciones de Machine Learning. Arthur Samuel lo describió como: "el campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programadas explícitamente". Ésta es una definición informal más antigua. Tom Mitchell proporciona una definición más moderna: "Se dice que un programa de computadora aprende de la experiencia E con respecto a alguna clase de tareas T y medida de desempeño P, si su desempeño en las tareas de T, medido por P, mejora con la experiencia E. " Ejemplo: jugar a las damas. E = la experiencia de jugar muchos juegos de damas T = la tarea de jugar a las damas. P = la probabilidad de que el programa gane el próximo juego. En general, cualquier problema de aprendizaje automático se puede asignar a una de dos clasificaciones generales: Aprendizaje supervisado y aprendizaje no supervisado. Lectura 3 Aprendizaje supervisado En el aprendizaje supervisado, se nos da un conjunto de datos y ya sabemos cómo debería ser nuestra salida correcta, teniendo la idea de que existe una relación entre la entrada y la salida. Los problemas de aprendizaje supervisado se clasifican en problemas de "regresión" y "clasificación". En un problema de regresión, estamos tratando de predecir resultados dentro de una salida continua, lo que significa que estamos tratando de asignar variables de entrada a alguna función continua. En un problema de clasificación, en cambio, estamos tratando de predecir resultados en una salida discreta. En otras palabras, estamos tratando de mapear variables de entrada en categorías discretas. Ejemplo 1: Teniendo en cuenta los datos sobre el tamaño de las casas en el mercado inmobiliario, intente predecir su precio. El precio en función del tamaño es una salida continua, por lo que este es un problema de regresión. Podríamos convertir este ejemplo en un problema de clasificación al hacer nuestra salida sobre si la casa "se vende por más o menos que el precio de venta". Aquí clasificamos las casas según el precio en dos categorías discretas. Ejemplo 2: (a) Regresión: dada la imagen de una persona, tenemos que predecir su edad sobre la base de la imagen dada

(b) Clasificación: dado un paciente con un tumor, tenemos que predecir si el tumor es maligno o benigno. Lectura 4 Aprendizaje sin supervisión El aprendizaje no supervisado nos permite abordar los problemas con poca o ninguna idea de cómo deberían verse nuestros resultados. Podemos derivar la estructura de los datos en los que no necesariamente conocemos el efecto de las variables. Podemos derivar esta estructura agrupando los datos en función de las relaciones entre las variables en los datos. Con el aprendizaje no supervisado, no hay retroalimentación basada en los resultados de la predicción. Ejemplo: Agrupación: tome una colección de 1,000,000 de genes diferentes y encuentre una manera de agrupar automáticamente estos genes en grupos que sean de alguna manera similares o relacionados por diferentes variables, como la vida útil, la ubicación, los roles, etc. No agrupación: el "Algoritmo de cóctel", le permite encontrar estructura en un entorno caótico. (es decir, identificar voces y música individuales a partir de una malla de sonidos en un cóctel). REGRESION LINEAL Representación del modelo Para establecer la notación para uso futuro, usaremos x (i) para denotar las variables de "entrada" (área habitable en este ejemplo), también llamadas características de entrada, e y (i) para denotar la "salida" o variable de destino que estamos tratando de predecir (precio). Un par (x (i), y (i)) se denomina ejemplo de entrenamiento y el conjunto de datos que usaremos para aprender: una lista de m ejemplos de entrenamiento (x (i), y (i)); i = 1, ..., m: se denomina conjunto de entrenamiento. Tenga en cuenta que el superíndice "(i)" en la notación es simplemente un índice del conjunto de entrenamiento y no tiene nada que ver con la exponenciación. También usaremos X para denotar el espacio de valores de entrada e Y para denotar el espacio de valores de salida. En este ejemplo, X = Y = ℝ. Para describir el problema de aprendizaje supervisado de manera un poco más formal, nuestro objetivo es, dado un conjunto de entrenamiento, aprender una función h: X → Y de modo que h (x) sea un predictor "bueno" para el valor correspondiente de y. Por razones históricas, esta función h se llama hipótesis. Visto gráficamente, el proceso es, por tanto, así:

Cost Function We can measure the accuracy of our hypothesis function by using a cost function. This takes an average difference (actually a fancier version of an average) of all the results of the hypothesis with inputs from x's and the actual output y's. Función de costo Podemos medir la precisión de nuestra función de hipótesis usando una función de costo. Esto toma una diferencia promedio (en realidad, una versión más elegante de un promedio) de todos los resultados de la hipótesis con entradas de x y la salida real y.

J ( θ 0 , θ 1 )= 2 m 1

i = 1 ∑ m ( y ^ i − yi ) 2 = 2 m 1 i = 1 ∑ m ( hθ ( xi )− yi ) 2

To break it apart, it is ½ xˉ where xˉ is the mean of the squares of hθ(xi) −yiyi , or the difference between the predicted value and the actual value. This function is otherwise called the "Squared error function", or "Mean squared error". The mean is halved (½) as a convenience for the computation of the gradient descent, as the derivative term of the square function will cancel out the ½ term. The following image summarizes what the cost function does: Para dividirlo, es ½ xˉ donde xˉ es la media de los cuadrados de hθ (xi) −yiyi, o la diferencia entre el valor predicho y el valor real. Esta función también se denomina "Función de error al cuadrado" o "Error al cuadrado medio". La media se reduce a la mitad (½) como una conveniencia para el cálculo del descenso del gradiente, ya que el término derivado de la función cuadrada cancelará el término ½. La siguiente imagen resume lo que hace la función de costos:

Cost Function - Intuition I If we try to think of it in visual terms, our training data set is scattered on the x-y plane. We are trying to make a straight line (defined by hθ(x)) which passes through these scattered data points. Our objective is to get the best possible line. The best possible line will be such so that the average squared vertical distances of the scattered points from the line will be the least. Ideally, the line should pass through all the points of our training data set. In such a case, the value of J(θ0,θ1) will be 0. The following example shows the ideal situation where we have a cost function of 0. Función de costo - Intuición I Si tratamos de pensarlo en términos visuales, nuestro conjunto de datos de entrenamiento está disperso en el plano x-y. Estamos tratando de hacer una línea recta (definida por hθ (x)) que pase a través de estos puntos de datos dispersos. Nuestro objetivo es conseguir la mejor línea posible. La mejor línea posible será tal que las distancias verticales cuadradas promedio de los puntos dispersos desde la línea sean las menores. Idealmente, la línea debería pasar por todos los puntos de nuestro conjunto de datos de entrenamiento. En tal caso, el valor de J (θ0, θ1) será 0. El siguiente ejemplo muestra la situación ideal donde tenemos una función de costo de 0. When θ1=1, we get a slope of 1 which goes through every single data point in our model. Conversely, when θ1=0.5, we see the vertical distance from our fit to the data points increase.

A contour plot is a graph that contains many contour lines. A contour line of a two variable function has a constant value at all points of the same line. An example of such a graph is the one to the right below. Taking any color and going along the 'circle', one would expect to get the same value of the cost function. For example, the three green points found on the green line above have the same value for J(θ0,θ1) and as a result, they are found along the same line. The circled x displays the value of the cost function for the graph on the left when θ0 = 800 and θ1= -0.15. Taking another h(x) and plotting its contour plot, one gets the following graphs:

When θ0 = 360 and θ1 = 0, the value of J(θ0,θ1) in the contour plot gets closer to the center thus reducing the cost function error. Now giving our hypothesis function a slightly positive slope results in a better fit of the data. The graph above minimizes the cost function as much as possible and consequently, the result of θ1 and θ0 tend to be around 0.12 and 250 respectively. Plotting those values on our graph to the right seems to put our point in the center of the inner most 'circle'. Gradient Descent So we have our hypothesis function and we have a way of measuring how well it fits into the data. Now we need to estimate the parameters in the hypothesis function. That's where gradient descent comes in. Imagine that we graph our hypothesis function based on its fields θ0 and θ1(actually we are graphing the cost function as a function of the parameter estimates). We are not graphing x and y itself, but the parameter range of our hypothesis function and the cost resulting from selecting a particular set of parameters. We put θ0 on the x axis and θ1 on the y axis, with the cost function on the vertical z axis. The points on our graph will be the result of the cost function using our hypothesis with those specific theta parameters. The graph below depicts such a setup.

j=0,1 represents the feature index number. At each iteration j, one should simultaneously update the parameters θ1,θ ,...,θn. Updating a specific parameter prior to calculating another one on the j^{(th)}j(th) iteration would yield to a wrong implementation. Gradient Descent Intuition In this video we explored the scenario where we used one parameter θ1 and plotted its cost function to implement a gradient descent. Our formula for a single parameter was: Repeat until convergence: Regardless of the slope's sign for eventually converges to its minimum value. The following graph shows that when the slope is negative, the value of θ1 increases and when it is positive, the value of θ1 decreases.

On a side note, we should adjust our parameter  to ensure that the gradient descent algorithm converges in a reasonable time. Failure to converge or too much time to obtain the minimum value imply that our step size is wrong. How does

gradient descent converge with a fixed step size α.

The intuition behind the convergence is that approaches 0 as we approach the bottom of our convex function. At the minimum, the derivative will always be 0 and thus we get: Gradient Descent For Linear Regression Note: [At 6:15 "h(x) = -900 - 0.1x" should be "h(x) = 900 - 0.1x"]

The ellipses shown above are the contours of a quadratic function. Also shown is the trajectory taken by gradient descent, which was initialized at (48,30). The x’s in the figure (joined by straight lines) mark the successive values of θ that gradient descent went through as it converged to its minimum. LECTURA 1 PRUEBA SEMANA 1 Matrices and Vectors