Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Aprendizaje Automático: Procesos de Decisión Markov (MDP), Diapositivas de Introducción al Aprendizaje Automático

Universidad Carlos III de Madrid (UC3M)Introducción al Aprendizaje Automático

El concepto de procesos de decisión markov (mdp) en aprendizaje automático. Se trata de un modelo matemático para tomar decisiones en entornos estocásticos, donde el agente debe aprender una estrategia reactiva (política) que maximice el valor esperado de la recompensa. Se presentan tipos de mdp, un ejemplo de robótica y un ejemplo de control de semáforos, así como dos alternativas para resolverlos. Además, se menciona el aprendizaje q-learning.

Tipo: Diapositivas

2018/2019

Subido el 22/06/2019

lamadredeltopo9 🇪🇸

5

(1)

3 documentos

1 / 42

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

APRENDIZAJE AUTO M ´

ATICO

Daniel Borrajo

UC3M

Descubre Diapositivas de Introducción al Aprendizaje Automático Universidad Carlos III de Madrid (UC3M)

Documentos relacionados

Tema 6 aprendizaje automático.

(1)

Aprendizaje automático

aprendizaje automatico

APRENDIZAJE AUTOMÁTICO APR

Resumen de Aprendizaje Automático

Apuntes tema 1 de procesos

FORMULARIO PROCESOS ESTOCASTICOS

(2)

Apuntes sobre Machine Learning (Aprendizaje Automático)

ENCLAVAMIENTO AUTOMATICO

Control automático

Control Automático -

Vista previa parcial del texto

¡Descarga Aprendizaje Automático: Procesos de Decisión Markov (MDP) y más Diapositivas en PDF de Introducción al Aprendizaje Automático solo en Docsity!

APRENDIZAJE AUTOM ATICO´

Daniel Borrajo

UC3M

Indice

1 Introducci ´on

2 Generaci ´on de ´arboles y reglas

3 Regresi ´on

4 Otras t ´ecnicas

5 Aprendizaje basado en instancias y no supervisado

6 Conjuntos de clasificadores y Reglas de asociaci ´on

7 Aprendizaje por refuerzo

8 Programaci ´on L ´ogica Inductiva

9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

Aprendizaje por refuerzo

4.5 3.70.1sí −2... g girar 3.7 3.50.1 sí ... g

{^

−

{^

103.45 Aprendizaje^ Comportamiento

estado

acción

a 1 a 2 a (^) n e (^1) e (^2)

m

.

e

..

...

max

Problema a resolver

(^) Dados
- (^) un conjunto de estados
- (^) un conjunto de acciones
- (^) un refuerzo obtenido en cada estado

s 0 a 0 r 0 −→ s 1 a 1 r 1 −→ s 2 a 2 r 2 −→...

(^) Obtener un algoritmo (pol´ıtica) que, dado un estado, seleccione aquella acci ´on ai que maximice:

r 0 + γr 1 + γ^2 r 2 +... 0 ≤ γ ≤ 1 donde γ es el factor de descuento

Procesos de Decisi ´on de Markov (MDP)

Entorno
- conjunto de estados, E
- conjunto de acciones, A
- funci ´on de transici ´on entre estados T (e, a) ≡ P(e′|e, a) no siempre conocida
- funci ´on de refuerzo R : E × A × E → R no siempre conocida
Agente
- tiene que aprender la estrategia reactiva (pol´ıtica) π : E → A, que maximice

V π^ (et ) =

∑^ h

i= 0

γi^ R(et+i , at+i , et+i+ 1 )

(^) Tipos
- (^) horizonte infinito: h = ∞
- (^) horizonte finito: h < ∞
- sin descuento: γ = 1 , 0

Procesos de Decisi ´on de Markov (MDP)

Entorno
- conjunto de estados, E
- conjunto de acciones, A
- funci ´on de transici ´on entre estados T (e, a) ≡ P(e′|e, a) no siempre conocida
- funci ´on de refuerzo R : E × A × E → R no siempre conocida
Agente
- tiene que aprender la estrategia reactiva (pol´ıtica) π : E → A, que maximice

V π^ (et ) =

∑^ h

i= 0

γi^ R(et+i , at+i , et+i+ 1 )

(^) Tipos
- (^) horizonte infinito: h = ∞
- (^) horizonte finito: h < ∞
- sin descuento: γ = 1 , 0

Ejemplo de control de sem ´aforos

Dados cuatro sem ´aforos en un cruce, encontrar control ´optimo
Estados: estado de cada sem ´aforo, n ´umero de coches en cada sem ´aforo
Acciones: cambiar un sem aforo de rojo a verde o viceversa´
Refuerzo:
- si posibles cruces: −∞
- si no: −# coches esperando

Modelos

Dos alternativas

(^) Se conoce el modelo: T (e, a) ≡ P(e′|a, e) y r (·, ·, ·)
- (^) hay que resolver un conjunto de ecuaciones
- (^) programaci ´on din ´amica
(^) No se conoce el modelo:
- (^) se aprende el modelo y se aplica lo anterior
- (^) se aprende el modelo al mismo tiempo que se aprende la pol´ıtica

MDP determinista

Q(S 1 , A 1 ) = R(S 1 , A 1 , S 2 ) + V (S 2 ) = 30 + 50 =
Q(S 1 , A 2 ) = R(S 1 , A 2 , S 3 ) + V (S 3 ) = 100 + 0 =
Q(S 1 , A 3 ) = R(S 1 , A 3 , S 4 ) + V (S 4 ) = − 100 + 0 = −
- V (S 1 ) = m ´ax{Q(S 1 , A 1 ), Q(S 1 , A 2 ), Q(S 1 , A 3 )} =

MDP determinista

Q(S 1 , A 1 ) = R(S 1 , A 1 , S 2 ) + V (S 2 ) = 30 + 50 = 80

Q(S 1 , A 2 ) = R(S 1 , A 2 , S 3 ) + V (S 3 ) = 100 + 0 = 100

Q(S 1 , A 3 ) = R(S 1 , A 3 , S 4 ) + V (S 4 ) = − 100 + 0 = − 100

V (S 1 ) = m ´ax{Q(S 1 , A 1 ), Q(S 1 , A 2 ), Q(S 1 , A 3 )} = 100

π(S 1 ) = arg m ´ax Ai

Q(S 1 , Ai) = A 2