Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Aprendizaje Automático: Procesos de Decisión Markov (MDP), Diapositivas de Introducción al Aprendizaje Automático

El concepto de procesos de decisión markov (mdp) en aprendizaje automático. Se trata de un modelo matemático para tomar decisiones en entornos estocásticos, donde el agente debe aprender una estrategia reactiva (política) que maximice el valor esperado de la recompensa. Se presentan tipos de mdp, un ejemplo de robótica y un ejemplo de control de semáforos, así como dos alternativas para resolverlos. Además, se menciona el aprendizaje q-learning.

Tipo: Diapositivas

2018/2019

Subido el 22/06/2019

lamadredeltopo9
lamadredeltopo9 🇪🇸

5

(1)

3 documentos

1 / 42

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
APRENDIZAJE AUTO M ´
ATICO
Daniel Borrajo
UC3M
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Vista previa parcial del texto

¡Descarga Aprendizaje Automático: Procesos de Decisión Markov (MDP) y más Diapositivas en PDF de Introducción al Aprendizaje Automático solo en Docsity!

APRENDIZAJE AUTOM ATICO´

Daniel Borrajo

UC3M

Indice

1 Introducci ´on

2 Generaci ´on de ´arboles y reglas

3 Regresi ´on

4 Otras t ´ecnicas

5 Aprendizaje basado en instancias y no supervisado

6 Conjuntos de clasificadores y Reglas de asociaci ´on

7 Aprendizaje por refuerzo

8 Programaci ´on L ´ogica Inductiva

9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

´Indice

1 Introducci ´on 2 Generaci ´on de ´arboles y reglas 3 Regresi ´on 4 Otras t ´ecnicas 5 Aprendizaje basado en instancias y no supervisado 6 Conjuntos de clasificadores y Reglas de asociaci ´on 7 Aprendizaje por refuerzo 8 Programaci ´on L ´ogica Inductiva 9 Aprendizaje en resoluci ´on de problemas

Aprendizaje por refuerzo

4.5 3.70.1sí −2... g girar 3.7 3.50.1 sí ... g

{^

{^

103.45 Aprendizaje^ Comportamiento

estado

acción

acción

a 1 a 2 a (^) n e (^1) e (^2)

m

.

e

..

...

max

Problema a resolver

  • (^) Dados
    • (^) un conjunto de estados
    • (^) un conjunto de acciones
    • (^) un refuerzo obtenido en cada estado

s 0 a 0 r 0 −→ s 1 a 1 r 1 −→ s 2 a 2 r 2 −→...

  • (^) Obtener un algoritmo (pol´ıtica) que, dado un estado, seleccione aquella acci ´on ai que maximice:

r 0 + γr 1 + γ^2 r 2 +... 0 ≤ γ ≤ 1 donde γ es el factor de descuento

Procesos de Decisi ´on de Markov (MDP)

  • Entorno
    • conjunto de estados, E
    • conjunto de acciones, A
    • funci ´on de transici ´on entre estados T (e, a) ≡ P(e′|e, a) no siempre conocida
    • funci ´on de refuerzo R : E × A × E → R no siempre conocida
  • Agente
    • tiene que aprender la estrategia reactiva (pol´ıtica) π : E → A, que maximice

V π^ (et ) =

∑^ h

i= 0

γi^ R(et+i , at+i , et+i+ 1 )

  • (^) Tipos
    • (^) horizonte infinito: h = ∞
    • (^) horizonte finito: h < ∞
    • sin descuento: γ = 1 , 0

Procesos de Decisi ´on de Markov (MDP)

  • Entorno
    • conjunto de estados, E
    • conjunto de acciones, A
    • funci ´on de transici ´on entre estados T (e, a) ≡ P(e′|e, a) no siempre conocida
    • funci ´on de refuerzo R : E × A × E → R no siempre conocida
  • Agente
    • tiene que aprender la estrategia reactiva (pol´ıtica) π : E → A, que maximice

V π^ (et ) =

∑^ h

i= 0

γi^ R(et+i , at+i , et+i+ 1 )

  • (^) Tipos
    • (^) horizonte infinito: h = ∞
    • (^) horizonte finito: h < ∞
    • sin descuento: γ = 1 , 0

Ejemplo de control de sem ´aforos

  • Dados cuatro sem ´aforos en un cruce, encontrar control ´optimo
  • Estados: estado de cada sem ´aforo, n ´umero de coches en cada sem ´aforo
  • Acciones: cambiar un sem aforo de rojo a verde o viceversa´
  • Refuerzo:
    • si posibles cruces: −∞
    • si no: −# coches esperando

Modelos

Dos alternativas

  • (^) Se conoce el modelo: T (e, a) ≡ P(e′|a, e) y r (·, ·, ·)
    • (^) hay que resolver un conjunto de ecuaciones
    • (^) programaci ´on din ´amica
  • (^) No se conoce el modelo:
    • (^) se aprende el modelo y se aplica lo anterior
    • (^) se aprende el modelo al mismo tiempo que se aprende la pol´ıtica

MDP determinista

  • Q(S 1 , A 1 ) = R(S 1 , A 1 , S 2 ) + V (S 2 ) = 30 + 50 =
  • Q(S 1 , A 2 ) = R(S 1 , A 2 , S 3 ) + V (S 3 ) = 100 + 0 =
  • Q(S 1 , A 3 ) = R(S 1 , A 3 , S 4 ) + V (S 4 ) = − 100 + 0 = −
    • V (S 1 ) = m ´ax{Q(S 1 , A 1 ), Q(S 1 , A 2 ), Q(S 1 , A 3 )} =

MDP determinista

Q(S 1 , A 1 ) = R(S 1 , A 1 , S 2 ) + V (S 2 ) = 30 + 50 = 80

Q(S 1 , A 2 ) = R(S 1 , A 2 , S 3 ) + V (S 3 ) = 100 + 0 = 100

Q(S 1 , A 3 ) = R(S 1 , A 3 , S 4 ) + V (S 4 ) = − 100 + 0 = − 100

V (S 1 ) = m ´ax{Q(S 1 , A 1 ), Q(S 1 , A 2 ), Q(S 1 , A 3 )} = 100

π(S 1 ) = arg m ´ax Ai

Q(S 1 , Ai) = A 2