Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


APRENDIZAJE AUTOMÁTICO APR, Exámenes de Introducción al Aprendizaje Automático

Examen aprendizaje automático v2

Tipo: Exámenes

2020/2021

Subido el 22/01/2021

javi-gg
javi-gg 🇪🇸

2 documentos

1 / 4

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Examen de Aprendizaje Automático
ETSINF, Universitat Politècnica de València, 11 de enero de 2016
Apellidos: Nombre: Grupo:
Cuestiones (2 puntos; tiempo estimado: 30 minutos)
Marca cada recuadro con una única opción de entre las dadas. Cada acierto suma 1/2 puntos y cada fallo resta 1/6 puntos.
1DSe ha evaluado un sistema de Aprendizaje Automático mediante la técnica de
Exclusión individual
(Leaving One Out)
y utilizando un conjunto de datos que contiene 200 muestras. Se han obtenido un total de 10 errores. Indicar cuál de las
armaciones siguientes es razonable:
A) La talla de entrenamiento efectiva es 190 muestras, la del test es de 10 muestras y el error estimado es
5.0 % ±0.3 %
B) La talla de entrenamiento efectiva es de 199 muestras, la del test es de 1 muestra y el error estimado es
5.0±3.0 %
C) La talla de entrenamiento efectiva es de 200 muestras, la del test es de 10 muestras y el error estimado es
5.0±0.3 %
D) La talla de entrenamiento efectiva es de 199 muestras, la del test es de 200 muestras y el error estimado es
5.0±3.0 %
2DEn el problema de optimización con restricciones
minimizar
q(Θ),ΘRD
sujecto a
vi(Θ)0,1ik
se cumplen las condiciones complementarias de Karush-Kuhn-Tucker
α?
ivi(Θ?) = 0
para
1ik
. Indicar cuál de las
siguientes armaciones se deduce de ellas:
A) Si para un
i
,
α?
i= 0
, entonces
vi(Θ?)>0
B) Si para un
i
,
α?
i= 0
, entonces
vi(Θ?) = 0
,
C) Si para un
i
,
vi(Θ?)=0
, entonces
α?
i= 0
D) Si para un
i
,
α?
i>0
, entonces
vi(Θ?)=0
3CEn la estimación por máxima verosimilitud de los parámetros de una mezcla de
K
gaussianas de matriz de covarianza
común y conocida a partir de
N
vectores de entrenamiento, los parámetros a estimar son: el vector-media
µk
y el peso
πk
de cada gaussiana,
k, 1kK
. Identicar cuál de las siguientes arnaciones es
correcta
:
A) Se puede usar
descenso por gradiente
, ya que los valores de
µk
no están sujetos a ninguna restricción, lo que hace
innecesario recurrir a la técnica de los
multiplicadores de Lagrange
.
B) La solución se obtiene en un paso, utilizando directamente la
optimización lagrangiana
de la verosimilitud de los
N
vectores de entrenamiento. En este caso, hay un único multiplicador de Lagrange,
β
, asociado a la restricción de
igualdad:
PK
k=1 πk= 1
.
C) El método más adecuado es el de
esperanza-maximización
(EM), el cual garantiza que que se cumple la restricción
PK
k=1 πk= 1
. Esto es así gracias a que, en cada iteración de EM, los valores de
πk,1kK
, se obtienen como
medias de valores de variables latentes, usando una expresión que se deriva analíticamente mediante la técnica de
los
multiplicadores de Lagrange
con la restricción indicada.
D) El método más adecuado sería el de
esperanza-maximización
(EM), pero no es posible utilizarlo ya que EM es un
método iterativo que no garantiza el cumplimiento de la restricción de igualdad:
PK
k=1 πk= 1
.
4BEn la red bayesiana lineal
x
1 x
2 x
3 x
4
¾cuál de las relaciones siguientes es falsa en general?
A)
P(x1, x4|x2) = P(x1|x2)P(x4|x2)
B)
P(x1, x4|x2) = P(x1)P(x4)
C)
P(x1, x4|x2) = P(x1|x2)P(x4|x1, x2)
D)
P(x1, x4|x2) = P(x4|x2)P(x1|x4, x2)
pf3
pf4

Vista previa parcial del texto

¡Descarga APRENDIZAJE AUTOMÁTICO APR y más Exámenes en PDF de Introducción al Aprendizaje Automático solo en Docsity!

Examen de Aprendizaje Automático

ETSINF, Universitat Politècnica de València, 11 de enero de 2016

Apellidos: Nombre: Grupo:

Cuestiones (2 puntos; tiempo estimado: 30 minutos)

Marca cada recuadro con una única opción de entre las dadas. Cada acierto suma 1/2 puntos y cada fallo resta 1/6 puntos.

1 D Se ha evaluado un sistema de Aprendizaje Automático mediante la técnica de Exclusión individual (Leaving One Out) y utilizando un conjunto de datos que contiene 200 muestras. Se han obtenido un total de 10 errores. Indicar cuál de las armaciones siguientes es razonable:

A) La talla de entrenamiento efectiva es 190 muestras, la del test es de 10 muestras y el error estimado es 5 .0 % ± 0 .3 % B) La talla de entrenamiento efectiva es de 199 muestras, la del test es de 1 muestra y el error estimado es 5. 0 ± 3 .0 % C) La talla de entrenamiento efectiva es de 200 muestras, la del test es de 10 muestras y el error estimado es 5. 0 ± 0 .3 % D) La talla de entrenamiento efectiva es de 199 muestras, la del test es de 200 muestras y el error estimado es 5. 0 ± 3 .0 %

2 D En el problema de optimización con restricciones

minimizar q(Θ), Θ ∈ RD sujecto a vi(Θ) ≤ 0 , 1 ≤ i ≤ k

se cumplen las condiciones complementarias de Karush-Kuhn-Tucker α?i vi(Θ?) = 0 para 1 ≤ i ≤ k. Indicar cuál de las siguientes armaciones se deduce de ellas:

A) Si para un i, α?i = 0, entonces vi(Θ?) > 0 B) Si para un i, α?i = 0, entonces vi(Θ?) = 0, C) Si para un i, vi(Θ?) = 0, entonces α?i = 0 D) Si para un i, α?i > 0 , entonces vi(Θ?) = 0

3 C En la estimación por máxima verosimilitud de los parámetros de una mezcla de K gaussianas de matriz de covarianza común y conocida a partir de N vectores de entrenamiento, los parámetros a estimar son: el vector-media μk y el peso πk de cada gaussiana, k, 1 ≤ k ≤ K. Identicar cuál de las siguientes arnaciones es correcta:

A) Se puede usar descenso por gradiente, ya que los valores de μk no están sujetos a ninguna restricción, lo que hace innecesario recurrir a la técnica de los multiplicadores de Lagrange. B) La solución se obtiene en un paso, utilizando directamente la optimización lagrangiana de la verosimilitud de los N vectores de entrenamiento. En este caso, hay un único multiplicador de Lagrange, β, asociado a la restricción de igualdad:

∑K

k=1 πk^ = 1. C) El método más adecuado es el de esperanza-maximización (EM), el cual garantiza que que se cumple la restricción ∑K k=1 πk^ = 1. Esto es así gracias a que, en cada iteración de EM, los valores de^ πk,^1 ≤^ k^ ≤^ K, se obtienen como medias de valores de variables latentes, usando una expresión que se deriva analíticamente mediante la técnica de los multiplicadores de Lagrange con la restricción indicada. D) El método más adecuado sería el de esperanza-maximización (EM), pero no es posible utilizarlo ya que EM es un método iterativo que no garantiza el cumplimiento de la restricción de igualdad:

∑K

k=1 πk^ = 1.

4 B En la red bayesiana lineal

x 1 x 2 x 3 x 4

¾cuál de las relaciones siguientes es falsa en general?

A) P (x 1 , x 4 | x 2 ) = P (x 1 | x 2 ) P (x 4 | x 2 ) B) P (x 1 , x 4 | x 2 ) = P (x 1 ) P (x 4 ) C) P (x 1 , x 4 | x 2 ) = P (x 1 | x 2 ) P (x 4 | x 1 , x 2 ) D) P (x 1 , x 4 | x 2 ) = P (x 4 | x 2 ) P (x 1 | x 4 , x 2 )

En la siguiente tabla se presenta una muestra de entrenamiento no linealmente separable y los correspondientes multiplica- dores de Lagrange óptimos obtenidos al entrenar una máquina de vectores soporte con esta muestra (y C=10):

i 1 2 3 4 5 xi 1 1 1 1 1 1 xi 2 1 2 3 4 5 Clase +1 +1 1 +1  α?i 0 3.56 10 10 3.

a) Obtener la función discriminante lineal correspondiente

b) Representar grácamente la frontera lineal de separación entre clases y las muestras de entrenamiento, indicando cuáles son vectores soporte.

c) Clasicar la muestra (1, 4 .5)t.

a) Pesos de la función discriminante:

θ?^ = c 2 α? 1 x 2 + c 3 α? 4 x 3 + c 4 α? 5 x 4 + c 5 α? 7 x 5 θ 1 ∗ = 0. 0 θ 2 ∗ ≈ − 0. 67 Usando el vector soporte x 5 (que verica la condición : 0 < α∗ 5 < C) θ 0? = c 5 − θ?tx 5 ≈ 2. 33

b) Frontera de separación y representación gráca: Ecuación de la frontera lineal de separación: 2. 33 − 0. 67 x 2 = 0 Los vectores de entrenamiento son todos los de la tabla. De ellos, los vectores soporte son: (1, 2)t, (1, 3)t, (1, 4)t, (1, 5)t. Representación gráca:

0 0.5 1 1.5 2 0

1

2

3

4

5

6

0.00 0.

3.56 0.

10.00 1.

-10.00 1.

-3.56 0.

c) Clasicación de la muestra (1, 4 .5)t: El valor de la función discriminante para este vector es: 2. 33 − 0. 67 x 2 ≈ − 0. 67 < 0 ⇒ clase -1.

Considerar la red bayesiana R denida como P (R, X, Y, Z) = P (R) P (X | R) P (Y | R) P (Z | R), cuya variable R toma valores en { 1 , 2 , 3 } y las variables X, Y , Z, en el conjunto {"a","b","c"}. Las distribuciones de probabilidad asociadas son como sigue:

P (R) es uniforme: P (R = 1) = P (R = 2) = P (R = 3) P (X | R), P (Y | R) y P (Z | R) son idénticas y vienen dadas en la tabla T.

T "a" "b" "c" 1 1 / 3 0 2 / 3 2 1 / 4 1 / 2 1 / 4 3 0 3 / 5 2 / 5

a) Representar grácamente la red

b) Obtener una expresión simplicada de P (X, Y, Z | R) en función de las distribuciones que denen R y calcular P (X = "a", Y = "a", Z = "a" | R = 1)

c) Calcular P (R = 3 | X = "b", Y = "b", Z = "b")

a) Representación gráca de la red:

R

X Y Z

b) Expresión simplicada de P (X, Y, Z | R):

P (X, Y, Z | R) =

P (R, X, Y, Z)

P (R)

= P (X | R) P (Y | R) P (Z | R)

P (X = "a", Y = "a", Z = "a" | R = 1) =

c) P (R = 3 | X = "b", Y = "b", Z = "b") = P (R = 3, X = ”b”, Y = ”b”, Z = ”b”) P (X = ”b”, Y = ”b”, Z = ”b”)

P (R = 3) P (X = ”b” | R = 3) P (Y = ”b” | R = 3) P (Z = ”b” | R = 3) ∑ r∈{ 1 , 2 , 3 } P^ (R^ =^ r)^ P^ (X^ = ”b”^ |^ R^ =^ r)^ P^ (Y^ = ”b”^ |^ R^ =^ r)^ P^ (Z^ = ”b”^ |^ R^ =^ r)

1 3

3 5

3 5

3 5 1 3 0 0 0 +^

1 3

1 2

1 2

1 2 +^

1 3

3 5

3 5

3 5