Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


APRENDIZAJE AUTOMÁTICO APR, Exámenes de Introducción al Aprendizaje Automático

Examen de aprendizaje automático

Tipo: Exámenes

2020/2021

Subido el 22/01/2021

javi-gg
javi-gg 🇪🇸

2 documentos

1 / 7

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Examen de Aprendizaje Automático
ETSINF, Universitat Politècnica de València, 21 de enero de 2020
Apellidos: Nombre: Grupo:
Cuestiones (2 puntos; tiempo estimado: 30 minutos)
Marca cada recuadro con una única opción de entre las dadas. Cada acierto suma 1/2 puntos y cada fallo resta 1/6 puntos.
1DPara un problema de clasicación en dos clases, sea
θ(x;θ)
def
=θtx+θ0
una función discriminante lineal (FDL) y sea H
el hiperplano de decisión denido por
φ(x;θ)=0
. Entre las siguientes supuestas propiedades hay una que es falsa:
A) El valor de
φ(x;θ)
es proporcional a la distancia de
x
a
H
B) La distancia del origen de coordenadas a
H
es
θ0
kθk
C)
H
también está denido por un número innito de FDL
φ06=φ
D) Solo hay una única FDL que dene a
H
2ASe ha evaluado un sistema de Aprendizaje Automático mediante un proceso de
exclusion individual
(Leaving One Out)
usando 1000 muestras etiquetadas. En este proceso se han producido 15 errores en total. Indicar cuál de las armaciones
siguientes es razonable:
A) La talla de entrenamiento efectiva es de 999 muestras y el error estimado es
1.5 % ±0.75 %
B) La talla de entrenamiento efectiva es de 1000 muestras y el error estimado es
1.5 % ±0.15 %
C) La talla de test efectiva es de 999 muestras y el error estimado es
1.5 % ±0.15 %
D) Las tallas de entrenamiento y de test efectivas son de 1000 muestras y el error estimado es
1.5 % ±0.75 %
3DSe desea ajustar por mínimos cuadrados la función
f:R2R
, denida como:
y=f(x)
def
=ax1x2+bx1+cx2
a una
secuencia de
N
pares entrada-salida:
S= (x1, y1),(x2, y2). . . , (xN, yN))
. La técnica empleada es minimizar por descenso
por gradiente la función de error cuadrático:
q(a, b, c) =
N
X
n=1
(f(xn)yn)2
Identica la armación acertada de entre las siguientes:
A) El gradiente es
ax1+bx2+cx1x2
B) El vector gradiente es:
2PN
n=1(f(xn)yn)·xt
n
C) La técnica de descenso por gradiente no es aplicable en este caso ya que la función a ajustar,
f(·)
, no es lineal.
D) El vector gradiente es:
2PN
n=1(f(xn)yn)·(xn1xn2, xn1, xn2)t
4CConsiderar el aprendizaje mediante máquinas de vectores soportes y márgenes blandos con una muestra de apren-
dizaje
x1,...,xN
no separable linealmente. Si un multiplicador de Lagrange óptimo
α
j
, asociado a la restricción
cj(θtxj+θ0)1ζj
,
1jN
, es cero, entonces:
A) La muestra
xj
está mal clasicada
B) La muestra
xj
está clasicada correctamente pero
θ
y
θ0
no es canónico con respecto a la muestra
C) La muestra
xj
está clasicada correctamente
D) La muestra
xj
es un vector soporte
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga APRENDIZAJE AUTOMÁTICO APR y más Exámenes en PDF de Introducción al Aprendizaje Automático solo en Docsity!

Examen de Aprendizaje Automático

ETSINF, Universitat Politècnica de València, 21 de enero de 2020

Apellidos: Nombre: Grupo:

Cuestiones (2 puntos; tiempo estimado: 30 minutos)

Marca cada recuadro con una única opción de entre las dadas. Cada acierto suma 1/2 puntos y cada fallo resta 1/6 puntos.

1 D Para un problema de clasicación en dos clases, sea θ(x; θ) def = θtx + θ 0 una función discriminante lineal (FDL) y sea H el hiperplano de decisión denido por φ(x; θ) = 0. Entre las siguientes supuestas propiedades hay una que es falsa:

A) El valor de φ(x; θ) es proporcional a la distancia de x a H B) La distancia del origen de coordenadas a H es θ 0 ‖θ‖ C) H también está denido por un número innito de FDL φ′^6 = φ D) Solo hay una única FDL que dene a H

2 A Se ha evaluado un sistema de Aprendizaje Automático mediante un proceso de exclusion individual (Leaving One Out) usando 1000 muestras etiquetadas. En este proceso se han producido 15 errores en total. Indicar cuál de las armaciones siguientes es razonable: A) La talla de entrenamiento efectiva es de 999 muestras y el error estimado es 1 .5 % ± 0 .75 % B) La talla de entrenamiento efectiva es de 1000 muestras y el error estimado es 1 .5 % ± 0 .15 % C) La talla de test efectiva es de 999 muestras y el error estimado es 1 .5 % ± 0 .15 % D) Las tallas de entrenamiento y de test efectivas son de 1000 muestras y el error estimado es 1 .5 % ± 0 .75 %

3 D Se desea ajustar por mínimos cuadrados la función f : R^2 → R, denida como: y = f (x) def = ax 1 x 2 + bx 1 + cx 2 a una secuencia de N pares entrada-salida: S = (x 1 , y 1 ), (x 2 , y 2 )... , (xN , yN )). La técnica empleada es minimizar por descenso por gradiente la función de error cuadrático:

q(a, b, c) =

∑^ N

n=

(f (xn) − yn)^2

Identica la armación acertada de entre las siguientes:

A) El gradiente es ax 1 + bx 2 + cx 1 x 2 B) El vector gradiente es: 2

∑N

n=1(f^ (xn)^ −^ yn)^ ·^ x t n C) La técnica de descenso por gradiente no es aplicable en este caso ya que la función a ajustar, f (·), no es lineal. D) El vector gradiente es: 2

∑N

n=1(f^ (xn)^ −^ yn)^ ·^ (xn^1 xn^2 , xn^1 , xn^2 )

t

4 C Considerar el aprendizaje mediante máquinas de vectores soportes y márgenes blandos con una muestra de apren- dizaje x 1 ,... , xN no separable linealmente. Si un multiplicador de Lagrange óptimo α∗ j , asociado a la restricción cj (θtxj + θ 0 ) ≥ 1 − ζj , 1 ≤ j ≤ N , es cero, entonces:

A) La muestra xj está mal clasicada B) La muestra xj está clasicada correctamente pero θ y θ 0 no es canónico con respecto a la muestra C) La muestra xj está clasicada correctamente D) La muestra xj es un vector soporte

Problema 2 (3 puntos; tiempo estimado: 30 minutos)

El perceptrón multicapa de la gura se utiliza para resolver un problema de regresión, con función de activación de los nodos de la capa de salida de tipo lineal y de la capa oculta de tipo sigmoide, y factor de aprendizaje ρ = 1. 0.

+1.

-1.

+1.

-1.

+1.

+1.

-1.

+1.

+1.

-1.

-1. -1. -1.

+1.

-1.

-1.

+1.

θ 321

θ^213

Dado un vector de entrada xt^ = (+2, +2), las salidas de las unidades de la capa de salida son s^21 = 1. 0474 y s^22 = 0. 9526 y las de las unidades ocultas son s^11 = 0. 0474 , s^12 = 0. 2689 y s^13 = 0. 2689. Si el valor deseado de salida es tt^ = (+1, 0), calcular:

a) Los correspondientes errores en los nodos de la capa de salida y en los nodos de la capa oculta.

b) Los nuevos valores de los pesos de las conexiones θ^132 y θ^213.

a) Los errores en la capa de salida (función de activación lineal) son: δ 12 = (t 1 − s^21 ) = − 0. 0474 δ 22 = (t 2 − s^22 ) = − 0. 9526 Los errores en la capa de oculta son: δ 11 = (δ 12 θ^211 + δ 22 θ^221 ) s^11 (1 − s^11 ) = + 0. 0409 ; δ 21 = (δ 12 θ^212 + δ 22 θ^222 ) s^12 (1 − s^12 ) = − 0. 1780 ; δ 31 = (δ 12 θ^213 + δ 22 θ^223 ) s^13 (1 − s^13 ) = + 0. 1780

b) El nuevo peso θ 132 es: θ^213 = θ^213 + ρ δ^21 s^13 = 0. 9872 ; El nuevo peso θ 321 es: θ^132 = θ^132 + ρ δ^13 x 2 = 1. 3559

Problema 3 (2 puntos; tiempo estimado: 20 minutos)

Las variables aleatorias A, B, C, D toman valores en el conjunto { 0 , 1 }. La distribución de probabilidad conjunta de estas variables viene dada por P (A, B, C, D) = P (A) P (B) P (C | A, B) P (D | A, B), donde las distribuciones de probabilidad asociadas son:

P (A = 1) = 0. 3 P (A = 0) = 0. 7

P (B = 1) = 0. 4 P (B = 0) = 0. 6

P (C = 1 | A = 0, B = 0) = 0. 1 P (C = 0 | A = 0, B = 0) = 0. 9

P (C = 1 | A = 0, B = 1) = 0. 2 P (C = 0 | A = 0, B = 1) = 0. 8

P (C = 1 | A = 1, B = 0) = 0. 3 P (C = 0 | A = 1, B = 0) = 0. 7

P (C = 1 | A = 1, B = 1) = 0. 4 P (C = 0 | A = 1, B = 1) = 0. 6

P (D = 1 | A = 0, B = 0) = 0. 9 P (D = 0 | A = 0, B = 0) = 0. 1

P (D = 1 | A = 0, B = 1) = 0. 8 P (D = 0 | A = 0, B = 1) = 0. 2

P (D = 1 | A = 1, B = 0) = 0. 7 P (D = 0 | A = 1, B = 0) = 0. 3

P (D = 1 | A = 1, B = 1) = 0. 6 P (D = 0 | A = 1, B = 1) = 0. 4

a) Representar grácamente la red bayesiana correspondiente

b) Obtener una expresión simplicada de P (A | B, C, D) y calcular su valor para A = 1 cuando B = 1, C = 1 y D = 1.

c) Dados B = 1, C = 1 y D = 1, ¾Cuál es el mejor valor de A que se puede predecir?

a) Representar grácamente la red bayesiana correspondiente

A (^) B

C D

b) Obtener una expresión simplicada de P (A | B, C, D) y calcular su valor para A = 1 cuando B = 1, C = 1 y D = 1.

P (A | B, C, D) =

P (A, B, C, D)

P (B, C, D)

P (A) P (B) P (C | A, B) P (D | A, B)

P (B) ∑

a P^ (A^ =^ a)^ P^ (C^ |^ A^ =^ a, B)^ P^ (D^ |^ A^ =^ a, B)

P (A) P (C | A, B) P (D | A, B)

P (A = 0) P (C | A = 0, B) P (D | A = 0, B) + P (A = 1) P (C | A = 1, B) P (D | A = 1, B)

P (A = 1 | B = 1, C = 1, D = 1) =

c) Dados B = 1, C = 1 y D = 1, ¾Cuál es el mejor valor de A que se puede predecir? a?^ = arg maxa∈{ 0 , 1 } P (A = a | B = 1, C = 1, D = 1) P (A = 0 | B = 1, C = 1, D = 1) = 1 − 0. 391 = 0. 609 ≥ 0. 391 ⇒ valor óptimo de A es a?^ = 0