Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Diapositivas, Diapositivas de Biología

Asignatura: analisis, Profesor: Desconocido Desconocido, Carrera: Biología, Universidad: UAH

Tipo: Diapositivas

2014/2015

Subido el 23/06/2015

usuario desconocido
usuario desconocido 🇪🇸

1 / 73

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA TEMA
2:2:
TEMA TEMA
2:2:
TÉCNICAS DE ANÁLISIS TÉCNICAS DE ANÁLISIS
MULTIVARIANTE PARA MULTIVARIANTE PARA
MULTIVARIANTE PARA MULTIVARIANTE PARA
AGRUPACIÓNAGRUPACIÓN
Métodos Métodos clustercluster
éi d ióéi d ió
T
é
cn
i
cas
d
e segmentac
nT
é
cn
i
cas
d
e segmentac
n
Clasificación no supervisadaClasificación no supervisada
Ana Ana
JustelJustel
Ana Ana
JustelJustel
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49

Vista previa parcial del texto

¡Descarga Diapositivas y más Diapositivas en PDF de Biología solo en Docsity!

TEMATEMA

TEMATEMA

TÉCNICAS DE ANÁLISISTÉCNICAS DE ANÁLISIS

MULTIVARIANTE PARAMULTIVARIANTE PARAMULTIVARIANTE PARAMULTIVARIANTE PARA

AGRUPACIÓNAGRUPACIÓN

MétodosMétodos cluster

cluster

é

i^

d

é

i^

d

Técnicas de segmentaciónTécnicas de segmentación

Clasificación no supervisadaClasificación no supervisada

AnaAna

JustelJustel

AnaAna

JustelJustel

Técnicas de análisis multivariante para agrupación

Motivación Métodos para construir clustersMétodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos

Dendrograma Distancias/disimilitud entre individuos

Criterios de proximidad entre grupos Determinación del número de grupos

Ejemplo:Ejemplo: Sostenibilidad municipal^ Disponemos de datos deconsumo per cápita en103 municipios de la

p

Comunidad de Madriddurante 20 años Nos interesa identificar si hay grupos de municipios con una tendenciasimilar en el consumo de agua para identificar buenas prácticas para

la sostenibilidad y zonas problemáticas por alto consumo

y^

p^

p

EjemploEjemplo:

: Mamíferos

Queremos agrupar 25 especies de mamíferos en clusters, en losque las especies tengan en común una cierta homogeneidad en las

í

características de su leche

Un

CLUSTERCLUSTER

es

un

grupo

de

individuos

que

cuando

la

dimensión

¿QUÉ es un CLUSTER?¿QUÉ es un CLUSTER?

Un

CLUSTERCLUSTER

es

un

grupo

de

individuos

que

, cuando la dimensión

lo permite, el ojo humano identifica como homogéneos entre sí yseparados de los individuos de los otros clusters.

p

I^

l^

d^

di

i^

i^

l^

á^

t

¿QUÉ es un CLUSTER?¿QUÉ es un CLUSTER?

Incluso

en

dos

dimensiones

no

siempre

está

claro

cuántos

cluster hay y cómo se agrupan los individuos.

Técnicas de análisis multivariante para agrupación

Motivación Métodos para construir clustersMétodos para construir clusters

Técnicas para encontrar clustersCuando conocemos cuántos grupos hay:Cuando conocemos cuántos grupos hay:

CLUSTERCLUSTER POR

POR PARTICIONES

PARTICIONES.

.^

Producen una partición de

los objetos en un número especificado de grupos siguiendolos objetos en un número especificado de grupos siguiendoun criterio de optimización CLUSTERCLUSTER

JERÁRQUICOJERÁRQUICO.

.^

Producen

una

secuencia

de

Cuando no conocemos cuántos grupos hay:

particiones, juntando o separando clusters. En cada paso sejuntan

o^

separan

dos

clusters

siguiendo

algún

criterio

especificado especificado

Técnicas para encontrar

clusters

En general, se busca

HOMOGENEIDAD

dentro de los grupos y

HETEROGENEIDAD

entre grupos

Técnicas para encontrar

clusters

Los

criterios

para

identificar

los

clusters

se

basan

siempre

en

HETEROGENEIDAD

entre grupos

MEDIDAS de SIMILITUD

o de

DISCREPANCIA

entre todos los

pares

de

datos.

Algunos

procedimientos

cluster

se

pueden

ejecutar conociendo sólo la

MATRIZ

de

DISCREPANCIAS

ejecutar conociendo sólo la

MATRIZ

de

DISCREPANCIAS

Decisiones que hay que tomar para hacer un cluster^ 1. Elegir el método cluster que se va a emplear2. Decidir sobre si trabajar con los datos según se miden o

estandarizados

  1. Seleccionar la forma de medir la

DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS

dependiendo de si los datos son cuantitativos o cualitativos 4

Clusters por particiones: Elegir un criterio de

OPTIMALIDAD

  1. Clusters por particiones: Elegir un criterio de

OPTIMALIDAD

Clusters jerárquicos: Elegir un criterio para unir grupos,^ DISTANCIA ENTRE GRUPOS

  1. Decidir el número de clusters

Estandarización de los datos^ Permite comparar las variables que vienen expresadas en distintasunidades o tienen diferentes magnitudes.^ Las puntuaciones Z son las estandarizaciones habituales deLas puntuaciones Z son las estandarizaciones habituales delos datoslos datos univariantes

univariantes

j

ij

ij^

s

x

x

z^

La transformación se aplica a cadaelemento de la matriz de datos,restando la media y dividiendo por la

s^ j

restando la media y dividiendo por la desviación típica, por variables(columnas)

Propiedades:

  • El vector de medias de los datos estandarizados es un vector de ceros.

L^

t i

d^

i^

d^

l^

d t

t^

d^

i^

d^

l^

t i

d

  • La matriz de covarianzas de los datos estandarizados es la matriz de correlaciones de los datos.

Estandarización de los datos

Datos:Datos:

xx

P^

t^

i^

Z

P^

t^

i^

Z

Ejemplo de puntuacionEjemplo de puntuaciones

es Z:

Z:

Datos:Datos:

xx

Puntuaciones Z:Puntuaciones Z:

yy

ClustersClusters por particiones

por particiones

Existen distintos métodos que difieren en alguna característica K

MEDIAS

Es

el

que

se

usa

más

habitualmente

Fácil

de

D

i i

h

t^

h

l^

t

K

-MEDIAS.

.^

Es

el

que

se

usa

más

habitualmente

.^

Fácil

de

programar y da resultados razonables Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear2. Decidir sobre si trabajar con los datos según se miden o

estandarizadosestandarizados

  1. Seleccionar la forma de medir la

DISTANCIA/DISIMILITUD

ENTRE INDIVIDUOS

DISTANCIA/DISIMILITUD

ENTRE INDIVIDUOS

dependiendo de si los datos son cuantitativos o cualitativos

  1. Clusters por particiones: Elegir un criterio de

OPTIMALIDAD

D

idi

l^

ú^

d^

l^

t

  1. Decidir el número de clusters

Al

it

d

k

di

(KMEDIAS

KMEANS)

KMEDIASKMEDIAS

tiene

por

objetivo

separar

las

observaciones

en

k

Al

goritmo de

k

-medias (KMEDIAS – KMEANS)

KMEDIASKMEDIAS

tiene

por

objetivo

separar

las

observaciones

en

k

clusters, de manera que cada dato pertenezca

a un grupo y

sólo a uno El algoritmo de

K

-MEDIAS

busca con un

método iterativo:

  • Los centroides (medias, medianas,…) de los

k

clusters.

  • Asignar cada individuo a un cluster.

C

C

El objetivo de

OPTIMALIDAD

C

C

que se persigue es “maximizarla homogeneidad dentro de losgrupos”grupos