Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Cluster., Apuntes de Industria y Comercio

Asignatura: Técnicas Estadísticas Multivariables, Profesor: Lourdes Salinero, Carrera: Comercio, Universidad: UCM

Tipo: Apuntes

2013/2014
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 07/09/2014

manudolferas
manudolferas 🇪🇸

3.9

(29)

11 documentos

1 / 32

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Técnicas de Agrupación
Segmentación
o Conglomerados
TEMA 5.2:
ANÁLISIS CLUSTER
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
Discount

En oferta

Vista previa parcial del texto

¡Descarga Análisis Cluster. y más Apuntes en PDF de Industria y Comercio solo en Docsity!

Técnicas de Agrupación

Segmentación

o Conglomerados

TEMA 5.2:

ANÁLISIS CLUSTER

Objetivo del análisis cluster

El

objetivo

de

las

técnicas

estadísticas

de

ANÁLISIS

CLUSTER o de CONGLOMERADOS es identificar gruposde individuos con características comunes a partir de laobservación de varias variables en cada uno de ellos Esta

técnica

no

debe

ser

confundida

con

el

análisis

discriminante y los métodos de asignación, que partende un conocimiento previo de los grupos

¿Qué es un cluster?

La solución no siempre es OBVIA

Ejemplos

Técnicas CLUSTER han sido tradicionalmente utilizadasen numerosas disciplinas:

Biología. Taxonomía. MicroarraysMarketing. Segmentación de mercadosCiencias Ambientales. Tipologías de aguas en ríos…

¿Cómo se encuentran los clusters?^ Técnicas para encontrar clusters

Los criterios para identificar los clusters se basan siempreen

MEDIDAS

de

SIMILITUD

o

de

DISCREPANCIA

entre

todos los pares de datos. Algunos procedimientos clusterse

pueden

ejecutar

conociendo

sólo

la

MATRIZ

de

DISCREPANCIASEn

general,

se

busca

HOMOGENEIDAD

dentro

de

los

grupos y HETEROGENEIDAD entre grupos

Decisiones que hay que tomar para hacer un cluster

  1. Elegir el método cluster que se va a emplear

Pasos en el estudio

Dendograma

Los

clusters

están

representados

mediante

trazos

horizontales y las etapas de la fusión mediante trazosverticales. La separación entre las etapas de la fusiónes

proporcional

a^

la

distancia

a^

la

que

se

están

fundiendo los elementos en esa etapa

Representaciones

¿Cómo se encuentran los clusters?^ Distancias entre datos continuos

Distancia EuclídeaDistancia Euclídea (datos estandarizados)Distancia de Mahalanobis

Distancia euclídea. Raíz cuadrada de la suma de cuadrados de las diferenciasentre los valores. Es la medida por defecto para datos de intervaloDistancia euclídea al cuadrado. Suma de cuadrados de las diferencias entrelos valoresCorrelación de Pearson. Correlación producto-momento entre dos vectoresde valoresCoseno. Coseno del ángulo entre dos vectores de valoresChebychev. Diferencia absoluta máxima entre los valoresBloque. Suma de las diferencias absolutas entre los valores. También seconoce como distancia de ManhattanMinkowski. Raíz p-ésima de la suma de las diferencias absolutas elevada a lapotencia p-ésima entre los valoresPersonalizada. Raíz r-ésima de la suma de las diferencias absolutas elevadaa la potencia p-ésima entre los valores de los elementos

¿Cómo se encuentran los clusters? Distancias entre datos continuos en SPSS

¿Cómo se encuentran los clusters? Distancias/Similitudes entre datos cualitativos (binarios)

Para calcular la similitud entre dos individuos para los que seobservan p variables binarias tipo “presencia/ausencia” secalculan todas las situaciones posibles Coeficiente de concordanciasimple Coeficiente de Jaccard Otros coeficientes que se usan menos son Sokal y Sneath: Czekanowski y Sorensen:

Ejemplo de presencia/ausencia de especies

Presencia (1) o ausencia (0) de 15 características en 3 productos Coeficiente de concordanciasimple

Coeficiente de Jaccard

Decisiones que hay que tomar para hacer un cluster

  1. Elegir el método cluster que se va a emplear2. Decidir sobre si trabajar con los datos según se miden

o estandarizados

  1. Seleccionar la forma de medir la DISTANCIA ENTRE

INDIVIDUOS, dependiendo de si los datos soncontinuos, discretos o categóricos

  1. Elegir un criterio para unir grupos, DISTANCIA ENTRE

GRUPOS

Pasos en el estudio

  1. Enlace sencillo (SINGLE LINKAGE): unir por la distancia al

individuo

más

cercano

del

grupo

útil

para

identificar

atípicos

  1. Enlace promedio (AVERAGE LINKAGE): unir por la media

de las distancias a todos los individuos del grupo

  1. Enlace

completo

(COMPLETE

LINKAGE):

unir

por

la

distancia al individuo más alejado del grupo

  1. Enlace de centroides (CENTROID LINKAGE): minimizar la

distancia a los “centros” de los grupos

  1. Método de Ward (WARD LINKAGE): minimizar la suma de

Criterios para unir grupos en métodos jerárquicoscuadrados de las distancias a los centros de los grupos

Criterios