Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


analise multivariada, Notas de estudo de Química

analise multivariada

Tipologia: Notas de estudo

2011

Compartilhado em 27/11/2011

nei-alencar-1
nei-alencar-1 🇧🇷

4.7

(10)

14 documentos

1 / 93

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d

Pré-visualização parcial do texto

Baixe analise multivariada e outras Notas de estudo em PDF para Química, somente na Docsity!

INTRODUÇÃO À

ANÁLISE DE AGRUPAMENTOS

Wilton de Oliveira Bussab (1) Édina Shizue Miazaki (2) Dalton Francisco de Andrade (3)

Associação Brasileira de Estatística. ABE 9° Simpósio Nacional de Probabilidade e Estatística

São Paulo – julho de 1990

(1) Departamento de Estatística. Instituto de Matemática e Estatística – USP. (2) Departamento de Estatística. Universidade de Brasília. (3) Núcleo Tecnológico para Informática Agropecuária. EMBRAPA – Campinas.

ÍNDICE

CAPÍTULO 1 – EXEMPLO DE ANÁLISE DE AGRUPAMENTOS.

1.1. Introdução.

Este capítulo irá ilustrar as principais etapas do procedimento de A.A., ressaltando as propriedades comuns à maioria dos métodos. Pretende-se também propor um procedimento “científico” que ajude os usuários dessa técnica a avaliar os seus procedimentos. A estrutura básica da aplicação de técnicas de A.A., pode ser decomposta nas seguintes etapas:

(i) Definição de objetivos, critérios, escolha de variáveis e objetos. (ii) Obtenção dos dados. (iii) Tratamento dos dados. (iv) Escolha de critérios de similaridade ou dissimilaridade (parecença). (v) Adoção e execução de um algoritmo de A.A. (vi) Apresentação dos resultados. (vii) Avaliação e interpretação dos resultados.

Convém observar que essas etapas não são independentes. Às vezes, torna-se necessário voltar a etapas anteriores para corrigir e aprimorar etapas posteriores. Mas com a adoção das etapas acima espera-se providenciar ao usuário de A.A. um procedimento metodológico útil. Em capítulos seguintes serão descritas algumas dessas etapas com maiores detalhes. As diversas etapas serão apresentadas através de um exemplo hipotético, artificial, cujo único objetivo é ilustrar e apresentar as principais decisões necessárias à aplicação de técnicas de A.A.

1.2. Definição do Problema.

Pretende-se investigar, exploratoriamente, o histórico de crescimento da massa corpórea das pessoas. O pesquisador gostaria de escolher representantes “típicos” da população para tentar traçar diferentes históricos, através de questionários mais complexos. Desse modo seria conveniente classificar a população alvo em grupos homogêneos segundo alguma característica de interesse. Conseguida essa divisão, poder-se-ia restringir o estudo a um representante de cada grupo, obtendo resultados mais variados e menos custosos. A primeira dificuldade que aparece é a de encontrar um modo rápido de especificar a característica de interesse “massa corpórea”. Após investigar o assunto o pesquisador concluiu que as variáveis peso e altura seriam dois indicadores próximos da sua característica de interesse. Assim, o objetivo operacional passou a ser o de agrupar os indivíduos da população alvo segundo duas variáveis facilmente mensuráveis: peso e altura. Esta fase é a mais importante de A.A., a de fixação dos critérios de homogeneidade. Critérios distintos levam a grupos homogêneos distintos, e o tipo de homogeneidade depende dos objetivos a serem alcançados.

1.3. Obtenção dos Dados.

Como ainda é uma fase exploratória o pesquisador decidiu usar as informações de seis pessoas de seu conhecimento como estudo piloto. A altura foi medida em centímetros e o peso em quilogramas. Os resultados estão na Tabela 1.1.

Tabela 1.1. Dados Pessoais de Seis Indivíduos do Estudo-Piloto

INDIVÍDUO ALTURA PESO IDADE INSTRUÇÃO COR SEXO

A B C D E F

UNIV.

UNIV.

SECUND.

UNIV.

SECUND.

PRIMÁRIO

PRETA

BRANCA

BRANCA

PARDA

PARDA

BRANCA

M M F F M F

Este é o material básico para a aplicação das técnicas de A.A., a matriz de dados. Ela indica os valores das características por objetos de interesse. Convencionamos neste livro indicar os objetos nas linhas e as variáveis nas colunas. Veja Quadro 1.1. (a).

Quadro 1.1. Matrizes de Dados.

(a) Brutos (b) Relativos (Padronizados).

1 2 1 11 12 1 2 21 22 2 3 4 1 2

p p p

n n np

X X X

a x x x

a x x x

X

a

a x x x

11 12 1 21 22 2

1 2

p p

n n np

z z z z z z Z

z z z

Usualmente pretende-se agrupar objetos semelhantes segundo suas características (variáveis). Mas nada impede que o interesse seja o de agrupar variáveis segundo os valores obtidos pelos objetos. Em capítulos posteriores essa questão voltará a ser tratada. É muito importante a definição do objeto, e a correspondente atribuição do valor da característica. Por exemplo, o objeto pode ser pessoa e a variável de interesse salário. Ou o objeto pode ser família e a variável de interesse o salário do chefe. Observe que a característica é a mesma, mas associada a objetos distintos, e com significado bem distinto para o processo de agrupar.

onde zi(.) indica o valor da variável Zi para o ponto indicado. Aplicando esta fórmula para todos

os pares da matriz Z , obtêm-se a matriz de parecença D derivada da matriz Z. Ela está construída no Quadro 1.2.(a). A inspeção desta matriz, além de confirmar os resultados observados na figura, explicita outras conclusões que não estavam tão claras. Por exemplo, B está mais próximo de A do que de C. Mais ainda, analisando apenas a matriz de similaridade chegar-se-iam aos mesmos resultados da inspeção gráfica.

Figura 1.1. Representação Cartesiana do Peso e Altura do Estudo Piloto.

(a) Dados Brutos.

(b) Dados Padronizados.

Quadro 1.2. Matriz de Similaridade entre os objetos do Estudo-Piloto, segundo a Distância Euclidiana dos Dados Padronizados.

(a) Distância Usual

A B C D E F

A B C D D E F

(b) Distância Reduzida.

A B C D E

B

C

D D

E

F

Outra vantagem ocorre quando existem muitos atributos classificatórios onde torna-se inviável a inspeção gráfica, mas é possível criar coeficientes de parecença entre os objetos. Um exemplo simples é a generalização da distância euclidiana para um espaço de dimensão p , a saber 1/ 2 2 1

p i i i

d A B z A z B p (1.5.3.)

Neste livro, a menos que seja especificado, sempre será usada esta última expressão para a distância euclideana. No Quadro 1.2.(b), aparece a distância reduzida para o Estudo- Piloto. Aproveitou-se também para eliminar uma linha e uma coluna da matriz, por terem significados óbvios.

1.6. Aplicação da Técnica de Agrupamento.

A escolha de um particular algoritmo de agrupamento exige o conhecimento de suas propriedades aliado aos objetivos da pesquisa. Neste exemplo ilustrativo supor-se-á, sem mais explicações, que a escolha recaiu no método da média das distâncias (M.M.D.). Este é um processo hierárquico, e em cada passo diminui uma dimensão da matriz de parecença pela reunião de pares semelhantes até reunir todos os pontos em um único grupo. Abaixo aparecem os diversos passos da aplicação do método ao exemplo ilustrativo.

É necessário reconstruir a nova matriz de similaridade. Como os pontos A , B , C e E não sofreram alterações as distâncias entre eles também continuam as mesmas. Veja no Quadro 1.1.(b) os resultados. É necessário definir a distância entre o conjunto ( DF ) e os demais pontos. É aqui que a maioria dos métodos se diferencia, e algumas das alternativas serão abordadas no Capítulo 3. O M.M.O., define a distância entre dois grupos com a média entre os valores individuais dos objetos de um dos grupos com os do outro. Assim:

d A DF d A D d A F

d B DF d B D d B F

d C DF

d E DF

Com a obtenção da matriz de parecença (Quadro 1.3.(b)), conclui-se o passo 1, que reuniu os pontos D e F , num nível igual à 0,37.

Passo 2. Analisando a nova matriz de similaridade nota-se que existem dois pares com a mesma proximidade A com B e B com E. Embora raro de acontecer na prática, o processo recomenda selecionar aleatoriamente um dos pares e criar o novo grupo. Porém, os pacotes computacionais, por facilidade de programação, escolhem o primeiro par que aparece para agrupar. Desse modo, neste passo agrupa-se A com B , obtendo-se os seguintes grupos: C , E , ( DF ) e ( AB ). Como no caso anterior, as distâncias entre C , E e ( DF ) não se alteram, conforme aparece na Tabela (c) do Quadro 1.3. As distâncias de ( AB ) com os demais pontos serão:

( , ) [ ( , ) ( , )] / 2 (1,41 0,74) / 2 1 ,

( , ) [ ( , ) ( , )] / 2 (0,79 0,67) / 2 0,

( , ) [ ( , ) ( , ) ( , ) ( , )] / 4

d C AB d C A d C B

d E AB d E A d E B

d DF AB d D A d D B d F A d F B

Termina aqui o passo 2 com A sendo reunido à B ao nível 0,67.

Passo 3. Reunir E com (AB) ao nível 0,73 de similaridade, obtendo-se os grupos C , ( DF ) e ( ABE ). Recalculando as distâncias necessárias tem-se

( , ) [ ( , ) ( , ) ( , )] / 3

( , ) [ ( , ) ( , ) ( , ) ( , ) ( , ) ( , )] / 6

d C ABE d C A d C B d C E

d DF ABE d D A d D B d D E d F A d F B d F E

Com a construção da matriz (d), Quadro 1.3, encerra-se este passo.

Passo 4. Reunir C com ( DF ), ao nível 0,95, obtendo-se a partição ( ABE , CDF ). A distância entre os dois grupos será:

( , ) [ ( , ) ( , ) ( , ) ( , ) ( , )

( , ) ( , ) ( , ) ( , )] / 9 1,

d ABE CDF d A C d A D d A F d B C d B D

d B F d E C d E D d E F

Conclui-se escrevendo a matriz (c) do Quadro 1.3.

Passo 5. O processo encerra reunindo num único grupo os conjuntos ABE e CDF, que são iguais a um nível 1,64 de parecença.

Como já foi dito, existem diferentes métodos para agrupar elementos que serão discutidos futuramente. O importante é conhecer suas propriedades, qualidade e deficiências, pois irá ajudar à escolha daquele que melhor responde aos objetivos do trabalho.

1.7. Apresentação dos Resultados.

As etapas descritas na seção anterior, embora instrutivas acerca do processo de agrupar, não facilitam a interpretação dos resultados. Necessita-se de instrumentos mais apropriados, e um deles é o resumo das etapas descritivas acima. A Tabela 1.3. mostra em cada etapa a formação dos grupos e os respectivos níveis em que eles são formados. É muito importante entender o significado desse nível, e sugerimos ao leitor refletir um pouco mais acerca desse conceito. Dificilmente dois objetos serão exatamente iguais, mas sendo condescendentes no critério de “igual” pode-se aceitar que eles são “parecidos”. Assim, os objetos D e F podem ser considerados semelhantes, e esse grau de semelhança é avaliado com uma nota 0,37. Observe que não existe um padrão com o qual podemos comparar este número para afirmar se é muito ou pouco. O conhecimento do processo e a familiaridade com as grandezas envolvidas é que irão ajudar. Duplicando esse nível, ou seja, relaxando um pouco mais o conceito de semelhança, concluir-se-ia que além de D e F também seriam considerados semelhantes entre si, os objetos A , B e F. E assim por diante seriam interpretados os dados da tabela mencionada.

Tabela 1.3. Resumo do M.M.D. Aplicado aos Dados do Estudo-Piloto.

PASSO JUNÇÃO NÍVEL

D,F

A,B

AB,E

C,DF

ABE,CDF

A tabela resumo possui uma representação gráfica muito útil e muito usada em A.A., conhecida por dendrograma (gráfico em forma de árvore), ilustrado na Figura 1.2. A escala vertical à esquerda, indica o nível de similaridade. No eixo horizontal são marcados os objetos, numa ordem conveniente, as linhas verticais partindo dos objetos têm altura correspondente ao nível em que os objetos são considerados semelhantes. A grande vantagem do dendrograma é mostrar graficamente o quanto é necessário “relaxar” o nível de parecença para considerar grupos próximos. Observando a Figura 1.2., notamos que o maior salto é observado na última etapa, sugerindo à existência de dois grupos homogêneos: ( A , B , E ) e ( C , D , F ). Tendo obtido esses resultados, é conveniente voltar aos dados para uma melhor compreensão do processo de agrupar. Baseado no dendrograma é conveniente reescrever os dados originais e a matriz de similaridade na ordem produzida pelo método de agrupamento. Estes procedimentos foram feitos na Tabela 1.4 e Quadro 1.4.

1.8. Avaliação e Interpretação dos Resultados.

O dendrograma pode ser considerado a representação simplificada da matriz de similaridade, e, portanto, se coloca a pergunta: é uma “boa” simplificação?. Uma das maneiras de responder é verificar a capacidade do dendrograma em reproduzir a matriz de similaridade. O primeiro passo para isso é construir a matriz cofenética, que é a matriz de distância entre os objetos obtidos a partir do dendrograma. Por exemplo, a distância entre os pontos A e C é dada pelo nível em que os dois são agrupados, e que é 1,64 pelo dendrograma. Já a distância entre A e E será 0,73. Procedendo de modo análogo para os demais pontos constrói-se a matriz cofenética do Quadro 1.5.

Quadro 1.5. Matriz Cofenética Baseada no Dendrograma da Figura 1.2.

A B C D E F

C

Quadro 1.6. Cálculo do Coeficiente de Correlação Cofenético.

PAR S C PAR S C PAR S C

AB

AC

AD

AE

AF

BC

BD

BE

BF

CD

CE

CF

DE

DF

EF

s ... distância da matriz de similaridade. c ... distância da matriz cofenética. cc = corr(s, c) = 0,75 = 1,27 = 1,28 ss = 0,63 sc = 0,

Deve-se agora verificar a proximidade das duas matrizes, e esta é fornecida pelo coeficiente de correlação entre os valores da matriz de similaridade e os correspondentes da matriz cofenética. Este índice é chamado Coeficiente de Correlação Cofenética. As operações necessárias aos cálculos estão no Quadro 1.6. No caso do Estudo-Piloto este indicador é 0,75. Quanto mais próximo da unidade melhor será a representação, e quanto mais próximo de zero será pior. O valor observado 0,75 é alto ou baixo?. Responder a isto é tão difícil como responder, na maioria das situações, o que é um alto coeficiente de correlação entre duas variáveis. Depende da área de estudo e de padrões que vão se desenvolvendo com a prática. Pode-se adiantar que em A.A., algo em torno de 0,8 já pode ser considerado bom ajuste.

Analisando todos os resultados do exemplo ilustrado, poder-se-ia concluir que a amostra piloto sugere dois tipos de indivíduos: pequenos e grandes. Para continuar o estudo retrospectivo bastaria escolher (ou sortear) apenas duas pessoas: Uma do conjunto ( A , B , E ) e outra de ( C , D , F ), e teríamos elementos “representativos” do grupo, segundo os critérios de altura e peso, na crença de que essas variáveis sejam substitutas da característica de interesse.

1.9. Sumário.

As técnicas de A.A. exigem de seus usuários a tomada de uma série de decisões interdependentes, que requerem o conhecimento das propriedades dos diversos algoritmos a disposição. Algumas dessas decisões envolvem conteúdos mais metodológicos, enquanto que outras mais o caráter técnico. Deve-se iniciar explicitando claramente o objeto e os objetivos desejados com a aplicação da A.A. Também devem ser explicitados os critérios (variáveis) que irão definir as semelhanças entre os objetos. Muitas vezes essas variáveis necessitam de transformações para tornarem-se mais adequadas aos objetivos enunciados. Obtida a matriz de dados transformados o próximo passo é a escolha de um coeficiente de semelhança entre os objetos. Em seguida escolher o método de obter os grupos homogêneos e a apresentação dos resultados obtidos. Finalmente, avaliar e interpretar, à luz dos objetivos, os resultados produzidos. Outras questões também aparecem como as de encontrar quantos grupos homogêneos existem nos dados.

1.10. Exercícios.

  1. Usando as informações sobre instrução e sexo dos dados na Tabela 1.1. (a) procure construir uma matriz de parecença entre os objetos; (b) construa um dendrograma descrevendo o processo de agrupamento.
  2. Estudando a multicolinearidade entre 5 variáveis encontrou-se a seguinte matriz de correlação entre elas:

R

Proponha e realize um procedimento análogo ao descrito neste capítulo para agrupar as variáveis.

CAPÍTULO 2 – MEDIDAS DE DISTÂNCIA E SIMILARIDADE.

2.1. Medidas de Similaridade e Dissimilaridade. (Parecença)

Um conceito fundamental na utilização das técnicas de A.A. é a escolha de um critério que meça a distância entre dois objetos, ou que quantifique o quanto eles são parecidos. Esta medida será chamada de coeficiente de parecença. Cabe observar que tecnicamente pode-se dividir em duas categorias: medidas de similaridade e de dissimilaridade. Na primeira quanto maior o valor observado menos parecido (mais dissimilares) serão os objetos. Coeficiente de correlação é um exemplo de medida de similaridade, enquanto que distância euclideana é um exemplo de dissimilaridade. De um modo geral, é possível construir uma medida de dissimilaridade a partir de uma de similaridade e vice-versa. A maioria dos algoritmos de A.A. estão programados para operarem com o conceito de distância (dissimilaridade), exigindo do usuário o esforço da transformação (veja Exemplo 2.1.). Devido a essas duas observações, neste livro não será feita a distinção, a menos que a particular situação assim o exija. Deste modo para facilitar a linguagem e chamar a atenção para a diferença, usar-se-á o termo matriz de parecença para indicar semelhança ou distância entre objetos.

Exemplo 2.1.

Estudando o comportamento de 3 variáveis X 1 , X 2 e X 3 , usou-se o coeficiente de correlação como coeficiente de parecença (similaridade), com os seguintes resultados:

1 2 3 1 2 3

X X X

X

S X

X

Note-se que as duas variáveis com comportamento mais parecidos são X 2 e X 3 e que possuem a maior correlação entre eles. Já X 1 e X 2 seriam as menos similares. Com a transformação d(.,.) = 1 – corr(.,.) obtém-se a matriz de dissimilaridades.

1 2 3 1 2 3

X X X

X

D X

X

Indicando que quanto maior o valor observado, menos parecidos são os objetos.

O coeficiente de correlação negativo, às vezes, pode ter o mesmo significado que o positivo, ou seja indica o mesmo grau de similaridade, nesses casos usa-se a transformação d(.,.) = 1 – |corr(.,.)|, produzindo

1 2 3 1 2 3

X 0,

X 0,30 0,

X 0,40 0,25 1 ,

X X X

D

Muitas vezes os coeficientes de parecença não são definidos de um modo muito preciso, e não definem uma métrica sobre o espaço dos objetos. Isso pode levar a alguns problemas sérios de interpretação. Aqui não serão aprofundadas estas questões, e os interessados encontrarão mais informações em Späth (1980). Como já foi discutido anteriormente, também a escolha das variáveis influi na definição das semelhanças. Neste capítulo será suposto definidas as variáveis e estudar-se-á diversos modos de definir parecença. Apenas, para facilitar a apresentação, serão tratadas inicialmente as variáveis quantitativas, depois as qualitativas nominais e as qualitativas ordinais. Finalmente sugerem-se maneiras para tratamento de variáveis mistas.

2.2. Coeficientes de Parecença para Atributos Quantitativos.

2.2.1. Medidas Derivadas da Distância Euclideana.

Considere o vetor x de coordenadas reais, (x 1 , x 2 , ..., xp), como descritor dos objetos que serão investigados os assemelhamentos. A medida mais conhecida para indicar a proximidade entre os objetos A e B e a distância euclideana (DE):

1/ 2 2 1

p i i i

d A B x A x B (2.1. a .)

ou em linguagem matricial

1/ 2

d A B ( , ) ( ( x A ) x B ( ))'( ( x A ) x B ( )) (2.1. b .)

Uma primeira medida derivada desta, e muito usada em A.A., é o coeficiente da distância euclideana média (DEM), onde a soma das diferenças ao quadrado é dividido pelo número de coordenadas envolvidas, isto é,:

1/ 2 2 1

p i i i

d A B x A x B p (2.2.)