Visualização de dados por análise das Componentes principais, Teses de Engenharia de Telecomunicações. Universidade Federal de Alagoas (UFAL)
jBarrosl
jBarrosl5 de fevereiro de 2018

Visualização de dados por análise das Componentes principais, Teses de Engenharia de Telecomunicações. Universidade Federal de Alagoas (UFAL)

PDF (5 MB)
58 páginas
32Número de visitas
Descrição
Projeto de Final de Curso apresentado à Coordenação do Curso de Graduação em Engenharia de Computação da Universidade Federal do Ceará como requisito parcial para a obtenção do diploma de Engenheiro de Computação.
20 pontos
Pontos de download necessários para baixar
este documento
Baixar o documento
Pré-visualização3 páginas / 58

Esta é apenas uma pré-visualização

3 mostrados em 58 páginas

Baixar o documento

Esta é apenas uma pré-visualização

3 mostrados em 58 páginas

Baixar o documento

Esta é apenas uma pré-visualização

3 mostrados em 58 páginas

Baixar o documento

Esta é apenas uma pré-visualização

3 mostrados em 58 páginas

Baixar o documento
Visualização de Dados por Análise das Componentes Principais

UNIVERSIDADE FEDERAL DO CEARÁ

DEPARTAMENTO DE ENG. DE TELEINFORMÁTICA

CURSO DE GRADUAÇÃO EM ENGENHARIA DE COMPUTAÇÃO

VISUALIZAÇÃO DE DADOS POR ANÁLISE DAS

COMPONENTES PRINCIPAIS

ANTÔNIO RAMON VASCONCELOS DE FREITAS

Fortaleza, Ceará

4 de janeiro de 2016

ANTÔNIO RAMON VASCONCELOS DE FREITAS

VISUALIZAÇÃO DE DADOS POR ANÁLISE DAS

COMPONENTES PRINCIPAIS

Projeto de Final de Curso apresentado à Coor- denação do Curso de Graduação em Engenha- ria de Computação da Universidade Federal do Ceará como requisito parcial para a obtenção do diploma de Engenheiro de Computação.

Orientador: Profa. Dra. Fátima Nelsizeuma Sombra de Medeiros

UNIVERSIDADE FEDERAL DO CEARÁ DEPARTAMENTO DE ENG. DE TELEINFORMÁTICA

CURSO DE GRADUAÇÃO EM ENGENHARIA DE COMPUTAÇÃO

Fortaleza, Ceará

4 de janeiro de 2016

ANTÔNIO RAMON VASCONCELOS DE FREITAS

VISUALIZAÇÃO DE DADOS POR ANÁLISE DAS

COMPONENTES PRINCIPAIS

Antônio Ramon Vasconcelos de Freitas

Este Trabalho foi julgado adequado para a obtenção do título de Engenheiro de Computação e aprovado, em sua forma final, pela Coordenação do Curso de Graduação em Engenharia de Computação da Universidade Federal do Ceará em 02 de Dezembro de 2015, com nota ____, na cidade de Fortaleza, Ceará, pela banca examinadora assim constituída:

Profa. Dra. Fátima Nelsizeuma Sombra de Medeiros

Orientador

Prof. Dr. Iális Cavalcante de Paula Júnior

Prof. Dr. Elvio César Giraudo

Fortaleza, Ceará

4 de janeiro de 2016

Dedico este trabalho a minha família.

“Não deixe o ruído das opiniões de outras pessoas calar a sua própria voz interior.”

-Steve Jobs

AGRADECIMENTOS

Aos meus pais Bento e Dorinei, que com esforço e dedicação deram-me o presente maior da educação, e mostraram-me o valor inestimável da família.

À Profa. Dra. Fátima Sombra, pela oportunidade e pelas valiosas sugestões dadas durante a execução deste trabalho.

Aos meus amigos que conviveram comigo durante estes anos de graduação e que tanto me ajudaram.

RESUMO

Este trabalho investiga técnicas para redução da dimensionalidade de dados para fins de vizualização e interpretação de grande volume de dados. Para tanto, analiso grande volume de dados disponíveis em matrizes, através de sua forma visual padrão, e através da aplicação de téc- nicas para redução da dimensionalidade de dados, como a análise das componentes principais. A análise qualitativa é realizada através da visualização e interpretação dos dados, mostrando assim a facilidade com que se pode interpretar os dados após a aplicação de técnicas simples como a transformação por componentes principais.

Nos estudos de caso é feita a aplicação da análise das componentes principais e posterior comparação dos resultados com a matriz de dados original para encontrar padrões no compor- tamento exibido pelos gráficos. Os três primeiros estudos de caso exibem dados de eleições brasileiras e europeias comparando o desempenho de candidatos ou partidos em uma ou vá- rias eleições. No quarto e quinto estudo de caso, são exibidos dados de precipitação de chuva ao longo de vários anos, exibindo diferentes padrões de chuva na região em estudo.

Palavras-Chaves: Análise das Componentes Principais, Redução de Dimensionalidade, Visualização, Eleições, Precipitação de chuvas

SUMÁRIO

Lista de Figuras 10

Lista de Tabelas 11

1 Introdução 12

1.1 Motivação e Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Análise das Componentes Principais 14

2.1 Transformada de Karhunen e Loève . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.1 Reconstrução e Erro Médio Quadrático . . . . . . . . . . . . . . . . . . . . 16

2.2 Estudo de Dados Multivariados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Estudos de Casos 21

3.1 Estudo de Caso 1 - Pesquisas eleitorais para presidência do Brasil - 2014 . . . . . 21

3.1.1 Outras Formas de Exibição . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2 Estudo de Caso 2 - Eleições para presidência do Brasil no período de 1994 a 2014 24

3.2.1 Outras Formas de Exibição . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3 Estudo de Caso 3 - Eleições na União Européia - Parlamento Europeu - 2004 . 28

3.4 Estudo de Caso 4 - Precipitação de chuvas do mês de janeiro na região do Cas- tanhão no Ceará no período de 2004 a 2015 . . . . . . . . . . . . . . . . . . . . . . . 30

3.4.1 Outras Formas de Exibição . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.5 Estudo de Caso 5 - Precipitação de chuvas do mês de fevereiro na região da Cantareira em São Paulo no período de 2009 a 2015 . . . . . . . . . . . . . . . . . 33

4 Resultados e Discussões 34

SUMÁRIO 8

4.1 Estudo de Caso 1 - Pesquisas eleitorais para presidência do Brasil - 2014 . . . . . 34

4.2 Estudo de Caso 2 - Eleições para presidência do Brasil no período de 1994 a 2014 37

4.3 Estudo de Caso 3 - Eleições na União Européia - Parlamento Europeu - 2004 . 40

4.4 Estudo de Caso 4 - Precipitação de chuvas do mês de janeiro na região do Cas- tanhão no Ceará no período de 2004 a 2015 . . . . . . . . . . . . . . . . . . . . . . . 43

4.5 Estudo de Caso 5 - Precipitação de chuvas do mês de fevereiro na região da Cantareira em São Paulo no período de 2009 a 2015 . . . . . . . . . . . . . . . . . 47

5 Conclusão 51

6 Anexos 52

Referências Bibliográficas 57

LISTA DE FIGURAS

2.1 Exemplo projeção da primeira componente principal (Fonte:Próprio Autor). . 18

2.2 Exemplo projeção da primeira e segunda componentes principais (Fonte:Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Exemplo espectro (Fonte:Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Exemplo carga individual (Fonte:Próprio Autor). . . . . . . . . . . . . . . . . . . . 20

3.1 Matriz Estudo de Caso 1 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . 22

3.2 Gráfico de Barras Estudo de Caso 1 (Fonte:Uol Eleições). . . . . . . . . . . . . . . 23

3.3 Gráfico de Porcentagem Estudo de Caso 1 (Fonte:Uol Eleições). . . . . . . . . . 23

3.4 Matriz Estudo de Caso 2 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . 24

3.5 Gráfico de Barras Estudo de Caso 2 (Fonte:G1). . . . . . . . . . . . . . . . . . . . . 26

3.6 Gráfico de Porcentagem Estudo de Caso 2 (Fonte:TSE). . . . . . . . . . . . . . . . 27

3.7 Matriz Estudo de Caso 3 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . 28

3.8 Matriz Estudo de Caso 4 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . 30

3.9 Precipitação de Chuva Diára Estudo de Caso 4 (Fonte:INMET). . . . . . . . . . 31

3.10 Precipitação de Chuvas em Tempo Real Estudo de Caso 4 (Fonte:INMET). . . 32

3.11 Matriz Estudo de Caso 5 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . 33

4.1 Análise das Componentes Principais do Estudo de Caso 1 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.2 Componentes Principais do Estudo de Caso 1 (Fonte: Próprio Autor). . . . . . 35

4.3 Componentes Principais Analisadas do Estudo de Caso 1 (Fonte: Próprio Au- tor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.4 Análise das Componentes Principais do Estudo de Caso 2 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.5 Componentes Principais do Estudo de Caso 2 (Fonte: Próprio Autor). . . . . . 38

LISTA DE FIGURAS 10

4.6 Componentes Principais Analisadas do Estudo de Caso 2 (Fonte: Próprio Au- tor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.7 Análise das Componentes Principais do Estudo de Caso 3 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.8 Componentes Principais do Estudo de Caso 3 (Fonte: Próprio Autor). . . . . . 41

4.9 Componentes Principais Analisadas do Estudo de Caso 3 (Fonte: Próprio Au- tor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.10 Análise das Componentes Principais do Estudo de Caso 4 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.11 Componentes Principais do Estudo de Caso 4 (Fonte: Próprio Autor). . . . . . 44

4.12 Componentes Principais Analisadas do Estudo de Caso 4 (Fonte: Próprio Au- tor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.13 Precipitação de chuvas no Castanhão em 2009 Estudo de Caso 4 (Fonte: Pró- prio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.14 Precipitação de chuvas no Castanhão em 2004 Estudo de Caso 4 (Fonte: Pró- prio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.15 Análise das Componentes Principais do Estudo de Caso 5 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.16 Componentes Principais do Estudo de Caso 5 (Fonte: Próprio Autor). . . . . . 48

4.17 Componentes Principais Analisadas do Estudo de Caso 5 (Fonte: Próprio Au- tor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.18 Precipitação de chuvas na Cantareira em 2013 Estudo de Caso 5 (Fonte: Pró- prio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.19 Precipitação de chuvas na Cantareira 2014 Estudo de Caso 5 (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

LISTA DE TABELAS

2.1 Consumo de gêneros alimentícios no Reino Unido - 1997 (Fonte: Richard- son,2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1 Partidos que disputaram a Presidência desde 1994 (Fonte: Próprio Autor). . . . 25

3.2 Países União Européia (Fonte: Próprio Autor). . . . . . . . . . . . . . . . . . . . . 29

6.1 Anexo - Dados do estudo de caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.2 Anexo - Dados do estudo de caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.3 Anexo - Dados do estudo de caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.4 Anexo - Dados do estudo de caso 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.5 Anexo - Dados do estudo de caso 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1. INTRODUÇÃO

As tecnologias da informação têm desencadeado um grande volume de dados, e desvendar esses dados é um objetivo da indústria da informação, assim como um grande desafio para os estudiosos. Quanto maior o volume de dados mais complexa é a interpretação e consequente- mente problemas podem surgir caso o estudo seja deficiente.

A análise das componentes principais é uma técnica multivariada utilizada para reduzir dimensões de conjuntos de dados multidimensionais. Esta metodologia permite identificar as variáveis inerentes à estrutura inicial de um conjunto de dados e estabelecer um significado físico entre as variáveis e objetos (Rodrigues e Lima, 2009).

Nos últimos anos, variantes da análise das componentes principais foram propostas para fornecer melhores ferramentas estatísticas para as aplicações. Um análogo da análise das com- ponentes principais é encontrar um sentido com maior terceiro momento possível ou outro momento de ordem superior (Hopkins, Shi e Steurer, 2015).

Outros exemplos práticos do uso da técnica descrita anteriormente é a compressão de ima- gens e a separação cega de fontes, permitindo reduzir o espaço necessário para armazenar o conjunto de dados ou a banda para transmissão do conjunto de dados (Gonzalez e Woods, 2008).

1.1 Motivação e Justificativa

Uma das dificuldades de conjuntos de dados com um grande número de variáveis é o seu elevado número de dimensões. Para um ser humano médio é trabalhoso visualizar mais de três dimensões espaciais (Rodrigues e Lima, 2009).

Tradicionalmente, usariamos uma série de gráficos bidimensionais (diagramas de disper- são) para tentar determinar quaisquer relações entre as variáveis, no entanto, o número de interações necessárias para essa tarefa é tipicamente

O(n2), (1.1)

em que n é o número de variáveis. Para grandes conjuntos de dados, esta complexidade elevada não é viável (Richardson, 2009).

Em (Richardson, 2009) o uso da análise de componentes principais é bem demostrado ao

1.2. OBJETIVOS 13

aplicar a técnica simultaneamente em todo o conjunto de dados representando gêneros alimen- tícios ingeridos no Reino Unido. Como os dados exibidos no trabalho não demonstram expli- citamente um resultado satisfatório para um estudo, foi preciso aplicar um processamento de dados para que os dados exibidos fossem melhor interpretados, verificando assim a existência de tendências não observadas anteriormente nos dados.

Neste trabalho são feitos vários estudos de casos utilizando técnicas de redução de dados, a fim de tornar o estudo de grandes volumes de dados uma tarefa que possa ser feita visualmente. De posse destas técnicas realizamos a comparação e a interpretação dos dados brutos com os dados processados.

1.2 Objetivos

• Utilizar técnicas de redução de dimensionalidade do problema em visualização de gran- des volumes de dados,

• Apresentar uma alternativa para extração de informações em grandes volumes de dados,

• Propor uma abordagem simplificada de visualização e interpretação dos dados relacio- nados a diferentes problemas,

• Comparar a abordagem proposta com outras formas de exibição dos dados.

1.3 Organização do Trabalho

Este trabalho está dividido em cinco capítulos conforme descrito abaixo:

• Capítulo 1: apresenta a introdução ao problema, a motivação, a justificativa e os objeti- vos a serem atingidos no trabalho,

• Capítulo 2: introduz as técnicas de redução de dados usadas no trabalho,

• Capítulo 3: ilustra com estudos de casos o emprego das técnicas adotadas,

• Capítulo 4: apresenta os resultados obtidos com as técnicas de redução de dados em cada estudo de caso analisado,

• Capítulo 5: descreve as principais conclusões deste trabalho.

2. ANÁLISE DAS COMPONENTES PRINCIPAIS

A transformada de Karhunen-Loève , ou análise das componentes principais, é uma ferra- menta estatística que possui aplicações em áreas como reconhecimento de padrões, compressão de imagens, e é uma técnica geralmente usada para achar padrões em grandes matrizes de dados (Smith, 2002).

Através da transformada de Karhunen-Loève é possível preservar informações essenciais dos dados e exibir as características não visíveis em um grande conjunto de dados. A análise das componentes principais é uma transformação rotacional que realiza operações de rotação, otimização e projeção (Gonzalez e Woods, 2008).

A análise das componentes principais tem-se destacado como uma das transformações mais valiosas da álgebra linear aplicada. É bastante utilizada em diversas formas de análise da neuro- ciência a computação gráfica, porque é um método simples de extração de informações relevan- tes a partir de conjuntos de dados complexos de serem analisados. Com o mínimo de esforço adicional o método prevê um roteiro para como reduzir um conjunto para uma dimensão menor e revelar uma estrutura simplificada (Shlens, 2005).

2.1 Transformada de Karhunen e Loève

Considere um espaço multiespectral com uma grande quantidade de vetores x. A posição média de cada vetor no espaço é definida de acordo com:

m = ε{x}= 1 K

K ∑

k=1

xk . (2.1)

Em que m é o vetor de médias, xk são os vetores individuais do número total K e ε é o operador de esperança.

Enquanto o vetor de médias é útil para definir a posição média ou esperada de cada vetor no espaço, é importante ter disponível meios onde sua dispersão ou difusão é descrita. Esse é o papel da matriz de covariância (Richards, 1999), definida por

x

= ε 

(x −m) (x −m)t

, (2.2)

2.1. TRANSFORMADA DE KARHUNEN E LOÈVE 15

onde a notação t indica o vetor transposto. Uma estimativa imparcial da matriz de covariância é dada por

x

= 1

K − 1

K ∑

k=1

(xk −m) (xk −m) t . (2.3)

É fundamental para o desenvolvimento da transformação saber se existe um novo sistema de coordenadas no espaço onde os dados podem ser representados sem correlação, ou seja, a matriz de covariância no novo sistema de coordenadas tem que ser diagonal (Richards, 1999). Se os vetores forem representados por y no novo sistema de coordenadas então desejamos en- contrar uma transformação linear G do sistema de coordenadas original tal que

y =Gx, (2.4)

sujeito a restrição de que a matriz de covariância dos dados no novo espaço (y) é diagonal. No espaço de y a matriz de covariância é definida por

y

= ε �

y −my  �

y −my t , (2.5)

onde my é o vetor de médias expressado em termos das coordenadas de y. Assim, temos

my = ε{y}= ε{Gx}=Gmx , (2.6)

onde mx são os dados da média no espaço x. Portanto,

y

= ε 

(Gx −Gmx) (Gx −Gmx) t , (2.7)

que pode ser escrito como

y

=Gε 

(x −mx) (x −mx) t G t , (2.8)

y

=G ∑

x

G t , (2.9)

onde ∑

x é a covariância dos dados no espaço x. Como ∑

y precisa ser diagonal, G pode ser reconhecido como a matriz transposta de autovetores de

x , dado que G seja uma matriz ortogonal (Richards, 1999). Como resultado,

y pode ser identificado como a matriz diagonal de autovalores de

x ,

2.1. TRANSFORMADA DE KARHUNEN E LOÈVE 16

y

=

λ1 0 0 λ2

· · · λN

, (2.10)

onde N é a dimensionalidade da matriz. Como ∑

y é, por definição, uma matriz de covariância e é diagonal, os seus elementos são as variâncias dos dados em suas respectivas coordenadas transformadas. A organização é feita de forma que λ1 > λ2 > ... λN tal que os dados exibem variância máxima em λ1, a próxima maior variância é λ2 e assim em diante, com a menor variância em λN (Richards, 1999).

2.1.1 Reconstrução e Erro Médio Quadrático

Outra importante propriedade da transformada de Karhunen e Loève é a reconstrução de x a partir de y. Como as linhas de G são vetores ortonormais, temos G−1 =G t , qualquer vetor de x pode ser recuperado do seu correspondente em y (Gonzalez e Woods, 2008),

x =G t · y +mx . (2.11)

Suponha que ao invés de usar todos os autovetores ∑

y , seja usado uma matriz Gk formada pelos k autovetores correspondentes aos maiores k autovalores, produzindo uma matriz de transformação de ordem k x n. Os vetores y seriam então k-dimensionais e o vetor de recons- trução de bx não seria mais exato (Gonzalez e Woods, 2008).

bx =G tk · y +mx . (2.12)

O erro médio quadrático ems entre x e bx é dado por

ems = N ∑

j=1

λ j − K ∑

j=1

λ j , (2.13)

ems = n ∑

j=k+1

λ j , (2.14)

como λ j diminui monotonicamente o erro pode ser minimizado selecionando os autovetores associados aos maiores autovalores, entretanto se k = n o erro é nulo (Gonzalez e Woods, 2008).

2.2. ESTUDO DE DADOS MULTIVARIADOS 17

2.2 Estudo de Dados Multivariados

Nesta seção, são examinados dados multivariados reais, a fim de demonstrar o que foi discutido na seção anterior. Será realizada uma análise de componentes principais dos dados e o estudo dos resultados.

A Tabela 2.1 mostra o consumo de gêneros alimentícios por gramas, por semana, de de- zessete tipos diferentes de gêneros alimentícios nos quatro países do Reino Unido em 1997. Os dezessete tipos de gêneros alimentícios são as variáveis e os quatro países são as observações. Um método analítico robusto se faz necessário, para observar tendências e padrões em grandes conjuntos de dados (Richardson, 2009).

O primeiro requisito da análise das componentes principais é identificar um novo conjunto de coordenadas ortogonais pelos dados, obtendo a direção da variância máxima através das coordenadas no espaço 17-dimensional. Este novo eixo é chamado de primeira componente principal, em seguida utilizamos a segunda projeção ortogonal para mapear as coordenadas para este novo eixo. No exemplo da Tabela 2.1 temos as quatro coordenadas 17-dimensionais projetadas na primeira componente principal como mostra a Figura 2.1.

Inglaterra Gales Escócia Irlanda Queijo 105 103 103 66 Carne com Osso 245 227 242 267 Outras Carnes 685 803 750 586 Peixe 147 160 122 93 Óleos e Gorduras 193 235 184 209 Açucares 156 175 147 139 Batatas Frescas 720 874 566 1033 Vegetais Frescos 253 265 171 143 Outros Vegetais 488 570 418 355 Batatas Processadas 198 203 220 187 Vegetais Processados 360 365 337 334 Frutas Frescas 1102 1137 957 674 Cereais 1472 1582 1462 1494 Bebidas 57 73 53 47 Refrigerantes 1374 1256 1572 1506 Álcool 375 475 458 135 Confeitaria 54 64 62 41

Tabela 2.1: Consumo de gêneros alimentícios no Reino Unido - 1997 (Fonte: Richardson,2009).

Em seguida, obtemos a segunda componente principal, que é ortogonal a primeira compo- nente principal, e é a próxima melhor componente para aproximar os dados originais. Agora temos duas componentes definindo um plano bidimensional e podemos projetar as coordena-

2.2. ESTUDO DE DADOS MULTIVARIADOS 18

Figura 2.1: Exemplo projeção da primeira componente principal (Fonte:Próprio Autor).

das como exibido na Figura 2.2.

Como parte da análise das componentes principais, obtemos as informações sobre as con- tribuições de cada componente principal para a variação total do conjunto de dados. Neste caso cerca de 67% da variância nos dados é dada pela primeira componente principal, e apro- ximadamente 97% para a conjunto entre a primeira e segunda componentes principais como mostrado na Figura 2.3. Desta forma, um problema 17-dimensional foi reduzido a um pro- blema bidimensional. Na prática, é geralmente suficiente incluir componentes principais até atingir uma região entre 70% e 80% da variação nos dados (Richardson, 2009).

Também há a possibilidade de considerar a influência de cada uma das variáveis originais sobre as componentes principais como é mostrado na Figura 2.4. Há um grupo central de variáveis em torno do centro de cada componente principal, com quatro variáveis sobre a periferia que não parecem fazer parte do grupo. A Tabela 2.1 revela que, para as três variáveis, batatas frescas, álcool e frutas frescas, há uma notável diferença entre os valores para os países Inglaterra, Gales e Escócia, que são semelhantes, e Irlanda, que é signficativamente maior ou menor. Na Figura 2.2, a Inglaterra, Gales e Escócia foram agrupados, enquanto a Irlanda foi o país que ficou longe do agrupamento.

A análise das componentes principais é capaz de fazer estas associações descritas anterior- mente, assim como, reduzir significativamente a dimensionalidade dos dados, o que permite afirmar que os países Inglaterra, Gales e Escócia são similares com a Irlanda no consumo de

2.2. ESTUDO DE DADOS MULTIVARIADOS 19

gêneros alimentícios. Além disso, a partir da Figura 2.4 foi possível associar variáveis alimen- tícias, com cada conjunto de países.

Figura 2.2: Exemplo projeção da primeira e segunda componentes principais (Fonte:Próprio Autor).

2.2. ESTUDO DE DADOS MULTIVARIADOS 20

Figura 2.3: Exemplo espectro (Fonte:Próprio Autor).

Figura 2.4: Exemplo carga individual (Fonte:Próprio Autor).

3. ESTUDOS DE CASOS

Este trabalho consiste no estudo de grandes conjuntos de dados, a fim de demonstrar o uso da análise das componentes principais, reduzindo a dimensionalidade de cada conjunto para em seguida analisar e interpretar visualmente os cinco estudos de caso, abaixo descritos.

• Pesquisas Eleitorais para Presidência do Brasil - 2014 (Datafolha, 2015),

• Eleições para Presidência do Brasil no período de 1994 a 2014 (TSE, 2015),

• Eleições na União Européia - Parlamento Europeu - 2004 (Rodrigues e Lima, 2009),

• Precipitação de chuvas do mês de janeiro na região do Castanhão no Ceará no período de 2004 a 2015 (Funceme, 2015),

• Precipitação de chuvas do mês de fevereiro na região da Cantareira em São Paulo no período de 2009 a 2015 (INMET, 2015).

Em cada caso foi analisado, a facilidade na obtenção de informações visuais a partir do gráfico respectivo.

3.1 Estudo de Caso 1 - Pesquisas eleitorais para presidência do

Brasil - 2014

A Figura 3.1 ilustra o gráfico da matriz de dados referente às pesquisas eleitorais das elei- ções para presidência de 2014 no Brasil (Anexo 6.1). Este gráfico apresenta onze candidatos representando as variáveis e nove pesquisas que são as observações. Para obtermos a direção da variância máxima é necessário analisar um espaço 11-dimensional. Dado o tamanho do espaço é laborioso saber qual foi o desempenho em relação ao aumento ou diminuição na intenção de votos para cada candidato.

Neste estudo de caso das pesquisas eleitorais para presidência do Brasil em 2014, almejamos identificar quais candidatos tiveram melhor ou pior desempenho estudando toda a matriz de dados. É laborioso identificar qual candidato teve maior predominância de crescimento nas intenções de voto ou de decrescimento nas intenções de voto sem que seja necessário um estudo mais cuidadoso e uma comparação com os outros candidatos.

3.1. ESTUDO DE CASO 1 - PESQUISAS ELEITORAIS PARA PRESIDÊNCIA DO BRASIL - 2014 22

Figura 3.1: Matriz Estudo de Caso 1 (Fonte: Próprio Autor).

3.1.1 Outras Formas de Exibição

A exibição de dados eleitorais é frequentemente feita pela mídia através de outros gráficos mais simples para os leitores, conforme exibem as Figuras 3.2 e 3.3.

A compreensão facilitada dos gráficos nas Figuras 3.2 e 3.3, possui um custo de redução da quantidade de informações apresentadas em cada gráfico. Na Figura 3.2 só existem seis variáveis correspondendo aos candidatos e duas observações sendo possível observar os dados das duas últimas pesquisas eleitorais e na Figura 3.3 existem onze variáveis correspondendo aos candidatos e apenas uma observação sendo possível analisar os dados da última pesquisa.

A perda de informações fica evidente, quando comparada à quantidade de observações da Figura 3.1 e a quantidade de observações nas outras exibições. Quanto mais informações forem retiradas mais custoso será o estudo para obter informações detalhadas sobre o desempenho de cada candidato ao longo das pesquisas eleitorais.

3.1. ESTUDO DE CASO 1 - PESQUISAS ELEITORAIS PARA PRESIDÊNCIA DO BRASIL - 2014 23

Figura 3.2: Gráfico de Barras Estudo de Caso 1 (Fonte:Uol Eleições).

Figura 3.3: Gráfico de Porcentagem Estudo de Caso 1 (Fonte:Uol Eleições).

3.2. ESTUDO DE CASO 2 - ELEIÇÕES PARA PRESIDÊNCIA DO BRASIL NO PERÍODO DE 1994 A 2014 24

3.2 Estudo de Caso 2 - Eleições para presidência do Brasil no

período de 1994 a 2014

A Figura 3.4 exibe a matriz de dados relacionadas às eleições para presidência no Brasil entre 1994 e 2014 com a quantidade de votos que cada partido obteve ao longo das eleições que ocorreram neste período (Anexo 6.2).

Figura 3.4: Matriz Estudo de Caso 2 (Fonte: Próprio Autor).

Desde as eleições de 1994 vários partidos foram criados ou extintos, neste estudo foram considerados todos os partidos que participaram de pelo menos uma eleição para presidência. Todos os partidos envolvidos estão listados na Tabela 3.1 com as respectivas eleições onde ti- veram participação. As linhas da Tabela 3.1 que estão preenchidas com o nome do partido indicam que o mesmo participou da eleição referente a uma coluna. Assim, o partido só terá participado da eleição seguinte se o seu nome estiver na linha correspondente da próxima co- luna. Nem todos os partidos tiveram participação, a contar da primeira eleição e apenas dois partidos, PT e PSDB, estiveram presentes em todas as eleições analisadas.

Neste caso de estudo das eleições para presidência do Brasil no período de 1994 a 2014 a quantidade de informações na Figura 3.4 é bem maior para ser observada visualmente. Temos ao todo vinte e três partidos representando as variáveis e seis eleições que são as observações, para obtermos a direção da variância máxima é necessário analisar um espaço 23-dimensional.

comentários (0)

Até o momento nenhum comentário

Seja o primeiro a comentar!

Esta é apenas uma pré-visualização

3 mostrados em 58 páginas

Baixar o documento