Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Análise de Dados: Técnicas e Aplicações, Trabalhos de Análise Matemática

Análise Multivariada para fazer a redução dos dados de uma pesquisa, dentro dela encontramos a análise de componentes principais e análise factorial

Tipologia: Trabalhos

2021

Compartilhado em 29/05/2021

felizardo-chicra-6
felizardo-chicra-6 🇧🇷

5

(1)

2 documentos

1 / 75

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Dra Nasma da Glória J. Langa
Bacharel e Licenciada em Ensino de Matemática pela UPQ
Mestre em Estatística pela UPM
Contactos: [email protected]/844720028 Página 1
Faculdade de Ciências e Tecnologias
Curso de Licenciatura em ensino de Matemática com minor em Estatística
Texto de apoio de Análise de Dados.
Análise Multivariada
Estabelecer relações, encontrar, ou propor, leis explicativas, é papel próprio da ciência.
Para isso, é necessário controlar, manipular e medir as variáveis que são consideradas
relevantes ao entendimento do fenómeno analisado. Muitas são as dificuldades em traduzir
as informações obtidas em conhecimento, principalmente quando se trata da avaliação
estatística das informações.
Os métodos estatísticos, para analisar variáveis, estão dispostos em dois grupos: um que
trata da estatística, que olha as variáveis de maneira isolada a estatística univariada, e
outro que olha as variáveis de forma conjunta a estatística multivariada.
Análise univariada: Análise de distribuições de uma única variável
Análise bivariada: classificação cruzada, correlação, análise de variância e regressão
simples para analisar duas variáveis
Análise multivariada: Análise simultânea de muitas (múltiplas) variáveis em um único
relacionamento ou conjunto de relações
Refere-se a análise multivariada todos os métodos estatísticos que simultaneamente
analisam múltiplas medidas sobre cada individuo ou objecto sob investigação. Qualquer
análise simultânea de mais de duas variáveis, pode ser considerada análise multivariada.
Quando se analisa o mundo que nos cerca, identifica-se que todos os acontecimentos, sejam
eles culturais ou naturais, envolvem um grande número de variáveis. As diversas ciências
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b

Pré-visualização parcial do texto

Baixe Análise de Dados: Técnicas e Aplicações e outras Trabalhos em PDF para Análise Matemática, somente na Docsity!

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

Faculdade de Ciências e Tecnologias Curso de Licenciatura em ensino de Matemática com minor em Estatística Texto de apoio de Análise de Dados.

Análise Multivariada Estabelecer relações, encontrar, ou propor, leis explicativas, é papel próprio da ciência. Para isso, é necessário controlar, manipular e medir as variáveis que são consideradas relevantes ao entendimento do fenómeno analisado. Muitas são as dificuldades em traduzir as informações obtidas em conhecimento, principalmente quando se trata da avaliação estatística das informações. Os métodos estatísticos, para analisar variáveis, estão dispostos em dois grupos: um que trata da estatística, que olha as variáveis de maneira isolada – a estatística univariada , e outro que olha as variáveis de forma conjunta – a estatística multivariada.

Análise univariada : Análise de distribuições de uma única variável

Análise bivariada : classificação cruzada, correlação, análise de variância e regressão simples para analisar duas variáveis

Análise multivariada : Análise simultânea de muitas (múltiplas) variáveis em um único relacionamento ou conjunto de relações Refere-se a análise multivariada todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada individuo ou objecto sob investigação. Qualquer análise simultânea de mais de duas variáveis, pode ser considerada análise multivariada. Quando se analisa o mundo que nos cerca, identifica-se que todos os acontecimentos, sejam eles culturais ou naturais, envolvem um grande número de variáveis. As diversas ciências

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

têm a pretensão de conhecer a realidade, e de interpretar os acontecimentos e os fenómenos, baseadas no conhecimento das variáveis intervenientes, consideradas importantes nesses eventos.

Interesse e utilidade

  • Avanços na análise de dados
  • Computadores podem analisar grande quantidade de dados complexos
  • Microcomputadores e programas estatísticos (SPSS, SAS, MINITAB, STATISTICA, entre outros
  • Cresce o interesse por técnicas multivariadas
  • Auxilia na compreensão de comportamentos complexos no ambiente de trabalho
  • Acrescenta informações potencialmente úteis
  • Permite preservar as correlações naturais entre as múltiplas influências de comportamento sem isolar qualquer indivíduo ou variável
  • Auxilia na compreensão de comportamentos complexos no ambiente de trabalho
  • Acrescenta informações potencialmente úteis
  • Permite preservar as correlações naturais entre as múltiplas influências de comportamento sem isolar qualquer indivíduo ou variável

Tomada de decisão No meio educacional os indivíduos (directores, professores, estudantes, entre outros) possuem características sociodemográficas muito variadas. Somente pela análise multivariada as múltiplas relações podem ser analisadas. Todo pesquisador (profissional ou académico) deve sustentar sua análise de dados em bases teóricas e quantitativas

Conceitos básicos Como anteriormente mencionado o constructo da análise multivariada é a variável.

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

^ ^ 

n j

s (^) jk sj n xij xj xik xk 1

(^2 1) é a co-variância amostral entre as variáveis xj exk

S contém as variâncias na diagonal e todas as co-variâncias no resto dos elementos. A co-variância depende das unidades de medida. Para medir o grau de associação linear entre duas variáveis. Por isso é mais habitual usual o coeficiente de correlação de Pearson e a matriz de correlação R.

Matriz de correlações :

r r 1

r r

r r R p1 p

2p

2 1p

21

1

j k jk jk

s s

s

r  é a correlação amostral entre as variáveis xj exk

O coeficiente de correlação não depende das unidades de medida. Toma valores entre -1 e

  1. O sinal indica se a relação é positiva ou negativa.

Box-plot múltipla Se usa para comparar: Uma variável em diferentes grupos. Várias variáveis só quando as unidades de medis são compatíveis.

Diagrama de caixa no SPSS Gráficos! Diagramas de caixa ....

  1. Na janela Diagrama de caixa seleccionar as opções Agrupado e Resumos para distintas variáveis - Definir.
  2. Passar todas as variáveis quantitativas originais do quadro esquerdo (ou o subconjunto que desejamos estudar) ao quadro direito as caixas representam:
  3. Passar a variável categórica ao quadro Eje de categorias:

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

  1. Passar a variável id ao quadro Etiquetar os casos mediante:
  2. Seleccionar Opções... y marcar: _ Excluir caso variável por variável – Continuar.
  3. Por último – Aceitar.

Matriz de diagramas de dispersão Se constrói um quadrado com tantas linhas e colunas como variáveis. Na diagonal se da informação de cada uma das variáveis. No resto das casas se constrói os gráficos de dispersão entre todos os pares de variáveis.

“Distâncias estatísticas” entre dados: quando para calcular a distância entre dois dados importa o resto dos dados. É uma medida numérica determinada entre duas variáveis quantitativas.

Distância Euclidiana

  (^)   

p E i k j ij kj d x x x x 1

,^2

Intuitivamente é a distância mais natural, a linha recta. O problema desta distância é que não tem em conta a variabilidade dos dados. Para resolver este problema podemos normalizar os dados coluna por coluna para evitar o efeito de escala. A continuação se calcula a distância euclidiana.

  (^)   

^ p ^  j (^) j SE i k ij kj s d x x x x 1

2 ,

Um outro problema é que esta distância não tem em conta a correlação.

Distância de Mahalanobis É baseada nas correlações entre variáveis com as quais distintos padrões podem ser identificados e analisados. É uma estatística útil para determinar a similaridade entre uma amostra desconhecida e uma conhecida. Distingue-se da distância euclidiana já que tem em

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

  1. Utilizar procedimentos resistentes a outliers (medianas em lugar de médias, teste de rangos no lugar de teste t, etc.) Os outliers não devem se descartados pelo facto de que pareçam dados raros Detenção de valores atípicos (outliers) Em dados univariados : se assume que os dados vêm de uma normal e para comprovar se um dado é atípico se calcula seu valor tipificado eliminando lhe do calculo da media e desvio padrão. O dado será candidato a outlier se obtemos um valor fora do intervalo [-2, 2]. Em dados multivariantes : os valores atípicos podem ser por uma combinação inusual dos valores de várias variáveis. Para comprovar se um dado é atípico se calcula a distância de Mahalanobis do dado que esta no centro do grupo formado pelo resto dos dados. A identificação dos outliers pode ser feita a partir do gráfico de Box – plot. Todas as observações que excedem os limites da caixa são representados no gráfico com o símbolo de e identificados como outliers. Se alguns dos outliers ultrapassarem 3 vezes a largura da caixa, para além dos limites da mesma, é costume assinala-los com o símbolo diferente, *, e designa-los por extremos ou outliers severos. Assim são identificados como extremos todas as observações que se situam para além das barreiras FL  3 d (^) F eFU  3 dF ou seja Q 1 (^)  3 IQ eQ 3  3 IQ. São

identificados como outliers todas as observações que, não sendo extremos, se situam para além das barreiras FL  1 , 5 dF eFU  1 , 5 dF.

FL  Q 1  quartilum , FU  Q 3  quartil tres , dF  IQ  Q 3  Q 1 int ervalo interquartil

Distribuição Normal multivariada. Um vector aleatório de dimensão p segue una distribuição normal se sua função de densidade é:

        

f x  ^21   2 p^  x  ' ^1 x  2 2 exp^1

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

Donde



 p

 ^2

1 e 

 p p pp

p

p

1 2

21 22 2

11 12 1 logo X ~ Np  ,

Para um conjunto de dados multivariantes (com p> 2),

Como podemos saber se vem de una distribuição normal?

a) É necessário que todas as variáveis por separado sejam normais.

Faremos as provas de normalidade habituais:

Histogramas, gráficos probabilísticos normais, teste de normalidade,…

Se existem relações entre as variáveis, tem que ser lineares (bajo normalidade, se não há

correlações, então as variáveis são independentes).

Representaremos os dados em matrizes de diagramas de dispersão.

Se os dados vêm de uma normal multivariada se têm que cumprir a) e b), mesmo que se

cumpram não implica que sempre os dados sejam normais. Há mais propriedades difíceis

de comprovar.

Homogeneidade da variância A homocedasticidade (homogeneidade da variância ou variância constante) detecta, geralmente, nos gráficos dos resíduos frente as predições em caso de dúvida o teste de Levene ou de Brausch-Pagan são testes formais para testar a homocedasticidade dos

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

A forma do cálculo com recurso á mediana é particularmente robusta e potente para desvios á normalidade da variável em estudo (principalmente para distribuições fortemente enviesadas).

Para uma probabilidade de  100 %rejeita-se a H 0 se W  f 1  ; k  1 , N  k . O menor valor de

 a partir do qual (^) Wf 1  ; k  1 , Nk é chamada probabilidade de significância (p-valor).

Nota: homogeneidade da variância refere-se a igualdade da variância entre as variáveis.

Testes de normalidade e homogeneidade da variância no SPSS O teste de Kolmogorov – Smirnov e o teste de Levene encontram-se no menu: Analyze – Descriptive Statistics – Explore Para o teste de normalidade: Explore – plots – Normality plots with test Para o teste de Levene: Explore – plots – Untransformed na área de Spread vs. Level with Levene test.

Técnicas multivariadas

Regressão múltipla: é o método de análise apropriado quando o problema de pesquisa

envolve uma única variável dependente métrica considerada relacionada a duas ou mais

variáveis independentes métricas.

O objectivo é prever as mudanças na variável dependente como resposta a mudanças nas

variáveis independentes. Para alcançar esse objectivo usa-se muitas vezes a regra dos

mínimos quadrados.

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

ACP e Analise factorial : a análise factorial inclui a Análise de Componentes Principais e

análise dos factores comuns, é uma abordagem estatística que pode ser usada para analisar

inter-relações entre um grande número de variáveis e explicar essas variáveis em termos de

suas dimensões inerentes comuns (factores).

O objectivo é encontrar um meio de considerar a informação contida em um número de

variáveis originais em um conjunto menor de variáveis estatísticas com uma perda mínima

de informação.

Análise discriminante múltipla (MDA): é a técnica multivariada adequada quando a

única variável dependente é dicotómica (homem e mulher) ou multicotómica (alto, baixo e

médio) portanto não métrica. Pressupõe-se que as variáveis independentes sejam métricas.

É aplicável em situações nas quais a amostra total pode ser dividida em grupos baseados na

variável dependente, não métrica que caracteriza diversas classes.

Os objectivos são de entender diferenças de grupos e prever a probabilidade de que uma

entidade pertencera a uma classe ou grupo em particular com base em diversas variáveis

independentes métricas.

Análise de Componentes Principais (ACP)

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

p p p pp p

p p

p p

X X X

X X X

X X X

1 1 2 2

2 21 1 22 2 2

1 11 1 12 2 1

Onde X 1 , X 2 , …, Xp são as p variáveis populacionais

originais, ^1 ,^2 ,,^  p são as p componentes principais e  ij É o peso da variável j na componente principal i. Os pesos são estimados de modo a

que:

  1. A primeira componente principal explica a maior proporção da variância total das

variáveis originais;

  1. A componente seguinte explica a maior proporção da variância não explicada pela

primeira componente e esta é independente da primeira. Esta condição pode

formalizar-se matematicamente por:  i 1  j 1   i 2  j 2   ipjp  0  ij,i1,,p;j1,,p

  1. Finalmente, que a escala das novas componentes seja fixa de modo a manter constante a variância total. Esta condição é expressa por:  i^2 1  i^22   ip^2  1  i  1 ,, p

Estimação das componentes principais O objectivo agora é de estimar as componentes principais populacionais através de uma amostra representativa. As componentes estimadas a partir de uma amostra onde os

vectores x^1^^ ,^ x^2 ,, xn , representam n recolhas independentes de uma população p-

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

dimensional de vector de médias  e matriz de variâncias – covariâncias  desconhecidos, designam-se por componentes principais amostrais. As p componentes principais populacionais podem ser estimadas pontualmente pelas p componentes principais amostrais:

p p p pp p

p p

p p

c w X w X w X

c w X w X w X

c w X w X w X

1 1 2 2

2 21 1 22 2 2

1 11 1 12 2 1

A ACP pode ainda ser feita com variáveis normalizadas i.e. Com novas variáveis

normalizadas às quais foi subtraída a média e depois divididas pelo desvio – padrão. Z  XX  / S '. A nova matriz de variâncias – covariâncias não é mais do que a matriz de

correlações populacionais , cuja matriz de correlações amostrais R é uma estimativa.

ACP com SPSS: A Categorical Principal Components Analysis (CATPCA) A técnica da ACP pode ser aplicada apenas a variáveis quantitativas. Mas na maior parte dos estudos de ciências sociais, algumas, senão todas as variáveis são qualitativas. Para resolver a impossibilidade de utilização de variáveis qualitativas em estudos tipo ACP, o SPSS versão 10 ou superior implementou um procedimento desenvolvido por investigadores da Faculty of Social and Behavorial Sciences da Universidade de Leiden na Holanda. O procedimento, designado por opimal scaling atribui quantificações numéricas ás categorias de cada uma das variáveis qualitativas e possibilita o recurso a métodos standard da analise numérica (Meulman, 1992). A CATPCA é assim, apropriada quando se pretende reduzir a dimensionalidade de variáveis medidas em escalas diferentes. Passos: Analyze – Data reduction – Optimal Scaling – some variables not multiple nominal ( se temos mistura de variáveis) – Define – Define Scale and weight – variance accounted for- continue – save – transformed variables e object score

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

Lh Comprimento do ombro Lqe Comprimento de la quila del esternon Sb (=1) Se sobrevive (=0) se não sobrevive.

  1. Análises exploratórias A análise exploratória é a primeira fase de qualquer estúdio de dados.

2.1. Estatísticos descritivos univariantes por categoria (sobrevivência)

  1. Analisar – Estatísticos descritivos – Explorar....
  2. Passar as variáveis quantitativas do quadro esquerdo ao quadro direito (Dependentes):.
  3. Passar a variável sb do quadro esquerdo ao quadro direito Factores:.
  4. Por último – Aceitar.

2.2. Matriz de correlaciones

  1. Analisar – Correlaciones – Bivariadas ....
  2. Passar todas as variáveis quantitativas do quadro esquerdo para o quadro direito (Variáveis).
  3. Por último – Aceitar.

Distância de Mahalanobis

  1. Analisar – Regressão Lineal ....
  2. Passar as variáveis sb para o quadro Dependente:.
  3. Passar todas as variáveis quantitativas do quadro esquerdo ao quadro Independentes:.
  4. Seleccionar Guardar ... , marcar Mahalanobis – Continuar.
  5. Por último – Aceitar.

Análises de componentes principais - I Para obter as componentes principais utilizando a matriz de co-variâncias seguimos a seguinte sequência de passos:

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

  1. Analisar – Redução de dados – Factor....
  2. Passar as variáveis quantitativas ao quadro Variáveis:.
  3. Seleccionamos Extracção.. : a) No método: seleccionamos a opção Componentes principais. b) Marcamos a opção: Matriz de co-variância. c) Marcamos a opção: Gráfico de sedimentação. d) Em Autovalores maiores que: escrevemos 1 – Continuar.
  4. Seleccionamos Pontuações...: a) Marcamos a opção: Guardar como variáveis. b) Marcamos a opção: Regressão – Continuar.
  5. Por último – Aceitar.

Exercício 2. Obtenha uma análise de componentes principais que explique mais de 90% da variabilidade total.

Exercício 3. Obtenha os diagramas de caixas por sobrevivência e a matriz de diagramas de dispersão na amostra completa das componentes principais calculadas no exercício anterior.

Análises de componentes principais - II Para obter as componentes principais utilizando a matriz de correlações seguimos a seguinte sequência de passos:

  1. Analisar – Redução de dados – Factor....
  2. Passar as variáveis quantitativas ao quadro Variáveis:
  3. Selecionamos Extração.: a) no método: selecionamos a opção Componentes principais. b) Marcamos a opção: Matriz de correlações. c) marcamos a opção: Gráfico de sedimentação. d) No Número de factores: escrevemos 3 – continuar.

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

Matriz de componentes BRUTA : Coeficientes associados a cada variável nas CPs. O

SPSS mostra a direção bruta bi ^  iai onde ai é o autovector unitário.

Matriz de componentes REESCALADA : Correlaciones entre as CPs e as variáveis.

  j i j i ij s

corrY , X ^  a

Ambas matrizes nos ajudam a interpretar as CPs e se pedem representar em gráficos de dispersão dos factores dois a dois.

Componentes principais NORMAIS ou Estandarizadas Nas componentes principais é particularmente importante que as variáveis sejam homogéneas, no sentido de que nenhuma tenha variância muito grande em comparação com as restantes. se isto sucede sempre vamos identificar a CP1 com esta variável e a percentagem de variabilidade que explica vai ser tão alto que decidiremos desprezar o resto de variáveis.

As diferenças nas variâncias entre as distintas variáveis não é mais que uma consequência imediata das unidades em que se medem e, por tanto, no é real que umas variáveis sejam mais informativas que outras.

Para evitar que isto suceda se trabalha com os dados estandardizados (normalizados) , que é o mesmo que calcular as CPs da matriz de correlações em lugar da co-variâncias. A estas CPs se chamam normais. No caso normalizado as matrizes de componentes BRUTA y REESCALADA coincidem tanto o SPSS só mostra uma matriz de componentes.

Mais pontuações a ter em conta para todas as CPs : A variância de cada componente principal coincide com seu autovalor  i.

Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM

A soma de todos os autovalores coincide com a variabilidade dos dados originais,

 

p i i

p i i

s 1 1

A proporção da variabilidade nos dados que explica cada componente é:

  

p i i

p p i i

p i i

1 1

2

1

Análise em Factores Comuns e Específicos

A análise factorial é uma técnica de análise exploratória de dados que tem por objectivo descobrir e analisar a estrutura de um conjunto de variáveis interrelacionadas de modo a construir uma escala de medida para factores que de alguma forma controlam as variáveis originais. Em princípio se duas variáveis estão correlacionadas, essa associação resulta da partilha de uma característica comum não directamente observável (de um factor comum latente). A AF usa as correlações observadas entre as variáveis originais para estimar os factores comuns e as relações estruturais que ligam os factores (latentes) às variáveis. O maior objectivo da análise factorial é permitir a simplificação ou redução de um grande número de variáveis por meio da determinação das dimensões latentes comuns (factores). A técnica transforma um conjunto de variáveis correlacionadas em outro grupo que pode ser não correlacionado, de maneira a reduzir a complexidade e facilitar a interpretação dos dados. Outro objectivo primordial de AF é atribuir score (quantificação) a constructos ou factores que não são directamente observáveis.

As suposições em AF, de acordo com Pestana e Gageiro (2005), Hair, Anderson, Tatham e Black (2005) e Ho (2006), são: