



































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Análise Multivariada para fazer a redução dos dados de uma pesquisa, dentro dela encontramos a análise de componentes principais e análise factorial
Tipologia: Trabalhos
1 / 75
Esta página não é visível na pré-visualização
Não perca as partes importantes!




































































Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
Faculdade de Ciências e Tecnologias Curso de Licenciatura em ensino de Matemática com minor em Estatística Texto de apoio de Análise de Dados.
Análise Multivariada Estabelecer relações, encontrar, ou propor, leis explicativas, é papel próprio da ciência. Para isso, é necessário controlar, manipular e medir as variáveis que são consideradas relevantes ao entendimento do fenómeno analisado. Muitas são as dificuldades em traduzir as informações obtidas em conhecimento, principalmente quando se trata da avaliação estatística das informações. Os métodos estatísticos, para analisar variáveis, estão dispostos em dois grupos: um que trata da estatística, que olha as variáveis de maneira isolada – a estatística univariada , e outro que olha as variáveis de forma conjunta – a estatística multivariada.
Análise univariada : Análise de distribuições de uma única variável
Análise bivariada : classificação cruzada, correlação, análise de variância e regressão simples para analisar duas variáveis
Análise multivariada : Análise simultânea de muitas (múltiplas) variáveis em um único relacionamento ou conjunto de relações Refere-se a análise multivariada todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada individuo ou objecto sob investigação. Qualquer análise simultânea de mais de duas variáveis, pode ser considerada análise multivariada. Quando se analisa o mundo que nos cerca, identifica-se que todos os acontecimentos, sejam eles culturais ou naturais, envolvem um grande número de variáveis. As diversas ciências
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
têm a pretensão de conhecer a realidade, e de interpretar os acontecimentos e os fenómenos, baseadas no conhecimento das variáveis intervenientes, consideradas importantes nesses eventos.
Interesse e utilidade
Tomada de decisão No meio educacional os indivíduos (directores, professores, estudantes, entre outros) possuem características sociodemográficas muito variadas. Somente pela análise multivariada as múltiplas relações podem ser analisadas. Todo pesquisador (profissional ou académico) deve sustentar sua análise de dados em bases teóricas e quantitativas
Conceitos básicos Como anteriormente mencionado o constructo da análise multivariada é a variável.
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
n j
s (^) jk sj n xij xj xik xk 1
(^2 1) é a co-variância amostral entre as variáveis xj exk
S contém as variâncias na diagonal e todas as co-variâncias no resto dos elementos. A co-variância depende das unidades de medida. Para medir o grau de associação linear entre duas variáveis. Por isso é mais habitual usual o coeficiente de correlação de Pearson e a matriz de correlação R.
Matriz de correlações :
r r 1
r r
r r R p1 p
2p
2 1p
21
1
j k jk jk
O coeficiente de correlação não depende das unidades de medida. Toma valores entre -1 e
Box-plot múltipla Se usa para comparar: Uma variável em diferentes grupos. Várias variáveis só quando as unidades de medis são compatíveis.
Diagrama de caixa no SPSS Gráficos! Diagramas de caixa ....
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
Matriz de diagramas de dispersão Se constrói um quadrado com tantas linhas e colunas como variáveis. Na diagonal se da informação de cada uma das variáveis. No resto das casas se constrói os gráficos de dispersão entre todos os pares de variáveis.
“Distâncias estatísticas” entre dados: quando para calcular a distância entre dois dados importa o resto dos dados. É uma medida numérica determinada entre duas variáveis quantitativas.
Distância Euclidiana
(^)
p E i k j ij kj d x x x x 1
Intuitivamente é a distância mais natural, a linha recta. O problema desta distância é que não tem em conta a variabilidade dos dados. Para resolver este problema podemos normalizar os dados coluna por coluna para evitar o efeito de escala. A continuação se calcula a distância euclidiana.
(^)
^ p ^ j (^) j SE i k ij kj s d x x x x 1
2 ,
Um outro problema é que esta distância não tem em conta a correlação.
Distância de Mahalanobis É baseada nas correlações entre variáveis com as quais distintos padrões podem ser identificados e analisados. É uma estatística útil para determinar a similaridade entre uma amostra desconhecida e uma conhecida. Distingue-se da distância euclidiana já que tem em
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
identificados como outliers todas as observações que, não sendo extremos, se situam para além das barreiras FL 1 , 5 dF eFU 1 , 5 dF.
Distribuição Normal multivariada. Um vector aleatório de dimensão p segue una distribuição normal se sua função de densidade é:
f x ^21 2 p^ x ' ^1 x 2 2 exp^1
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
Donde
1 e
p p pp
p
p
1 2
21 22 2
11 12 1 logo X ~ Np ,
Para um conjunto de dados multivariantes (com p> 2),
Como podemos saber se vem de una distribuição normal?
a) É necessário que todas as variáveis por separado sejam normais.
Faremos as provas de normalidade habituais:
Histogramas, gráficos probabilísticos normais, teste de normalidade,…
Se existem relações entre as variáveis, tem que ser lineares (bajo normalidade, se não há
correlações, então as variáveis são independentes).
Representaremos os dados em matrizes de diagramas de dispersão.
Se os dados vêm de uma normal multivariada se têm que cumprir a) e b), mesmo que se
cumpram não implica que sempre os dados sejam normais. Há mais propriedades difíceis
de comprovar.
Homogeneidade da variância A homocedasticidade (homogeneidade da variância ou variância constante) detecta, geralmente, nos gráficos dos resíduos frente as predições em caso de dúvida o teste de Levene ou de Brausch-Pagan são testes formais para testar a homocedasticidade dos
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
A forma do cálculo com recurso á mediana é particularmente robusta e potente para desvios á normalidade da variável em estudo (principalmente para distribuições fortemente enviesadas).
a partir do qual (^) W f 1 ; k 1 , N k é chamada probabilidade de significância (p-valor).
Nota: homogeneidade da variância refere-se a igualdade da variância entre as variáveis.
Testes de normalidade e homogeneidade da variância no SPSS O teste de Kolmogorov – Smirnov e o teste de Levene encontram-se no menu: Analyze – Descriptive Statistics – Explore Para o teste de normalidade: Explore – plots – Normality plots with test Para o teste de Levene: Explore – plots – Untransformed na área de Spread vs. Level with Levene test.
Técnicas multivariadas
Regressão múltipla: é o método de análise apropriado quando o problema de pesquisa
envolve uma única variável dependente métrica considerada relacionada a duas ou mais
variáveis independentes métricas.
O objectivo é prever as mudanças na variável dependente como resposta a mudanças nas
variáveis independentes. Para alcançar esse objectivo usa-se muitas vezes a regra dos
mínimos quadrados.
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
ACP e Analise factorial : a análise factorial inclui a Análise de Componentes Principais e
análise dos factores comuns, é uma abordagem estatística que pode ser usada para analisar
inter-relações entre um grande número de variáveis e explicar essas variáveis em termos de
suas dimensões inerentes comuns (factores).
O objectivo é encontrar um meio de considerar a informação contida em um número de
variáveis originais em um conjunto menor de variáveis estatísticas com uma perda mínima
de informação.
Análise discriminante múltipla (MDA): é a técnica multivariada adequada quando a
única variável dependente é dicotómica (homem e mulher) ou multicotómica (alto, baixo e
médio) portanto não métrica. Pressupõe-se que as variáveis independentes sejam métricas.
É aplicável em situações nas quais a amostra total pode ser dividida em grupos baseados na
variável dependente, não métrica que caracteriza diversas classes.
Os objectivos são de entender diferenças de grupos e prever a probabilidade de que uma
entidade pertencera a uma classe ou grupo em particular com base em diversas variáveis
independentes métricas.
Análise de Componentes Principais (ACP)
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
p p p pp p
p p
p p
1 1 2 2
2 21 1 22 2 2
1 11 1 12 2 1
Onde X 1 , X 2 , …, Xp são as p variáveis populacionais
originais, ^1 ,^2 ,,^ p são as p componentes principais e ij É o peso da variável j na componente principal i. Os pesos são estimados de modo a
que:
variáveis originais;
primeira componente e esta é independente da primeira. Esta condição pode
formalizar-se matematicamente por: i 1 j 1 i 2 j 2 ip jp 0 i j,i 1, ,p;j 1, ,p
Estimação das componentes principais O objectivo agora é de estimar as componentes principais populacionais através de uma amostra representativa. As componentes estimadas a partir de uma amostra onde os
vectores x^1^^ ,^ x^2 ,, xn , representam n recolhas independentes de uma população p-
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
dimensional de vector de médias e matriz de variâncias – covariâncias desconhecidos, designam-se por componentes principais amostrais. As p componentes principais populacionais podem ser estimadas pontualmente pelas p componentes principais amostrais:
p p p pp p
p p
p p
c w X w X w X
c w X w X w X
c w X w X w X
1 1 2 2
2 21 1 22 2 2
1 11 1 12 2 1
A ACP pode ainda ser feita com variáveis normalizadas i.e. Com novas variáveis
normalizadas às quais foi subtraída a média e depois divididas pelo desvio – padrão. Z X X / S '. A nova matriz de variâncias – covariâncias não é mais do que a matriz de
ACP com SPSS: A Categorical Principal Components Analysis (CATPCA) A técnica da ACP pode ser aplicada apenas a variáveis quantitativas. Mas na maior parte dos estudos de ciências sociais, algumas, senão todas as variáveis são qualitativas. Para resolver a impossibilidade de utilização de variáveis qualitativas em estudos tipo ACP, o SPSS versão 10 ou superior implementou um procedimento desenvolvido por investigadores da Faculty of Social and Behavorial Sciences da Universidade de Leiden na Holanda. O procedimento, designado por opimal scaling atribui quantificações numéricas ás categorias de cada uma das variáveis qualitativas e possibilita o recurso a métodos standard da analise numérica (Meulman, 1992). A CATPCA é assim, apropriada quando se pretende reduzir a dimensionalidade de variáveis medidas em escalas diferentes. Passos: Analyze – Data reduction – Optimal Scaling – some variables not multiple nominal ( se temos mistura de variáveis) – Define – Define Scale and weight – variance accounted for- continue – save – transformed variables e object score
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
Lh Comprimento do ombro Lqe Comprimento de la quila del esternon Sb (=1) Se sobrevive (=0) se não sobrevive.
2.1. Estatísticos descritivos univariantes por categoria (sobrevivência)
2.2. Matriz de correlaciones
Distância de Mahalanobis
Análises de componentes principais - I Para obter as componentes principais utilizando a matriz de co-variâncias seguimos a seguinte sequência de passos:
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
Exercício 2. Obtenha uma análise de componentes principais que explique mais de 90% da variabilidade total.
Exercício 3. Obtenha os diagramas de caixas por sobrevivência e a matriz de diagramas de dispersão na amostra completa das componentes principais calculadas no exercício anterior.
Análises de componentes principais - II Para obter as componentes principais utilizando a matriz de correlações seguimos a seguinte sequência de passos:
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
Matriz de componentes BRUTA : Coeficientes associados a cada variável nas CPs. O
Matriz de componentes REESCALADA : Correlaciones entre as CPs e as variáveis.
j i j i ij s
Ambas matrizes nos ajudam a interpretar as CPs e se pedem representar em gráficos de dispersão dos factores dois a dois.
Componentes principais NORMAIS ou Estandarizadas Nas componentes principais é particularmente importante que as variáveis sejam homogéneas, no sentido de que nenhuma tenha variância muito grande em comparação com as restantes. se isto sucede sempre vamos identificar a CP1 com esta variável e a percentagem de variabilidade que explica vai ser tão alto que decidiremos desprezar o resto de variáveis.
As diferenças nas variâncias entre as distintas variáveis não é mais que uma consequência imediata das unidades em que se medem e, por tanto, no é real que umas variáveis sejam mais informativas que outras.
Para evitar que isto suceda se trabalha com os dados estandardizados (normalizados) , que é o mesmo que calcular as CPs da matriz de correlações em lugar da co-variâncias. A estas CPs se chamam normais. No caso normalizado as matrizes de componentes BRUTA y REESCALADA coincidem tanto o SPSS só mostra uma matriz de componentes.
Mais pontuações a ter em conta para todas as CPs : A variância de cada componente principal coincide com seu autovalor i.
Dra Nasma da Glória J. Langa Bacharel e Licenciada em Ensino de Matemática pela UPQ Mestre em Estatística pela UPM
A soma de todos os autovalores coincide com a variabilidade dos dados originais,
p i i
p i i
s 1 1
A proporção da variabilidade nos dados que explica cada componente é:
p i i
p p i i
p i i
1 1
2
1
Análise em Factores Comuns e Específicos
A análise factorial é uma técnica de análise exploratória de dados que tem por objectivo descobrir e analisar a estrutura de um conjunto de variáveis interrelacionadas de modo a construir uma escala de medida para factores que de alguma forma controlam as variáveis originais. Em princípio se duas variáveis estão correlacionadas, essa associação resulta da partilha de uma característica comum não directamente observável (de um factor comum latente). A AF usa as correlações observadas entre as variáveis originais para estimar os factores comuns e as relações estruturais que ligam os factores (latentes) às variáveis. O maior objectivo da análise factorial é permitir a simplificação ou redução de um grande número de variáveis por meio da determinação das dimensões latentes comuns (factores). A técnica transforma um conjunto de variáveis correlacionadas em outro grupo que pode ser não correlacionado, de maneira a reduzir a complexidade e facilitar a interpretação dos dados. Outro objectivo primordial de AF é atribuir score (quantificação) a constructos ou factores que não são directamente observáveis.
As suposições em AF, de acordo com Pestana e Gageiro (2005), Hair, Anderson, Tatham e Black (2005) e Ho (2006), são: