Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Multivariante, Apuntes de Estadística

Libro sobre análisis multivariado

Tipo: Apuntes

2018/2019

Subido el 08/08/2019

Yulienfernandez3.
Yulienfernandez3. 🇪🇨

1 documento

1 / 536

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga Análisis Multivariante y más Apuntes en PDF de Estadística solo en Docsity!

Andreas Handl

Multivariate Verfahren

Theorie und Praxis multivariater Verfahren unter besonderer

Ber¨ucksichtigung von S-PLUS

SPIN Springer’s internal project number, if known

Monograph – Mathematics –

20th September 2002

Springer

Berlin Heidelberg NewYork

Barcelona Hong Kong

London Milan Paris

Tokyo

V

F¨ur Claudia und Fabian

VIII Vorwort

fallsvariablen. Die im Buch ben¨otigte Theorie mehrdimensionaler Zufallsvari- ablen wird in Kapitel 3 detailliert herausgearbeitet. Um diese und weitere Kapitel verstehen zu k¨onnen, ben¨otigt man Kenntnisse aus der Linearen Al- gebra. Deshalb werden im Anhang A.1 die zentralen Begriffe und Zusam- menh¨ange der Linearen Algebra beschrieben und exemplarisch verdeutlicht. Außerdem ist Literatur angegeben, in der die Beweise und Zusammenh¨ange ausf¨uhrlich betrachtet werden. Es ist unm¨oglich, alle multivariaten Verfahren in einem Buch darzustellen. Ich habe die Verfahren so ausgew¨ahlt, dass ein ¨Uberblick ¨uber die breiten Anwendungsm¨oglichkeiten multivariater Verfahren gegeben wird. Dabei ver- suche ich die Verfahren so darzustellen, dass anschließend die Spezialliteratur zu jedem der Gebiete gelesen werden kann. Das Buch besteht aus 4 Teilen. Im ersten Teil werden die Grundlagen gelegt, w¨ahrend in den anderen Teilen un- terschiedliche Anwendungsaspekte ber¨ucksichtigt werden. Bei einem hochdi- mensionalen Datensatz kann man an den Objekten oder den Merkmalen interessiert sein. Im zweiten Teil werden deshalb Verfahren vorgestellt, die dazu dienen, die Objekte in einem Raum niedriger Dimension darzustellen. Außerdem wird die Procrustes-Analyse beschrieben, die einen Vergleich un- terschiedlicher Konfigurationen erlaubt. Der dritte Teil besch¨aftigt sich mit Abh¨angigkeitsstrukturen zwischen Variablen. Hier ist das Modell der bed- ingten Unabh¨angigkeit von großer Bedeutung. Im letzten Teil des Buches werden Daten mit Gruppenstruktur betrachtet. Am Ende fast aller Kapitel sind Aufgaben zu finden. Die L¨osungen zu den Aufgaben sowie die im Buch verwendeten Datens¨atze und S-PLUS-Funktionen sind auf der Internet-Seite des Springer-Verlages zu finden. In diesem Buch spielt der Einsatz des Rechners bei der Datenanalyse eine wichtige Rolle. Programmpakete entwickeln sich sehr schnell, sodass das heute Geschriebene oft schon morgen veraltet ist. Um dies zu vermei- den, beschr¨anke ich mich auf den Kern von S-PLUS, wie er schon in der Version 3 vorhanden war. Den Output habe ich mit Version 4.5 erstellt. Ich stelle also alles im Befehlsmodus dar. Dies hat aus meiner Sicht einige Vorteile. Zum einen lernt man so, wie man das System schnell um eigene Funktionen erweitern kann. Zum anderen kann man die Funktionen in na- hezu allen F¨allen auch in R ausf¨uhren, das man sich kostenlos im Inter- net unter http://cran.r-project.org/ herunterladen kann. Informatio- nen zum Bezug von S-Plus f¨ur Studenten findet man im Internet unter http://elms03.e-academy.com/splus/. Das Buch enth¨alt keine getrennte Einf¨uhrung in S-PLUS. Vielmehr werden im Kapitel 2.3 anhand der ele- mentaren Datenbehandlung die ersten Schritte in S-PLUS gezeigt. Dieses Konzept hat sich in Lehrveranstaltungen als erfolgreich erwiesen. Nachdem man dieses Kapitel durchgearbeitet hat, sollte man sich dann Kapitel A. widmen, in dem gezeigt wird, wie man die Matrizenrechnung in S-PLUS um- setzt. Bei der Erstellung eigener Funktionen ben¨otigt man diese Kenntnisse. Ansonsten bietet es sich an, einen Blick in die Lehrbuchliteratur zu werfen.

Vorwort IX

Hier sind S¨uselbeck (1993), Krause & Olson (2000) und Venables & Ripley (1999) zu empfehlen. Das Buch ist aus Skripten entstanden, die ich seit Mitte der Achtziger Jahre zu Vorlesungen an der Freien Universit¨at Berlin und der Universit¨at Bielefeld angefertigt habe. Ich danke an erster Stelle Herrn Prof. Dr. Her- bert B¨uning von der Freien Universit¨at Berlin, der mich ermutigt und un- terst¨utzt hat, aus meinem Skript ein Lehrbuch zu erstellen. Er hat Teile des Manuskripts gelesen und korrigiert und mir sehr viele wertvolle Hin- weise gegeben. Dankbar bin ich auch Herrn Dipl.-Volkswirt Wolfgang Lemke von der Universit¨at Bielefeld, der die Kapitel ¨uber Regressionsanalyse und insbesondere Faktorenanalyse durch seine klugen Fragen und Anmerkungen bereichert hat. Ebenfalls danken m¨ochte ich Herrn Dr. Stefan Niermann, der das Skript schon seit einigen Jahren in seinen Lehrveranstaltungen an der Universit¨at Hannover verwendet und einer kritischen W¨urdigung unterzogen hat. Herrn Andreas Schleicher von der OECD in Paris danke ich f¨ur die Genehmigung, die Daten der PISA-Studie zu verwenden. Herrn Prof. Dr. Wolfgang H¨ardle von der Humboldt-Universit¨at zu Berlin und Herrn Prof. Dr. Holger Dette von der Ruhr-Universit¨at Bochum danke ich, dass sie das Buch in ihre Reihe aufgenommen haben. Vom Springer-Verlag erhielt ich jede nur denkbare Hilfe bei der Erstellung der druckreifen Version. Herr Holzwarth vom Springer-Verlag fand f¨ur jedes meiner LATEX-Probleme so- fort eine L¨osung und Frau Kehl gab mir viele wichtige Hinweise in Bezug auf das Layout. Abschließend m¨ochte ich an Herrn Professor Dr. Bernd Streitberg erin- nern, der ein großartiger Lehrer war. Er konnte schwierige Zusammenh¨ange einfach veranschaulichen und verstand es, Studenten und Mitarbeiter f¨ur die Datenanalyse zu begeistern. Auch ihm habe ich sehr viel zu verdanken.

Bielefeld, im Juni 2002 Andreas Handl

Table of Contents

4.5 Ubungen.............................................. 112¨

Part II Darstellung hochdimensionaler Daten in niedrigdimen-

  • 1 Beispiele multivariater Datens¨atze Part I Grundlagen
  • 2 Elementare Behandlung der Daten
    • 2.1 Beschreibung und Darstellung univariater Datens¨atze
      • 2.1.1 Beschreibung und Darstellung qualitativer Merkmale
      • 2.1.2 Beschreibung und Darstellung quantitativer Merkmale
    • 2.2 Beschreibung und Darstellung multivariater Datens¨atze - quantitativer Merkmale 2.2.1 Beschreibung und Darstellung von Datenmatrizen - qualitativer Merkmale 2.2.2 Beschreibung und Darstellung von Datenmatrizen
    • 2.3 Datenbehandlung in S-PLUS
      • 2.3.1 Univariate Datenanalyse
      • 2.3.2 Multivariate Datenanalyse
    • 2.4 Erg¨anzungen und weiterf¨uhrende Literatur
    • 2.5 Ubungen .¨
  • 3 Mehrdimensionale Zufallsvariablen
    • 3.1 Problemstellung
    • 3.2 Univariate Zufallsvariablen
    • 3.3 Zufallsmatrizen und Zufallsvektoren
    • 3.4 Die multivariate Normalverteilung
  • 4 Ahnlichkeits- und Distanzmaße¨
    • 4.1 Problemstellung
      • Datenmatrix 4.2 Bestimmung der Distanzen und ¨Ahnlichkeiten aus der
      • 4.2.1 Quantitative Merkmale
      • 4.2.2 Bin¨are Merkmale
        • Merkmalsauspr¨agungen 4.2.3 Qualitative Merkmale mit mehr als zwei
        • geordnet sind 4.2.4 Qualitative Merkmale, deren Merkmalsauspr¨agungen
      • 4.2.5 Unterschiedliche Messniveaus XII Table of Contents
    • 4.3 Distanzmaße in S-PLUS
    • 4.4 Direkte Bestimmung der Distanzen
  • 5 Hauptkomponentenanalyse sionalen R¨aumen
    • 5.1 Problemstellung
      • Kovarianz-Matrix 5.2 Hauptkomponentenanalyse bei bekannter Varianz-
      • Kovarianz-Matrix 5.3 Hauptkomponentenanalyse bei unbekannter Varianz-
    • 5.4 Praktische Aspekte
      • 5.4.1 Anzahl der Hauptkomponenten
      • 5.4.2 Uberpr¨¨ ufung der G¨ute der Anpassung
        • auf Basis der Korrelationsmatrix 5.4.3 Analyse auf Basis der Varianz-Kovarianz-Matrix oder
    • 5.5 Hauptkomponentenanalyse der Ergebnisse der PISA-Studie
    • 5.6 Hauptkomponentenanalyse in S-PLUS
    • 5.7 Erg¨anzungen und weiterf¨uhrende Literatur
  • 6 Mehrdimensionale Skalierung 5.8 Ubungen 150¨
    • 6.1 Problemstellung
    • 6.2 Metrische mehrdimensionale Skalierung
      • 6.2.1 Theorie
      • 6.2.2 Praktische Aspekte
        • Rangreihung der Politikerpaare 6.2.3 Metrische mehrdimensionale Skalierung der
      • 6.2.4 Metrische mehrdimensionale Skalierung in S-PLUS
    • 6.3 Nichtmetrische mehrdimensionale Skalierung
      • 6.3.1 Theorie
      • 6.3.2 Nichtmetrische mehrdimensionale Skalierung in S-PLUS
    • 6.4 Erg¨anzungen und weiterf¨uhrende Literatur
  • 7 Procrustes-Analyse 6.5 Ubungen 195¨
    • 7.1 Problemstellung und Grundlagen
    • 7.2 Illustration der Vorgehensweise
    • 7.3 Theorie
    • 7.4 Procrustes-Analyse der Reisezeiten
    • 7.5 Procrustes-Analyse in S-PLUS
    • 7.6 Erg¨anzungen und weiterf¨uhrende Literatur Table of Contents XIII
  • 8 Lineare Regression Part III Abh¨angigkeitsstrukturen
    • 8.1 Problemstellung und Modell
    • 8.2 Sch¨atzung der Parameter
    • 8.3 Praktische Aspekte - erkl¨arenden Variablen 8.3.1 Interpretation der Parameter bei mehreren
      • 8.3.2 Die G¨ute der Anpassung
      • 8.3.3 Tests
    • 8.4 Lineare Regression in S-PLUS
    • 8.5 Erg¨anzungen und weiterf¨uhrende Literatur
  • 9 Explorative Faktorenanalyse 8.6 Ubungen 244¨
    • 9.1 Problemstellung und Grundlagen
    • 9.2 Theorie
      • 9.2.1 Das allgemeine Modell
      • 9.2.2 Nichteindeutigkeit der L¨osung
      • 9.2.3 Sch¨atzung
    • 9.3 Praktische Aspekte
      • 9.3.1 Bestimmung der Anzahl der Faktoren
      • 9.3.2 Rotation
    • 9.4 Faktorenanalyse in S-PLUS
    • 9.5 Erg¨anzungen und weiterf¨uhrende Literatur
  • 10 Hierarchische loglineare Modelle 9.6 Ubungen 274¨
    • 10.1 Problemstellung und Grundlagen
    • 10.2 Zweidimensionale Kontingenztabellen
      • 10.2.1 Modell
      • 10.2.2 Modell A
      • 10.2.3 Der IPF-Algorithmus
      • 10.2.4 Modell B
      • 10.2.5 Modell A, B
      • 10.2.6 Modell AB
      • 10.2.7 Modellselektion
    • 10.3 Dreidimensionale Kontingenztabellen
      • 10.3.1 Das Modell der totalen Unabh¨angigkeit
      • 10.3.2 Das Modell der Unabh¨angigkeit einer Variablen
      • 10.3.3 Das Modell der bedingten Unabh¨angigkeit
      • 10.3.4 Das Modell ohne Drei-Faktor-Interaktion XIV Table of Contents
      • 10.3.5 Das saturierte Modell
      • 10.3.6 Modellselektion
    • 10.4 Loglineare Modelle in S-PLUS
    • 10.5 Erg¨anzungen und weiterf¨uhrende Literatur
    • 10.6 ¨Ubungen
  • 11 Einfaktorielle Varianzanalyse Part IV Gruppenstruktur
    • 11.1 Problemstellung
    • 11.2 Univariate einfaktorielle Varianzanalyse
      • 11.2.1 Theorie
      • 11.2.2 Praktische Aspekte
    • 11.3 Multivariate einfaktorielle Varianzanalyse
    • 11.4 Einfaktorielle Varianzanalyse in S-PLUS
    • 11.5 Erg¨anzungen und weiterf¨uhrende Literatur
    • 11.6 ¨Ubungen
  • 12 Diskriminanzanalyse
    • 12.1 Problemstellung und theoretische Grundlagen
    • 12.2 Diskriminanzanalyse bei normalverteilten Grundgesamtheiten - bekannten Parametern 12.2.1 Diskriminanzanalyse bei Normalverteilung mit - unbekannten Parametern 12.2.2 Diskriminanzanalyse bei Normalverteilung mit
    • 12.3 Fishers lineare Diskriminanzanalyse
    • 12.4 Logistische Diskriminanzanalyse
    • 12.5 Klassifikationsb¨aume
    • 12.6 Praktische Aspekte
    • 12.7 Diskriminanzanalyse in S-PLUS
    • 12.8 Erg¨anzungen und weiterf¨uhrende Literatur
    • 12.9 ¨Ubungen
  • 13 Clusteranalyse
    • 13.1 Problemstellung
    • 13.2 Hierarchische Clusteranalyse
      • 13.2.1 Theorie
      • 13.2.2 Verfahren der hierarchischen Clusterbildung
      • 13.2.3 Praktische Aspekte
      • 13.2.4 Hierarchische Clusteranalyse in S-PLUS
    • 13.3 Partitionierende Verfahren
      • 13.3.1 Theorie
      • 13.3.2 Praktische Aspekte
      • 13.3.3 Partitionierende Verfahren in S-PLUS Table of Contents XV
    • 13.4 Clusteranalyse der Daten der Regionen
    • 13.5 Erg¨anzungen und weiterf¨uhrende Literatur
    • 13.6 ¨Ubungen
  • A Mathematische Grundlagen Part V Anh¨ange
    • A.1 Matrizenrechnung
      • A.1.1 Definitionen und spezielle Matrizen
      • A.1.2 Matrixverkn¨upfungen
      • A.1.3 Die inverse Matrix
      • A.1.4 Orthogonale Matrizen
      • A.1.5 Spur einer Matrix
      • A.1.6 Determinante einer Matrix
      • A.1.7 Lineare Gleichungssysteme
      • A.1.8 Eigenwerte und Eigenvektoren
      • A.1.9 Die Spektralzerlegung einer symmetrischen Matrix
      • A.1.10 Die Singul¨arwertzerlegung
      • A.1.11 Quadratische Formen
    • A.2 Extremwerte
      • A.2.1 Der Gradient und die Hesse-Matrix
      • A.2.2 Extremwerte ohne Nebenbedingungen
      • A.2.3 Extremwerte unter Nebenbedingungen
    • A.3 Matrizenrechnung in S-PLUS
  • B S-PLUS-Funktionen
    • B.1 Quartile
    • B.2 Distanzmatrix
    • B.3 Monotone Regression
    • B.4 STRESS1
    • B.5 Bestimmung einer neuen Konfiguration
    • B.6 Kophenetische Matrix
    • B.7 Gamma-Koeffizient
    • B.8 Bestimmung der Zugeh¨origkeit zu Klassen
    • B.9 Silhouette
    • B.10 Zeichnen einer Silhouette
  • C Tabellen
    • C.1 Standardnormalverteilung
    • C.2 χ^2 -Verteilung
    • C.3 t-Verteilung
    • C.4 F -Verteilung

Part I

Grundlagen

4 1 Beispiele multivariater Datens¨atze

Table 1.1. Mittelwerte der Punkte in den Bereichen Lesekompetenz, Mathematis- che Grundbildung und Naturwissenschaftliche Grundbildung im Rahmen der PISA- Studie, vgl. Deutsches PISA-Konsortium (Hrsg.) (2001), S. 107, 173, 229

Land Lesekompetenz Mathematische Naturwissenschaftliche Grundbildung Grundbildung Australien 528 533 528 Belgien 507 520 496 Brasilien 396 334 375 D¨anemark 497 514 481 Deutschland 484 490 487 Finnland 546 536 538 Frankreich 505 517 500 Griechenland 474 447 461 Großbritannien 523 529 532 Irland 527 503 513 Island 507 514 496 Italien 487 457 478 Japan 522 557 550 Kanada 534 533 529 Korea 525 547 552 Lettland 458 463 460 Liechtenstein 483 514 476 Luxemburg 441 446 443 Mexiko 422 387 422 Neuseeland 529 537 528 Norwegen 505 499 500 Osterreich¨ 507 515 519 Polen 479 470 483 Portugal 470 454 459 Russland 462 478 460 Schweden 516 510 512 Schweiz 494 529 496 Spanien 493 476 491 Tschechien 492 498 511 Ungarn 480 488 496 USA 504 493 499

mit den Auspr¨agungsm¨oglichkeiten w und m wurde noch eine Reihe weiterer Merkmale erhoben. Die Studenten wurden gefragt, ob sie den Leistungskurs Mathematik besucht haben und ob sie im Jahr 1988 das Abitur gemacht haben. Diese Merkmale bezeichnen wir mit MatheLK und Abitur88. Bei bei- den Merkmalen gibt es die Auspr¨agungsm¨oglichkeiten j und n. Außerdem sollten sie ihre Abiturnote in Mathematik angeben. Dieses Merkmal bezeich- nen wir mit MatheNote. Das Merkmal Punkte gibt die Anzahl der im Test richtig gel¨osten Aufgaben an. Die Daten sind in Tabelle 1.2 zu finden.

1 Beispiele multivariater Datens¨atze 5

Table 1.2. Ergebnisse von Studienanf¨angern bei einem Mathematik-Test

Geschlecht MatheLK MatheNote Abitur88 Punkte m n 3 n 8 m n 4 n 7 m n 4 n 4 m n 4 n 2 m n 3 n 7 w n 3 n 6 w n 4 j 3 w n 3 j 7 w n 4 j 14 m j 3 n 19 m j 3 n 15 m j 2 n 17 m j 3 n 10 w j 3 n 22 w j 2 n 23 w j 2 n 15 m j 1 j 21 w j 2 j 10 w j 2 j 12 w j 4 j 17

ut

Dieser Datensatz enth¨alt auch qualitative Merkmale. Diese wollen wir eben- falls im Kapitel 2 geeignet darstellen. Außerdem hat der Datensatz wesentliche Bedeutung im Rahmen des Kapitels 12.

Example 3. Im Wintersemester 1996/97 wurden an der Fakult¨at f¨ur Wirtschaftswis- senschaften der Universit¨at Bielefeld 265 Erstsemesterstudenten in der Statis- tik I Vorlesung befragt. Neben dem Merkmal Geschlecht mit den Auspr¨agungsm¨oglichkeiten w und m wurden die Merkmale Gewicht, Alter und Gr¨oße erhoben. Außerdem wurden die Studenten gefragt, ob sie rauchen und ob sie ein Auto besitzen. Diese Merkmale bezeichnen wir mit Raucher und Auto. Auf einer Notenskala von 1 bis 5 sollten sie angeben, wie ihnen Cola schmeckt. Das Merkmal beze- ichnen wir mit Cola. Als letztes wurde noch gefragt, ob die Studenten den Leistungskurs Mathematik besucht haben. Dieses Merkmal bezeichnen wir mit MatheLK. Tabelle 1.3 gibt die Ergebnisse von 5 Studenten wieder. ut

Ziel einer multivariaten Analyse dieses Datensatzes wird es sein, ¨Ahnlichkeiten zwischen den Studenten festzustellen. Wir wollen uns mit solchen ¨Ahnlichkeits- und Distanzmaßen im Kapitel 4 besch¨aftigen.