|
Eine Partialkorrelation klärt die Frage, ob zwei Variablen immer noch korrelieren, wenn man eine dritte Variable "abzieht" (herauspartialisiert).
Korrelationen werden häufig isoliert betrachtet und nur für sich interpretiert, es ist aber durchaus möglich, dass eine
Drittvariable diesen Zusammenhang künstlich pusht oder gar "verursacht". Ein Beispiel: Aus den Daten eines herrlichen Sommers ergibt sich eine Korrelation zwischen der Menge an verkaufter Eiskreme und der Häufigkeit von Sonnenbränden. Ziemlich merkwürdig. Verursacht Eiskreme, dann einen Sonnenbrand oder (umgekehrt) benötigen Personen mit Sonnenbrand vermehrt Einkreme? Natürlich nicht, der dritte Faktor ist die Anzahl an täglichen Sonnenstunden, diese ist höher, wenn auch viel Eiskreme verkauft wird und mit jeder weiteren Sonnenstunde steigt die Anzahl an Sonnenbränden. Dieses Beispiel läßt sich mit Sicherheit leicht und beispielhaft auf Zusammenhänge in Ihrem Fachbereich und entsprechende Drittvariablen transferieren. Wenn Sie das ganze konkret durchrechnen wollen, so würde ich empfehlen, die Korrelation mit dem R zu rechnen. Kopieren Sie die nachfolgenden roten Zeilen in Ihr R-Studio. Wir erstellen zuerst Zufallsdaten (x, y, z, wobei x = Eiskrememenge, y = Sonnenbrände, z = Drittvariable Sonnenstunden), dann rechnen wir den Einfluß von z (d.h. der Sonnenstunden) heraus.
set.seed(123) Das z (Sonnenstunden) lassen wir in diesem Beispiel sowohl von x als auch von y abhängen. Dies macht man technisch so:
z <- 0.5 * x + 2 * y + rnorm(50) Baut man das ganze nun in einen data.frame, partialisiert die Werte heraus, d.h. man verwendet ab jetzt die z-freien Werte von x und z-freien Werte von y (die jeweils vorhergesagten Residuen werden abgezogen), dann erhält man eine wesentlich geringere und deutlich näher bei Null liegende Korrelation von r = 0.132.
FazitEine Scheinkorrelation kann mit Hilfe einer Drittvariablen bereinigt werden, der r-Wert bewegt sich dann in die Nähe einer Nullkorrelation. Der Verbrauch von Eiskreme, dessen Höhe erst mit der Anzahl an Sonnenbränden scheinbar korrelierte (r = 0.895), fällt in sich zusammen (r = 0.132), wenn man die Anzahl der Sonnenstunden berücksichtigt. Mit "berücksichtigt" ist gemeint, dass man diesen Effekt statistisch herausrechnet. Die Drittvariable (Sonnenstunden) bestimmte sowohl den Eiskremeverkauf, als auch das Auftreten von Sonnenbränden. Zieht man den Einfluß von letzterem ab, so fällt die Schein-Korrelation wie ein Kartenhaus in sich zusammen. |