Was heißt es, dass – und wie weit – der Einfluss der Umwelt mein Verhalten erklärt?
Christoph Pöppe
Im letzten Beitrag hatte ich Sie auf einen kurzen Ausflug in einen hochdimensionalen Raum mitgenommen – 20-dimensional, aber auf die Anzahl der Dimensionen kommt es nicht besonders an. Sagen wir, ein psychologischer Test besteht aus 20 Fragen, und alle Antworten werden als reelle Zahlen ausgedrückt: Körpermaße, Punktzahlen für die Lösung gewisser kognitiver Aufgaben, Ausmaß der Zustimmung zu irgendwelchen Behauptungen … Ein Gesamt-Testergebnis sind also 20 Zahlen, und die fassen wir als Punkt in einem 20-dimensionalen Raum auf.
Bemerkenswerterweise kann man in diesem Raum Geometrie treiben, und zwar fast wie zuhause. Es gibt Winkel, verschiedene Vektoren in dem Raum können senkrecht aufeinander stehen, und dann gilt sogar der Satz des Pythagoras.
Viele Tests an entsprechend vielen Menschen ergeben eine Punktwolke in diesem Raum. Jetzt geht es darum, deren Gestalt irgendwie sinnvoll zu beschreiben. Mit mathematischen Methoden – Stichwort: Eigenwerte und Eigenvektoren einer symmetrischen Matrix – findet man ein neues Koordinatensystem, das der Wolke optimal angepasst ist. Und zwar beschreiben in dem neuen System die ersten – sagen wir – drei Koordinaten eines Punktes diesen schon ziemlich genau, so dass man den ganzen Rest unter Messfehler verbuchen und wegwerfen kann, ohne allzu viel Information zu verlieren. Geometrisch ausgedrückt: Alle Punkte unserer Wolke liegen mit geringen Abweichungen in dem Teilraum, der von den drei Eigenvektoren mit den größten Eigenwerten aufgespannt wird.
Das Verfahren mit den Eigenvektoren funktioniert immer. Wenn man die Eigenwerte der Größe nach in einem Diagramm aufträgt, dann gibt es vielleicht eine klare Abbruchkante: Nach drei relativ großen Eigenwerten fällt die Kurve rasch ab, und alle folgenden Eigenwerte liegen in der Nähe der Null, was die Beschränkung auf die ersten drei rechtfertigt. Dass das passiert, ist nicht garantiert; aber in der Praxis kommt es häufig vor. Wieso?
Die ganz zynische Antwort lautet: Der Mensch ist eben nur dreidimensional (oder allgemeiner so vieldimensional, wie es große Eigenwerte gibt). Das stimmt natürlich nicht. Aber es ist anzunehmen, dass der Test von der ganzen Reichhaltigkeit des menschlichen Geistes nur einen relativ kleinen Teil erforscht: weil nur dieser spezielle Teil interessiert, weil es für gewisse durchaus interessante Eigenschaften keinen brauchbaren Test gibt oder weil der Aufwand für einen solchen Test für die Versuchspersonen wie für die Testenden unzumutbar wäre.
Na gut; dann sind die Menschen aus der beschränkten Perspektive des Tests eben dreidimensional. Was bedeutet das?
Dazu gilt es, sich die Eigenvektoren etwas genauer anzusehen. Nehmen wir an, unser Test enthält unter anderem zwei durchaus verschiedene Aufgaben, die aber beide durch Kopfrechnen zu lösen sind. Wahrscheinlich wird bei allen Versuchspersonen die Punktzahl in der einen Aufgabe sehr ähnlich der in der anderen Aufgabe sein. Da erscheint es plausibel, eine latente (nicht der direkten Messung zugängliche) Eigenschaft namens „Kopfrechenfähigkeit“ zu postulieren. Je nachdem, in welchem Ausmaß ein Mensch über diese Eigenschaft verfügt, erreicht er mehr oder weniger hohe Punktzahlen in den Kopfrechenaufgaben, während dieselbe Eigenschaft auf die Ergebnisse anderer Teiltests, die eher auf, sagen wir, Einfühlungsvermögen abzielen, wenig bis gar keinen Einfluss hat.
Jetzt kann es sein, dass einer unserer Eigenvektoren ziemlich genau dieser Kopfrechenfähigkeit entspricht. Das heißt, er hat ziemlich hohe Koordinatenwerte bei den Kopfrechenaufgaben, mittelgroße bei Aufgaben, die dem Kopfrechnen ähnlich sind, und kleine oder sogar ein bisschen negative bei allen anderen Teiltests. (In der Psychologie sagt man: Dieser Eigenvektor „lädt stark“ auf die Kopfrechentests und wenig bis gar nicht auf die anderen – etwas gewöhnungsbedürftig.)
Das von der Spezialität Kopfrechnen auf alle Eigenvektoren verallgemeinert, die das große Wegwerfen (siehe oben) überstanden haben, läuft auf folgende Vorstellung hinaus: Jeder Mensch wird beschrieben durch einige wenige Zahlen, die angeben, in welchem Ausmaß er über ebenso wenige Eigenschaften verfügt. Jede Eigenschaft hat einen gewissen Einfluss auf jedes der einzelnen Testergebnisse; wie viel, das steht in den Koeffizienten des zugehörigen Eigenvektors. Wir addieren diese Einflüsse zusammen und erhalten alle Testergebnisse – nicht ganz genau, denn wir haben ja die unbedeutenden Eigenvektoren weggeworfen, aber ziemlich genau.
Und ohne es richtig zu merken, haben wir damit unterstellt, dass diese Eigenschaften nicht nur voneinander unabhängig sind, sondern additiv zusammenwirken: ein lineares Modell.
Das ist nun ausgesprochen dreist. Offensichtlich geht es im menschlichen Bewusstsein alles andere als linear zu. Trivialbeispiel: Um ein einfaches Gespräch zu führen, müssen Sie erstens die Worte Ihres Gegenübers hören und zweitens für Ihre eigenen Äußerungen die Muskeln Ihres Sprechapparats kontrollieren können – von der Denkleistung dazwischen ganz abgesehen. Wenn Sie in einer dieser Fähigkeiten sehr gut sind, hilft das nichts, wenn die andere bei Ihnen schwach ausgeprägt ist oder gar fehlt. Das Ausmaß dieser Fähigkeiten zu addieren führt offensichtlich in die Irre. Multiplizieren käme der Wahrheit da deutlich näher.
Dass da irgendwelche Fähigkeiten in jedem Fall einfach so additiv zusammenwirken, ist in dieser Allgemeinheit also nicht zu begründen. Aber es gibt eine plausible Ausrede. Vielleicht sind ja diese postulierten Wirkungszusammenhänge nicht linear, aber wenigstens differenzierbar, das heißt, für kleine Abweichungen von einem Normalzustand mit einiger Genauigkeit durch lineare Funktionen approximierbar. Der Approximationsfehler geht dann ohne weiteres in dem Sumpf der weggeworfenen Eigenvektoren unter.
Na gut; und warum dann ein lineares Modell und kein anderes? Weil das lineare am einfachsten zu rechnen ist. Und einerlei, wie schlecht die Daten sind, es kommt immer etwas heraus.
Aber es kann ausgesprochen schwierig werden, die Ergebnisse zu interpretieren. Wenn ein Eigenvektor nicht so offensichtlich auf alles lädt, was mit Kopfrechnen (oder einer anderen klar erkennbaren Fähigkeit) zu tun hat, was beschreibt er dann? Da findet sich möglicherweise keine zufriedenstellende Antwort. Kein Wunder: Am Anfang der ganzen Rechnung stehen Korrelationen, und nach einer viel zitierten Weisheit bedeutet Korrelation nicht Kausalität. Also darf man auch nicht davon ausgehen, dass man mit der Eigenwertrechnerei irgendwelche Ursachen für das Testergebnis gefunden hat.
Das ist bei den Fachleuten aus der Psychologie nicht unbemerkt geblieben. Um doch noch eine brauchbare Interpretation für ihre „Faktoren“ (so nennen die ihre Eigenvektoren) zu finden, drehen sie ein bisschen an ihnen herum – im Wortsinn. Am Wegwerfen der kleinen Eigenvektoren wird nicht gerüttelt; aber man kann das Koordinatensystem des verbleibenden Teilraums so rotieren, dass eine gut interpretierbare Eigenschaft einer der Basisvektoren wird.
Oder man erweitert das Modell: Jedes Teiltestergebnis ist nicht nur eine Linearkombination der auserwählten Eigenvektoren; es kommt noch ein Summand hinzu, der nur von diesem Teiltest abhängt. Das läuft darauf hinaus, dass man das Sortiment der Funktionen erweitert, die als Lösungen des Minimierungsproblems in Frage kommen. (Wie war das? Die Eigenwertrechnerei löst das Problem, alle Punkte der Wolke mit möglichst geringem Datenaufwand möglichst genau anzunähern, also den Approximationsfehler zu minimieren.) Davon wird der Fehler zwangsläufig kleiner.
Nur schleicht sich in die ganze Veranstaltung sowohl beim Rotieren als auch beim Erweitern des Modells wieder die Willkür ein, die wir mit der trockenen Eigenwertanalyse so erfolgreich vor der Tür gehalten hatten. Das heißt, wenn zwei Psychologen denselben Datensatz interpretieren, kommt nicht unbedingt beidesmal dasselbe heraus. Und damit sind auch die beiden Psychologen nicht unbedingt glücklich.
Die fachübliche Bezeichnungsweise ist für jemanden wie mich, der sich mit linearer Algebra auszukennen glaubt, gewöhnungsbedürftig. Dass die Eigenvektoren „Faktoren“ heißen, obgleich sie nicht miteinander multipliziert werden – na gut. Was von einem Messwert nach dem großen Wegwerfen noch übrig bleibt, heißt dessen „Kommunalität“. Das gibt zumindest keine Missverständnisse, weil das Wort nicht mit einer anderen Bedeutung besetzt ist. Einen Eigenvektor mitsamt der Zahl, mit der er im Einzelfall zu multiplizieren ist, eine „Hauptkomponente“ zu nennen leuchtet mir ein. Die Eigenvektoren bestimmen die Achsen unseres neuen Koordinatensystems, die man entsprechend „Hauptachsen“ nennen würde. Nur: In den Psychologie-Skripten findet man die Aussage, dass die Hauptkomponentenmethode und die Hauptachsentransformation verschiedene Dinge seien. Und zu allem Überfluss ist „Faktorenanalyse“ nicht etwa die Veranstaltung mit den Eigenvektoren, sondern die oben genannte erweiterte Minimierungsmethode, bei der jeder Teiltest noch einen Parameter bekommt, der exklusiv für ihn reserviert ist.
Hm. Da blicken offensichtlich auch die professionellen Psychologen nicht immer durch. Man findet Klagen über Verwechslungen an zahlreichen Stellen. Selbst der Wikipedia-Artikel zur Faktorenanalyse bringt den resignativen Satz: „Ungenauigkeiten bis hin zur völligen Gleichsetzung von Faktoren- und Hauptkomponentenanalyse sind weit verbreitet.“
Na gut. Das können die Fachleute aus der Psychologie gerne in ihrem Sandkasten unter sich ausmachen – die anderen müssen ja nicht mitspielen. Es gibt allerdings eine sprachliche Unsauberkeit, die über die fachinterne Diskussion hinaus Unheil anrichtet: die Sache mit dem „Erklären“.
Das Ausmaß, in dem Testergebnisse für verschiedene Personen sich unterscheiden, lässt sich durch eine Zahl ausdrücken, die sogenannte Varianz. Wenn die Achsen unseres Koordinatensystems aufeinander senkrecht stehen (was nach der Transformation auf Eigenvektoren der Fall ist), dann sind die einzelnen Faktoren unkorreliert, und in diesem Fall ist die Varianz des Gesamtergebnisses gleich die Summe der Varianzen der einzelnen Faktoren. Andersherum ausgedrückt: Die Gesamtvarianz lässt sich zerlegen in lauter Einzelvarianzen.
Auf die weggeworfenen Eigenvektoren entfällt ein Teil der Gesamtvarianz (ein kleiner, wenn alles mit rechten Dingen zugeht). Jeder der übrigbleibenden Faktoren trägt einen Teil zu dieser verminderten Varianz bei.
An dieser Stelle findet der Sündenfall statt. Die übliche Ausdrucksweise ist: Dieser oder jener Faktor „erklärt“ einen Teil der Varianz. Und jeder normale Mensch, der nicht mit dieser speziellen Konvention vertraut ist, versteht „erklären“ als „verursachen“. Jene verborgenen Wesenszüge, die bei der Eigenwertanalyse herausgekommen sind (und für die die Psychologen vielleicht erst noch Namen finden müssen) wären die Ursache für die Testergebnisse, und zwar im additiven Zusammenwirken. Das wäre dann just das lineare Modell, das ich oben als problematisch beschrieben habe.
Wenn dann die missverständliche Formulierung mit dem „Erklären“ ihren Weg in die allgemeine Presse gefunden hat, klingt sie ungefähr so: Die Intelligenz des Menschen ist zu soundsoviel Prozent erblich und zu soundsoviel Prozent umweltbedingt. Und diese Aussage ist mit ziemlicher Sicherheit zumindest eine krasse Vergröberung der Tatsachen, schon weil sie die nichtlinearen Wechselwirkungen zwischen den verschiedenen Faktoren außer Acht lässt.
The post Was heißt es, dass – und wie weit – der Einfluss der Umwelt mein Verhalten erklärt? originally appeared on the HLFF SciLogs blog.