Statistisches Schätzen ist merkwürdig

Christoph Pöppe

Angeblich ist das Psychologiestudium in Mannheim gefürchtet, weil es so mathematiklastig sei. Mein Sohn Max hat sich davon nicht abschrecken lassen. Mit Mathematik hatte er in der Schule keine ernsthaften Schwierigkeiten, und wenn’s ganz schlimm kommt, könne er ja immer noch den Papa fragen.

Na gut, die Fragen halten sich in engen Grenzen. Aber aus ihnen entspinnt sich in der Regel eine ausgiebige Diskussion, die auch für mich, den Mathematiker, durchaus bereichernd ist.
Die große Liebe der Psychologinnen und Psychologen, vor allem der quantitativ arbeitenden, gilt der Normalverteilung. Jawohl, jener Glockenkurve, die man hierzulande bis zur Einführung des Euro auf jedem Zehnmarkschein bewundern konnte, gleich neben dem Portrait von Carl Friedrich Gauß.

Auschnitt aus 10 DM-Banknote der Serie BBK3 mit Carl Friedrich Gauß. Quelle: Deutsche Bundesbank

Mit der Formel, die diese Kurve beschreibt, werden die Psychologiestudierenden in der Regel nicht belästigt; sie ist ja auch nicht eine der zugänglichsten, mit der Exponentialfunktion und dem merkwürdigen Exponenten.

Es geht um Zufallsereignisse, typischerweise Messungen, bei denen eine reelle Zahl x herauskommt. Dummerweise haben die reellen Zahlen mit der Realität, wie sie sich in Messwerten zeigt, nicht allzu viel zu tun. Aber in der Mathematik hat man gute Gründe, mit diesen merkwürdigen Objekten zu arbeiten, von denen es in jedem Intervall unendlich viel mehr gibt, als man abzählen kann. Und damit man für Teilmengen reeller Zahlen überhaupt eine Wahrscheinlichkeit definieren kann, braucht es eine ganze Vorlesung Maß- und Integrationstheorie. Kein Wunder, dass die Psycholog:innen davon nichts wissen wollen.

Immerhin kann die Mathematik ihnen eine Rechtfertigung für ihre Liebe zur Normalverteilung liefern: den zentralen Grenzwertsatz. Der sagt im Wesentlichen: Wenn viele voneinander unabhängige Variablen auf eine Messgröße einwirken und keine dieser Einwirkungen wesentlich größer ist als die anderen, dann ist diese Messgröße annähernd normalverteilt.

Klassisches Beispiel ist die Körpergröße des Menschen. Die meisten Variablen, die sie beeinflussen, kennen wir gar nicht, nämlich wenn sie im Genom des Menschen verborgen sind, oder nur ungefähr, wenn es um die Umwelt geht. Aber es sind viele. Also sollte die Körpergröße normalverteilt sein.
Ist sie aber nicht. Denn unter den Einflussgrößen gibt es eine, die an Bedeutung alle anderen überragt: das Geschlecht. Männer sind im Durchschnitt deutlich größer als Frauen. Deswegen gibt es zwar eine schöne Gaußsche Glockenkurve für Männer und eine für Frauen, aber nicht für beide zusammen.

Verteilung der Körpergrößen. Daten von Statista auf Basis von Umfragen des Socio-economic Panel (SOEP), 2006. Befragt wurden Menschen ab 18 Jahren in Deutschland. Die relativ wenigen Datenpunkte sind der Anschaulichkeit zuliebe durch eine glatte Kurve interpoliert. Bei der Summenkurve wird unterstellt, dass es gleich viele Männer wie Frauen gibt. Bei den ganz großen Männern hätten die Statistiker besser etwas genauer nachgefragt: Hätte man die Größenklassen 1,95 und 2 Meter noch unterschieden, wäre wahrscheinlich eine wohlgeformte Gaußkurve herausgekommen.

Die Liebe der Psycholog:innen zur Normalverteilung geht noch weiter. In der Natur kommen die Glockenkurven in verschiedenen Formen vor: dünne schlanke einerseits, platte zerfließende mit den Körperformen von Jabba the Hutt aus „Star Wars“ andererseits. Aber das ist nur eine Skalierungsfrage. Man gibt – zum Beispiel – die Körpergröße nicht in Metern an, sondern in einer Einheit, mit der die Gaußkurve standardmäßig aussieht. Das sind bei Männern wie bei Frauen ungefähr 8,5 Zentimeter. Zusätzlich legt man den Nullpunkt der Skala auf die Stelle, an der die Gaußkurve maximal wird. Diese Aktion heißt bei den Psychologen z-Transformation. Sie ist eigentlich harmlos, wenn auch etwas gewöhnungsbedürftig. Ich bin in diesen Einheiten ungefähr –0,5 groß, was mir immerhin sagt, dass ich ein bisschen kurz, aber nicht auffällig kurz geraten bin. Das Ergebnis ist dann die vielzitierte (0, 1)-Verteilung: eine Normalverteilung mit Erwartungswert 0 und Varianz 1. An der y-Achse gibt es dann übrigens nichts mehr zu skalieren: Die Fläche unter der Gaußkurve muss gleich 1 sein, wie es sich für eine Wahrscheinlichkeitsverteilung gehört.

Es gibt noch eine weniger harmlose Transformation für Messkurven, die sich mit der netten linearen z-Transformation nicht in die gewünschte Form bringen lassen wollen. Sie heißt Flächentransformation und besteht darin, die x-Achse an verschiedenen Stellen unterschiedlich zu strecken und zu stauchen, so dass die Kurve hinterher glockenförmig aussieht. Das klingt zunächst sehr kompliziert, ist aber technisch einfach, wenn die Messergebnisse wie üblich nicht mit großer Genauigkeit, sondern in Kästchen sortiert vorliegen: ein Kästchen für 160 bis 164 Zentimeter, das nächste für 165 bis 169 und so weiter. Man setzt das höchste Kästchen (das mit den meisten Werten) an die Null, das rechte Nachbarkästchen an die Stelle auf der x-Achse, wo seine Höhe gerade dem Wert der Gaußkurve entspricht, und so weiter, entsprechend für die linken Kästchen.

Aber das klingt doch ziemlich nach Datenmanipulation. Es wäre ohne weiteres möglich, die verdellerte Kurve der Körpergröße aller Deutschen mit einer Flächentransformation zu einer Gaußkurve zurechtzubiegen und damit den dominierenden Einfluss des Geschlechts auf die Körpergröße wegzumanipulieren. So etwas sollte man offensichtlich nicht tun.

Sinnvoll ist die Flächentransformation eher bei Größen, die man ohnehin nicht in Metern oder Sekunden messen kann. Versuchspersonen werden gebeten, eine Leistung mit Schulnoten zu bewerten oder ihre Schmerzempfindungen auf einer Skala von 1 bis 10 einzustufen. Wahrscheinlich ist der empfundene Abstand zwischen den Schulnoten 4 und 5 viel größer als der zwischen 5 und 6. Da macht es Sinn, nachträglich die Skala so anzupassen, dass eine Normalverteilung herauskommt.

Hat man zwei Verteilungen für dieselbe Population, sagen wir Körpergröße und Körpergewicht der deutschen Männer, und möchte wissen, wie die beiden Variablen zusammenhängen, dann vereinfacht die z-Transformation die Berechnung erheblich. In diesem Fall ist nämlich die eine Maßzahl für den Zusammenhang, die sogenannte Kovarianz, dasselbe wie die andere, der Korrelationskoeffizient, und berechnet sich, indem man für jeden Mann dessen Größe und Gewicht miteinander multipliziert, alle diese Produkte addiert und durch die Anzahl der Männer teilt: \[{\rm cov}(x,y)={1 \over n} \sum_{k=1}^n x_k y_k\] Übrigens: Für einen durchschnittlich großen und schweren Mann sind sowohl \(x_k\) als auch \(y_k\) gleich null – wir haben ja eine (0, 1)-Verteilung.

Ein Korrelationskoeffizient von 0 sagt, dass die beiden Variablen nichts miteinander zu tun haben. Ist er gleich 1, dann sagen beide eigentlich dasselbe, und ist er –1, dann sagen sie immer noch dasselbe, bloß mit umgekehrtem Vorzeichen. Und liegt er zwischen 0 und 1, dann scheint ein gewisser Zusammenhang zwischen beiden zu bestehen. Aber Vorsicht: Die Geburtenrate und die Häufigkeit der Klapperstörche in verschiedenen Regionen haben eine hohe positive Korrelation. Was schließt man daraus? Richtig: gar nichts.

Jetzt kommt das, was ich anfangs nicht glauben wollte: Kennt man nur eine der Variablen, sagen wir die Körpergröße x, und will eine Schätzung für die andere, im Beispiel das Körpergewicht y, abgeben, dann ist der beste Schätzwert für y gleich cov(x, y) mal x. Nun hängen Größe und Gewicht zwar tendenziell zusammen – im Prinzip sind größere Leute auch schwerer –, aber nicht wirklich gesetzmäßig: Es gibt lange Dünne und kurze Dicke. Sagen wir, die Kovarianz wäre 0,5. Dann würde ich einen Mann von Größe 1 (das heißt eine Standardabweichung über dem Durchschnitt) nicht auf das Gewicht 1 schätzen, sondern auf 0,5. Das sieht so aus, als würde ich das Gewicht der Großen unter- und das der Kleinen überschätzen.

Es kommt noch schlimmer. Wenn ich jetzt das Gewicht kenne und die Größe nicht, verschätze ich mich in umgekehrter Richtung: die Dicken zu kurz, die Dünnen zu lang. Weil ich’s wissen wollte, habe ich mir – ohne jeden Realitätsbezug – zwei (0, 1)-Verteilungen zurechtgemacht, die eine Kovarianz von 0,5 haben, und per Zufallszahlengenerator 10000 Stichproben genommen. Das sieht dann so aus:

Die Punktwolke ist so diffus, wie sie sein soll; aber wenn man sie möglichst gut durch eine Gerade annähern wollte, würde es wohl die rote Diagonale werden:

Aber nichts da: Wenn man x kennt und y schätzen will, nimmt man die flache grüne Linie, und im umgekehrten Fall die steile. Es stimmt; ich hab’s nachgerechnet. Wähle eine Körpergröße x, dann ist der zugehörige Punkt auf der flachen grünen Linie der y-Wert, der den kleinsten Schätzfehler für das Gewicht aller x großen Männer macht (genauer: Er minimiert die Quadratsumme aller Abweichungen zwischen echtem und geschätztem Gewicht). Offensichtlich kommt es entscheidend darauf an, was man weiß und was man nicht weiß.

Seltsam. Ich kann mich nicht erinnern, dass das damals in der Statistikvorlesung Thema war. Und das Problem aus dem Beispiel begegnet einem auch nicht oft. Wo kommt es schon vor, dass in der Hausarztpraxis eine Waage zur Verfügung steht, aber kein Metermaß? Oder umgekehrt?
Da habe ich auf meine alten Tage noch etwas Elementares gelernt.

The post Statistisches Schätzen ist merkwürdig originally appeared on the HLFF SciLogs blog.