Regressionsgerade raten

Sind mindestens drei beliebige Punkte in der Ebene gegeben, so lässt sich zumeist keine Gerade mehr angeben, die durch alle Punkte verläuft. Das Ziel der linearen Regression ist es, eine solche Punktwolke möglichst gut durch eine Gerade zu approximieren.

Besonders verbreitet ist dabei die Methode der kleinsten Quadrate: Sind Punkte (x1,y1),...,(xn,yn) gegeben, so ist eine Gerade y=ax+b gesucht, so wird zunächst für für alle Punkte der vertikale Abstand yi-(axi+b) zwischen dem Punkt und der Geraden bestimmt, dieser wird quadriert, dies liefert die Residuen (yi-(axi+b))2. Nun werden die Residuensumme gebildet, d.h. alle Residuen aufeinander addiert, und a und b werden so bestimmt, dass diese Summe möglichst klein wird. Dieses Minimierungsproblem lässt sich allgemein lösen, es ergeben sich fertige Formeln für a und b.

Die Regressionsgerade kann in jedem Fall berechnet werden, auch wenn eine lineare Regression gar nicht sinnvoll ist. In Anwendungen lässt sich leider nicht immer aufgrund von Rahmenbedingungen entscheiden, ob ein linearer Zusammenhang als Beschreibung sinnvoll ist oder nicht. Daher sind Maßzahlen für die Güte der Approximation der Punktwolke durch die Regressionsgerade nötig. Die Residuensumme kann hierfür nicht direkt als Bewertungsmaß herangezogen werden, und da ihr Wert von der Größenordnung der x- und y-Werte abhängt. Werden also zum Beispiel andere Einheiten gewählt, ändert sich auch die Residuensumme. Einen Ausweg stellt der Korrelationskoeffizient dar: Er liefert unabhängig von Stichprobenumfang und Größenordnung der x- und y-Werte immer Zahlen zwischen -1 und 1. Bei Werten nahe 1 bzw. -1 können die Punkte gut durch eine steigende bzw. fallende Gerade angepasst werden. Bei Werten nahe 0 ist die Anpassung der Punktwolke durch eine Gerade als Modellbeschreibung hingegen eher unpassend.

Aus statistischer Sicht handelt es sich bei der linearen Regression um eine einfache Form eines linearen Modells: Auf den Wert ax+b der Geraden wird ein zufälliger Wert addiert, der etwa Messfehler berücksichtigt. Sehr verbreitet ist dabei die Annahme, dass der Fehler einer Normalverteilung mit Erwartungswert 0 unterliegt, d.h. die Beobachtungen sind Zufallsvariablen Y1,...,Yn mit Yi=axi+b+Zi, wobei die Zi mit Erwartungswert 0 und einer unbekannten Varianz σ2 normalverteilt ist. Sollen aufgrund einer konkreten Stichprobe nun die Werte a und b geschätzt werden, so ergeben sich für a und b gerade die Schätzer der Methode der kleinsten Quadrate.

In diesem Modell hat das Quadrat des Korrelationskoeffizienten, das Bestimmtheitsmaß, eine wichtige Interpretation: Dass die yi nicht alle gleich sind, ist zum einen der Tatsache geschuldet, dass verschiedene Werte xi eingestellt wurden, zum anderen wird dies auch durch den normalverteilten Fehlerterm verursacht. Das Bestimmtheitsmaß gibt nun den Anteil der Variation der yi, der durch die xi erklärt wird, wieder. Bei Werten nahe 1 ist also ein sehr großer Teil der Variation der yi durch das Einstellen der xi, also durch die lineare Regression erklärbar, während bei Werten nahe 0 die Variation der yi vor allem auf den normalverteilten Fehler zurückzuführen ist, und die Regression kaum erklärt, warum sich unterschiedliche yi ergaben.

Funktionsweise der interaktiven Seite

Unten wird eine zufällig erzeugte Punktwolke angezeigt. Mit zwei Mausklicks können Sie versuchen, die passende Regressionsgerade einzuzeichnen. Sie können sich die korrekte Regressionsgerade anzeigen lassen. Durch einen Vergleich der Residuensumme Ihres Vorschlags und der minimalen Residuensumme können sie sehen, wie gut Ihre Schätzung war.

Aktuelle Gerade:
Residuensumme der Geraden:
Optimale Gerade:
Minimale Residuensumme:
Empirischer Korrelationskoeffizient: