causalanalytics_funktionsweise_umt-regression

Funktionsweise und Monte-Carlo-Simulation der UMT-Regression

 

Funktionsprinzip der Universal Multi-Target-Regression

Die Idee der klassischen multiplen Regressionsanalyse ist es, die Variation einer Zielvariable auf die Variation mehrerer Treibervariablen zurückzuführen. Mit ihr kann ermittelt werden, welchen direkten Einfluss eine Treiberänderung „cetarus paribus“ (unter sonst gleichen Bedingungen) gehabt hätte. Bei 2 Treibervariablen braucht man mindestens 3 Fallwerte, um eine mathematisch eindeutige Lösung finden zu können. Wird die Variation der Zielvariable noch durch Treiber bedingt, die nicht als Daten in einer Variable vorliegen (diese sonstigen Gründe werden als Zufallseinfluss betrachtet), so braucht man deutlich mehr Fallwerte, um die Verfälschung der unbekannten Drittvariablen „heraus zu mitteln“. Korrelieren die Treibervariablen untereinander, so braucht man noch mehr Fallwerte, da jede einzelne Treibervariable weniger einzigartige Informationen liefert. So kommt es, dass man in der Marketingforschung von einem notwendigen Mindestfaktor von 5 bis 10 zwischen Treibervariablenanzahl und Fallzahl ausgeht.

Meist beeinflussen die Treiber (z.B. Produktqualität, Servicelevel, etc.) jedoch nicht nur eine Zielvariable wie Kundenzufriedenheit, sondern auch z.B. die Kundenbindung. Zudem können diese Zielgröße durch unterschiedliche Items („erwägen Sie zu wechseln“ oder „haben sie uns schon weiterempfohlen“) gemessen werden. So ist es möglich, eine Vielzahl an Variablen zu erheben, die in ähnlicher Weise von den gleichen Treibern beeinflusst werden. Die Annahme, dass diese Items in ähnlicher Weise beeinflusst werden, ist die Grundlage eines methodischen Tricks. Die Treiber werden zu wenigen „latenten Komponenten“ zusammengefasst, die dann zur Erklärung der Zielvariablen dienen. Anders als bei der Hauptkomponentenanalyse oder der Faktorenanalyse, werden diese latenten Komponenten NICHT nach Maßgabe der Minimierung der Zwischen-Treiber-Varianz gebildet. Denn diese Form der Datenkompression würde in keiner Weise die Zielvariable berücksichtigen. Vielmehr werden die latenten Komponenten so gebildet, dass die Zielvariablen optimal erklärt werden. Die latenten Komponenten stellen einen Flaschenhals dar, der dazu führt, dass nur die Treibervarianzen verwendet werden, die alle Zielgrößen gleichermaßen erklären.

Dies ist die Logik der sogenannte Partial Least Squares Regression (Link Wikipedia). In der UMT-Regression verwenden wir nicht mehr lediglich lineare Verfahren, die immer Linearität und Unabhängigkeit der Variablen annehmen. Vielmehr verwenden wir sogenannte Kernel-Methoden wie sie etwa in Support-Vektor-Machines Anwendung finden. Support-Vektor-Machines können als moderne Form des Lernalgorithmus für Künstliche Neuronale Netze interpretiert werden.

 

Leistungsnachweis durch Monte-Carlo-Simulation

Um die Leistungsfähigkeit einer Treiberanalyse nachzuweisen, muss man die Wahrheit hinter den Daten kennen. So kann Ergebnis und Wahrheit miteinander verglichen werden. Monte-Carlo-Simulationen ermöglichen das. Die Wahrheit wird in Form von Formeln als Funktionszusammenhang festgesetzt und ist bekannt. Die Ausprägungen der Treibervariablen werden zufällig erzeugt. Durch die Funktionszusammenhänge können die Ergebnisvariablen berechnet werden. So wird ein Datensatz erzeugt, deren wahrer Zusammenhangshintergrund bekannt ist.

Zum Testen der UMT-Regression haben wir wie folgt einen Datensatz erzeugt:

 

  • 20 Treibervariablen (x1 bis x20) werden durch einen Zufallsgenerator mit 1000 Fälle und Werten zwischen 0 und 1 gefüllt.
  • Der Funktionszusammenhang wird wie folgt definiert: y1= sinus( x1 *PI/2) + Zufall.
  • Auf gleiche Weise werden die Ergebnisvariablen y2 bis y12 gebildet, wobei die Formel jeweils eine andere Zufallszahl enthält. D.h. y1 bis y12 hängen von x1 ab.

 

Die Modellierung erfolgt folgendermaßen:

 

  • Alle Variablen x1 bis x20 werden als Treibervariablen definiert. Dies ist eine realistische Bedingung, da in der Praxis auch im Vorhinein kaum bekannt ist, welcher Treiber tatsächlich Einfluss hat.
  • Alle Variablen y1 bis y12 sind Zielvariablen für UMT. Zum Vergleich wird für jedes y (12mal) eine klassische multiple lineare Regression gerechnet.
  • Von den 1000 Fällen werden zufällig 30 ausgewählt und nur mit diesen das UMT-Modell und die Vergleichs-Regressionsmodelle berechnet.
  • Die prediktive Leistung der Modelle wird mit den verbleibenden 970 Fällen validiert und als R2 gemessen.
  • Dieser Prozess (die Zufallsauswahl von 30 Fällen und die anschließende Modellbildung) wird 100-mal wiederholt, um den Samplingfehler-Effekt auszuschließen.

 

Ergebnisse:

 

  • Der durchschnittliche R2 auf den 970 Validierungsdaten beträgt bei UMT-Regression 0,21. Die herkömmliche Regression leistet enttäuschende -0,45. Bei ungünstigen Sampling der 30 Werte kann der R2 der UMT-Methode jedoch auch fallweise nahe 0 liegen. Das kommt ca. in jedem 5 Sample vor. Glücklicherweise war bei 92% dieser Fälle anhand der geringen Erklärungsgüte (R2) auf den 30 Lerndaten erkennbar, dass das Model keine hohe Validierungsgüte erreichen wird.
  • Steigert man die Fallzahl von 30 auf 60 Fälle, so steigt die Performance der herkömmlichen Regression auf -0,04 und die der UMT-Regression auf 0,38.
  • Die Treiberstärke wird durch die gleichen Simulationstechniken ermittelt, wie sie in der NEUSREL-Software Anwendung finden. Schon bei 30 Fällen wird in 91% der Fälle x1 als der einzige relevante Treiber erkannt.

Diese Monte-Carlo-Studie ist ein einfach nachvollziehbares Beispiel. Die UMT-Regression überzeugt auch bei komplexeren Funktionszusammenhängen mit vielen relevanten Treibern, die wir auf Nachfrage gern weitergeben.