Analyse: Introverts vs. Extroverts

Einführung

Basierend auf sozialem Verhalten aus einem Persönlichkeits-Datensatz, wurden Menschen in Folge diese Analyse in introvertierte oder extrovertierte Personen klassifiziert.

Dabei wird fortgeschrittene Datenvorverarbeitung & Feature Engineering verwendet - sowie ein Stacking-Ensemble erstellt:

XGBoost

SVM

Random Forest

Gradient Boosting

Daten-Mengen

Modelle stacken

Modelle tunen

Modelle testen

Modell gut

Kunde happy

Chef happy

Die Analyse

Explorative Datenanalyse

Der Datensatz wurde untersucht, um die Verteilungen der Merkmale, die Klassenbalance sowie mögliche Korrelationen zu verstehen.
Diese Informationen bilden die Grundlage für die Vorverarbeitung & Modellierung. Beispielsweise reduziert eine Klassenbalance von rund 50/50 (Introvertiert/Extrovertiert) die Wahrscheinlichkeit auf Verzerrungen in den Ergebnissen erheblich.

Übersicht der Features

Feature	Beschreibung	Bereich / Werte
Time_spent_Alone	Tägliche Stunden allein	0 – 11
Stage_fear	Lampenfieber bekannt ?	Yes / No
Social_event_attendance	Frequenz sozialer Events	0–10
Going_outside	Häufigkeit draußen	0–7
Drained_after_socializing	Erschöpfung nach sozialer Interaktion ?	Yes / No
Friends_circle_size	Anzahl guter Freunde	0–15
Post_frequency	Post-Frequenz in den sozialen Medien	0–10

Klassenverteilung in- & extrovertiert

Feature Engineering

Im Feature Engineering werden u.A. Interaktionsmerkmale, polynomiale Features und gruppierte Variablen erzeugt, um auch komplexe Zusammenhänge abzubilden und vergleichbar zu machen. Dabei erkennen wir in Social Comfort Index, Alone to Social Ratio und Social Event Attendance to Friends Circle size den höchsten Einfluss für das Modelltraining darstellen.

Polynomnimale Feature Importance

Modelltraining und Bewertung

Beim Modelltraining werden verschiedene Klassifikationen trainiert und durch Hyperparameter-Tuning schrittweise verfeinert. Anschließend wird die Performance der Modelle verglichen.

Cross-Validation F1-Weighted Scores der Modelle nach Hyperparameter-Tuning:

Das Ensemble-Stacking

Stacked Model Ensemble

0.938 ± 0.002

F1-Weighted Cross-Validation Score

Für den Aufbau eines Model-Ensembles werden zunächst die Vorhersagen der vier Basis-Modelle SVM, Random Forest, XGBoost und Gradient Boosting in einem logistischen Meta-Modell zusammengeführt. Das Meta-Modell lernt dabei, sich die finale Entscheidung aus den einzelnen Ensemble-Komponenten zusammenzustellen.

Auswertung

Die Confusion Matrix visualisiert die Fehlerverteilung und hilft, spezifische Schwächen einfach zu erkennen.
Die Precision- und Recall-Werte beider Klassen liegt bei 0.90 zu 0.94 und erklären die ausgeglichene F1-Score-Verteilung.

Confusion Matrix

267True Introvert

31False Introvert

17False Extrovert

265True Extrovert

Klasse	Precision	Recall	F1-Score
Extrovert	0.94	0.90	0.92
Introvert	0.90	0.94	0.92

Fazit

Die Analyse zeigt einen robusten Ansatz zur Persönlichkeits-klassifikation unter Einsatz fortgeschrittener Datenvorverarbeitung, Feature Engineering und eines Stacking-Ensembles aus Random Forest, Gradient Boosting, XGBoost und SVM.

Erfolgsquote über 91%

Mit 267 korrekten Vorhersagen für Introvert und 265 für Extrovert zeigt die Matrix nur 48 Fehlklassifikationen von insgesamt 580 Proben.

Key-Features wie Time_spent_Alone undFriends_circle_size erwiesen sich als besonders einflussreich , wie die Feature-Importance-Analysen bestätigt.

Starkes Modell

Das Stacking-Modell erreichte mit einem Cross-Validation F1-gewichteten Score von etwa 0.92 eine solide Performance .