Analyse: Introverts vs. Extroverts

Einführung

Basierend auf sozialem Verhalten aus einem Persönlichkeits-Datensatz, wurden Menschen in Folge diese Analyse in introvertierte oder extrovertierte Personen klassifiziert.

Dabei wird fortgeschrittene Datenvorverarbeitung & Feature Engineering verwendet - sowie ein Stacking-Ensemble erstellt:

XGBoost
SVM
Random Forest
Gradient Boosting

Daten-Mengen

Modelle stacken

Modelle tunen

Modelle testen

kaggle_cover_thumb

Modell gut

kaggle_cover_thumb

Kunde happy

Chef happy

Die Analyse

Explorative Datenanalyse

Der Datensatz wurde untersucht, um die Verteilungen der Merkmale, die Klassenbalance sowie mögliche Korrelationen zu verstehen.
Diese Informationen bilden die Grundlage für die Vorverarbeitung & Modellierung. Beispielsweise reduziert eine Klassenbalance von rund 50/50 (Introvertiert/Extrovertiert) die Wahrscheinlichkeit auf Verzerrungen in den Ergebnissen erheblich.

Übersicht der Features

FeatureBeschreibungBereich / Werte
Time_spent_AloneTägliche Stunden allein0 – 11
Stage_fearLampenfieber bekannt ?Yes / No
Social_event_attendanceFrequenz sozialer Events0–10
Going_outsideHäufigkeit draußen0–7
Drained_after_socializingErschöpfung nach sozialer Interaktion ?Yes / No
Friends_circle_sizeAnzahl guter Freunde0–15
Post_frequencyPost-Frequenz in den sozialen Medien0–10

Klassenverteilung in- & extrovertiert

Feature Engineering

Im Feature Engineering werden u.A. Interaktionsmerkmale, polynomiale Features und gruppierte Variablen erzeugt, um auch komplexe Zusammenhänge abzubilden und vergleichbar zu machen. Dabei erkennen wir in Social Comfort Index, Alone to Social Ratio und Social Event Attendance to Friends Circle size den höchsten Einfluss für das Modelltraining darstellen.

Polynomnimale Feature Importance

Modelltraining und Bewertung

Beim Modelltraining werden verschiedene Klassifikationen trainiert und durch Hyperparameter-Tuning schrittweise verfeinert. Anschließend wird die Performance der Modelle verglichen.

Cross-Validation F1-Weighted Scores der Modelle nach Hyperparameter-Tuning:

Das Ensemble-Stacking

Stacked Model Ensemble

0.938 ± 0.002

F1-Weighted Cross-Validation Score

Für den Aufbau eines Model-Ensembles werden zunächst die Vorhersagen der vier Basis-Modelle SVM, Random Forest, XGBoost und Gradient Boosting in einem logistischen Meta-Modell zusammengeführt. Das Meta-Modell lernt dabei, sich die finale Entscheidung aus den einzelnen Ensemble-Komponenten zusammenzustellen.

Auswertung

Die Confusion Matrix visualisiert die Fehlerverteilung und hilft, spezifische Schwächen einfach zu erkennen.
Die Precision- und Recall-Werte beider Klassen liegt bei 0.90 zu 0.94 und erklären die ausgeglichene F1-Score-Verteilung.

Confusion Matrix

267True Introvert
31False Introvert
17False Extrovert
265True Extrovert
KlassePrecisionRecallF1-Score
Extrovert0.940.900.92
Introvert0.900.940.92

Fazit

Die Analyse zeigt einen robusten Ansatz zur Persönlichkeits-klassifikation unter Einsatz fortgeschrittener Datenvorverarbeitung, Feature Engineering und eines Stacking-Ensembles aus Random Forest, Gradient Boosting, XGBoost und SVM.

Erfolgsquote über 91%

Mit 267 korrekten Vorhersagen für Introvert und 265 für Extrovert zeigt die Matrix nur 48 Fehlklassifikationen von insgesamt 580 Proben.

Key-Features wie Time_spent_Alone undFriends_circle_size erwiesen sich als besonders einflussreich , wie die Feature-Importance-Analysen bestätigt.

Starkes Modell

Das Stacking-Modell erreichte mit einem Cross-Validation F1-gewichteten Score von etwa 0.92 eine solide Performance .