Einführung
Basierend auf sozialem Verhalten aus einem Persönlichkeits-Datensatz, wurden Menschen in Folge diese Analyse in introvertierte oder extrovertierte Personen klassifiziert.
Dabei wird fortgeschrittene Datenvorverarbeitung & Feature Engineering verwendet - sowie ein Stacking-Ensemble erstellt:
Daten-Mengen

Modelle stacken
Modelle tunen
Modelle testen

Modell gut

Kunde happy
Chef happy
Die Analyse
Der Datensatz wurde untersucht, um die Verteilungen der Merkmale, die Klassenbalance sowie mögliche Korrelationen zu verstehen.
Diese Informationen bilden die Grundlage für die Vorverarbeitung & Modellierung. Beispielsweise reduziert eine Klassenbalance von rund 50/50 (Introvertiert/Extrovertiert) die Wahrscheinlichkeit auf Verzerrungen in den Ergebnissen erheblich.
| Feature | Beschreibung | Bereich / Werte |
|---|---|---|
| Time_spent_Alone | Tägliche Stunden allein | 0 – 11 |
| Stage_fear | Lampenfieber bekannt ? | Yes / No |
| Social_event_attendance | Frequenz sozialer Events | 0–10 |
| Going_outside | Häufigkeit draußen | 0–7 |
| Drained_after_socializing | Erschöpfung nach sozialer Interaktion ? | Yes / No |
| Friends_circle_size | Anzahl guter Freunde | 0–15 |
| Post_frequency | Post-Frequenz in den sozialen Medien | 0–10 |
Im Feature Engineering werden u.A. Interaktionsmerkmale, polynomiale Features und gruppierte Variablen erzeugt, um auch komplexe Zusammenhänge abzubilden und vergleichbar zu machen. Dabei erkennen wir in Social Comfort Index, Alone to Social Ratio und Social Event Attendance to Friends Circle size den höchsten Einfluss für das Modelltraining darstellen.
Beim Modelltraining werden verschiedene Klassifikationen trainiert und durch Hyperparameter-Tuning schrittweise verfeinert. Anschließend wird die Performance der Modelle verglichen.

0.938 ± 0.002
F1-Weighted Cross-Validation Score
Für den Aufbau eines Model-Ensembles werden zunächst die Vorhersagen der vier Basis-Modelle SVM, Random Forest, XGBoost und Gradient Boosting in einem logistischen Meta-Modell zusammengeführt. Das Meta-Modell lernt dabei, sich die finale Entscheidung aus den einzelnen Ensemble-Komponenten zusammenzustellen.
Die Confusion Matrix visualisiert die Fehlerverteilung und hilft, spezifische Schwächen einfach zu erkennen.
Die Precision- und Recall-Werte beider Klassen liegt bei 0.90 zu 0.94 und erklären die ausgeglichene F1-Score-Verteilung.
| Klasse | Precision | Recall | F1-Score |
|---|---|---|---|
| Extrovert | 0.94 | 0.90 | 0.92 |
| Introvert | 0.90 | 0.94 | 0.92 |
Fazit
Die Analyse zeigt einen robusten Ansatz zur Persönlichkeits-klassifikation unter Einsatz fortgeschrittener Datenvorverarbeitung, Feature Engineering und eines Stacking-Ensembles aus Random Forest, Gradient Boosting, XGBoost und SVM.
Erfolgsquote über 91%
Mit 267 korrekten Vorhersagen für Introvert und 265 für Extrovert zeigt die Matrix nur 48 Fehlklassifikationen von insgesamt 580 Proben.
Key-Features wie Time_spent_Alone undFriends_circle_size erwiesen sich als besonders einflussreich , wie die Feature-Importance-Analysen bestätigt.
Starkes Modell
Das Stacking-Modell erreichte mit einem Cross-Validation F1-gewichteten Score von etwa 0.92 eine solide Performance .