In dieser Episode dreht sich alles um Datenvalidierung und darum, wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt. Mira und Michelle erklären, warum eine gründliche Prüfung der Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus stehen typische Checks wie Schema-Validierung, Vollständigkeit, Konsistenz und statistische Auffälligkeiten. Außerdem geht es darum, wie Datenvalidierung hilft, Daten besser zu verstehen und Fehler frühzeitig aufzudecken. Abschließend werden praktische Techniken und Tools vorgestellt, die von manue...
In dieser Episode dreht sich alles um Datenvalidierung und darum, wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt. Mira und Michelle erklären, warum eine gründliche Prüfung der Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus stehen typische Checks wie Schema-Validierung, Vollständigkeit, Konsistenz und statistische Auffälligkeiten. Außerdem geht es darum, wie Datenvalidierung hilft, Daten besser zu verstehen und Fehler frühzeitig aufzudecken. Abschließend werden praktische Techniken und Tools vorgestellt, die von manueller Analyse bis zur automatisierten Pipeline reichen.
**Zusammenfassung**
- Datenvalidierung prüft die Datenqualität vor der Modellierung
- Ziel: Probleme früh erkennen und Ressourcen sparen
- Wichtige Aspekte: Datentypen, Duplikate, fehlende Werte
- Logik- und Plausibilitätschecks (z.B. Alter nicht negativ, Prozentwerte im richtigen Bereich)
- Statistische Methoden zur Erkennung von Anomalien und Verteilungen
- Univariat: einfache Kennzahlen, Histogramme, Boxplots, Zeitreihenanalysen
- Multivariat: Korrelationen, Scatterplots, Kreuztabellen, Multikollinearität
- Tools reichen von Notebooks und Reports bis zu Dashboards und automatisierten Pipelines
**Links**
- Great Expectations (Datenvalidierung in Python): https://greatexpectations.io/
- Pandera (Schema-Validierung für Pandas): https://pandera.readthedocs.io/
- dataMaid (Datenvalidierung in R): https://cran.r-project.org/web/packages/dataMaid/index.html
- Pydantic (Datenvalidierung & Settings in Python): https://docs.pydantic.dev/
- Wikipedia-Eintrag zum Prinzip "Garbage In, Garbage Out": https://de.wikipedia.org/wiki/Garbage_In,_Garbage_Out
View more