„Data Quality und Fairness” mit Isabel Bär

Datenqualität ist in ML-Projekten eine große Herausforderung. Die Frage, welche Konsequenzen Datenfehler auf die Eigenschaften von Modellen haben können, bietet verschiedene Perspektiven. Generell lassen sich die Eigenschaften von ML-Modellen in funktionale und nicht-funktionale Eigenschaften einteilen. Die bekannteste funktionale Eigenschaft ist die prädiktive Performance als die Fähigkeit eines Modells, die richtigen Vorhersagen zu treffen. Prädiktive Peformance lässt sich je nach Aufgabentyp des maschinellen Lernens durch etablierte Metriken wie Accuracy oder Precision quantitativ erfassen. Zu einer bekannten nicht-funktionalen Eigenschaft gehört Fairness, deren Definitionen und Messung vergleichsweise wenig etabliert sind. Uns interessiert im Talk die Fairness: Wie entsteht Unfairness eigentlich als Folge von Bias und wie entsteht Bias in den Trainingsdaten? Wie können wir Fairness überhaupt messen? Was bedeutet Datenqualität für die Fairness von ML-Modellen? In welchem Zusammenhang stehen Bias und Datenqualität?

Der Talk nimmt eine datenzentrierte Perspektive ein, um den Zusammenhang von Fairness mit Datenqualität zu untersuchen. Dazu schauen wir uns an, welche Arten von Bias in den Trainingsdaten vorhanden sein können, mit welchen Metriken wir Bias messen können, und analysieren gemeinsam in einer Experimentenreihe, wie sich verunreinigte Daten auf diese Metriken auswirken können.

Data Quality und Fairness

GEHOSTED VON

Wann und Wo?

Sprache