In 6 Schritten KI-Daten richtig sammeln
Inzwischen hat sich herumgesprochen, dass die Trainingsdaten für KI-Modelle eine zentrale Rolle spielen. Doch wie bekommen wir gute KI-Daten? Und: Da im Moment alle Welt von „Artificial General Intelligence“ spricht, zu deutsch „Künstliche allgemeine Intelligenz“, stellt sich die Frage, ob wir überhaupt noch Trainingsdaten brauchen. Die kurze Antwort ist: Selbstverständlich! Weiterlesen, um die lange Antwort zu hören.
Das hier beschriebene basiert auf dem People + AI Guidebook von Google. Vor drei Wochen schrieb ich bereits eine Zusammenfassung vom ersten Kapitel, in dem es um Bedürfnisse und Erfolgskriterien ging. Heute geht es um den Inhalt des zweiten Kapitels, die Sammlung von Daten und deren Evaluierung.
Warum KI-Daten so wichtig sind
Damit KI-basierte Produkte Vorhersagen treffen können, brauchen wir ein Lernmodell, damit das Produkt Muster und Korrelationen in Daten erkennen kann. Diese Daten werden als Trainingsdaten bezeichnet und können Sammlungen von Bildern, Videos, Text, Audio und mehr sein.
Wir können entweder vorhandene Datenquellen nutzen oder ausdrücklich neue Daten zu Trainingszwecken sammeln. Vielleicht haben wir bereits Daten, oft würden wir aber offene oder kommerziell verfügbare Datenquellen benutzen. Zum Beispiel könnten wir einen existierenden Katalog von Vögeln benutzen, um ein Vogel-Erkennungssystem zu entwickeln.
Doch die Daten müssen beschriftet sein (Labeling). Beispielsweise sollte nicht nur das Bild mit dem darauf gezeigtem Vogel beschriftet sein, idealerweise ist auch der Bereich im Bild markiert, in dem sich der Vogel befindet.
Die Qualität der KI-Daten bestimmt direkt die Leistung des Systems und damit die die Zufriedenheit der Nutzer. An dieser Stelle lohnt es sich, noch einmal darüber nachzudenken, ob ein KI-System wirklich bessere Ergebnisse produziert als ein anderer Ansatz.
Wenn wir sicher sind, dass maschinelles Lernen eingesetzt werden soll, dann erreichen wir das in sechs Schritten:
① Von Anfang an mit hochwertigen Daten arbeiten
Wenn wir nicht von Anfang an auf die Qualität der Daten achten, dann besteht das Risiko einer Daten-Kaskade. Das bedeutet, dass sich negative Auswirkungen akkumulieren die nachträglich schwer zu korrigieren sind.
Aber was ist überhaupt hohe Datenqualität? Hochqualitative KI-Daten…
- Stellen eine realen Sachverhalt oder eine reale Entität präzise dar
- Wurden verantwortungsbewusst gesammelt, gespeichert und verwendet
- Sind Reproduzierbar
- Sind im Laufe der Zeit pflegbar
- Sind wiederverwendbar in allen relevanten Anwendungen
- Haben empirische und erklärende Aussagekraft
② Bedürfnisse der Nutzer in Eigenschaften der Daten übersetzen
Wir haben bereits etabliert, dass Trainingsdaten aus Beispielen und Beschriftungen (Labels) bestehen. Weiterhin haben Daten Features, die für uns von Interesse sind. Beispielsweise könnte ein Feature eines Vogels dessen Farbe sein oder Flügel-Spannweite. Welche Features sind nun wichtig für das zu lösende Problem und was müssen wir dabei beachten?
Diese Zusammenhänge sind nicht einfach, daher sollten wir unbedingt eine Spezifikation für unser Datenset erstellen, welches die relevanten Anforderungen bezüglich der KI-Daten überprüfbar sammelt.
Die Erstellung einer Datenset-Spezifikation ist dringend zu empfehlen
Hier müssen wir eine Menge beachten: Sind die Daten ausgewogen? Wie wurden sie gesammelt? Wie transformiert? Das Kapitel im PAIR-Buch enthält hilfreiche Checklisten. Die wichtigsten Punkte sind:
- Sind die Daten repräsentativ und vollständig: Wenn bspw. eine App für die Erkennung von Vögeln weltweit genutzt werden soll, dann reicht eine Datenbank europäischer Vögel nicht aus.
- Sind alle erforderlichen Features vorhanden: Da männliche und weibliche Vögel teilweise extrem unterschiedlich aussehen, sollte das Geschlecht als Feature in der Datenbank enthalten sein.
- Sind die Beschriftungen (Labels) gut ausgewählt und konsistent angewendet: Hierzu gehört auch, dass Label von verschiedenen Datensätzen konsistent sind. Ein Beispiel wäre die Bezeichnung „Kind“, die in verschiedenen Datensätzen unterschiedliche Altersgruppen umfassen könnte.
- Datensätze systematisch erheben: Basierend auf der Spezifikation, müssen mögliche Datensätze auf Eignung geprüft werden. Dazu gehören auch Themen wie Datenschutz oder auch die systematische Aufarbeitung (Proprocessing), sowie eine Strategie zur Aktualisierung der Daten.
- Den Bedarf an Daten erfassen: Qualität ist nicht dasselbe wie Quantität. Wir sollten uns Gedanken machen, wie viele Daten wir wirklich brauchen. Das kann bedeuteten, nur einen Teil der vorhandenen KI-Daten zu nutzen und die Daten gezielt mit neu erhobenen Daten zu ergänzen.
- Überanpassung und Unteranpassung ausbalancieren: Überanpassung bedeutet, dass das ML-Modell zu sehr auf die Trainingsdaten zugeschnitten ist. Ein überangepasstes Modell kann bei den Trainingsdaten sehr gute Vorhersagen machen, aber bei neuen Daten schlechter abschneiden. Unteranpassung ist das Gegenteil, wenn ein Modell die Komplexität der Beziehungen zwischen den Merkmalen des Trainingsdatensatzes nicht richtig erfasst hat. Es kann daher keine guten Vorhersagen mit neuen Daten machen.
- Fairness erhalten: In jeder Phase der Entwicklung können menschliche Vorurteile in das ML-Modell einfließen. Die Daten werden in der realen Welt von Menschen gesammelt und spiegeln deren persönliche Erfahrungen und Vorurteile wider. Wenn wir nicht aufpassen oder aktiv gegensteuern, können diese Muster vom ML-Modell implizit erkannt und verstärkt werden.
- Daten von möglichst vielen unterschiedlichen Gruppen nutzen: DieTrainingsdaten sollten die Vielfalt und den kulturellen Kontext der Menschen widerspiegeln, die sie nutzen werden. Zur Überprüfung gibt es Werkzeuge wie Facets oderWIT.
- Datenschutz und Sicherheit managen: Um diese Themen abzudecken müssen wir neben entsprechenden Datenschutzabkommen und Prüfungen möglicherweise auch Fachleute, wie bspw. Anwälte, zu Rate ziehen.
- Zustimmung der Nutzer zur Datennutzung regeln: In unterschiedlichen Ländern herrschen unterschiedliche Regeln, die wir beachten müssen. Weiterhin sollten wir auch sicherstellen, dass unser Verhalten von den Nutzern als transparent wahrgenommen wird.
- Risiko der Nutzeridentifizierung minimieren: Besteht die Gefahr, dass versehentlich Nutzerdaten preisgegeben werden? Was wären die Folgen?
③ Verantwortungsvolles Datensammeln
Nun können wir mit dem Sammeln der Daten beginnen. Die eben beschriebenen Vorbereitungen sollten sicherstellen, dass wir rechtlich sauber die richtigen Daten sammeln.
Am einfachsten und günstigsten ist die Nutzung von bereits gesammelten Daten. Wie oben beschrieben sind oft nicht alle Daten geeignet und müssen möglicherweise noch aufbereitet werden. Falls wir Daten neu erheben müssen hilft eine Dataset-Spezifikation, dies von Anfang an richtig zu machen.
Neue Daten können implizit oder explizit erhoben werden. Zum Beispiel stellt die Telemetrie einer App-Nutzung eine implizite Datenerhebung dar, während eine Nutzerbefragung eine explizite Datenerhebung darstellt.
Die klassische Frage: „War dieses Ergebnis nützlich?“ stellt eine Form der expliziten Datenerhebung dar.
Um auch langfristig die Qualität der Daten zu gewährleisten, müssen diese gepflegt werden. Auch dies sollten wir dokumentieren. Pflege fällt in drei Teilbereiche: Vorbeugende Pflege sorgt dafür, dass bestimmte potentielle Probleme gar nicht erst entstehen. Adaptive Pflege passt bestehende Daten an eine sich ändernde Realität an, wie bspw. sich änderndes Kartenmaterial. Und zuletzt beseitigt korrigierende Wartung erkannte Probleme.
④ Daten vorbereiten und dokumentieren
Woher wissen wir, dass unser Modell funktioniert? Wir brauchen nicht nur Trainingsdaten sondern auch Testdaten. Dazu teilen wir unsere KI-Daten in diese zwei Gruppen auf. Nachdem wir mit dem einen Teil die Daten trainiert haben, können wir das Modell mit dem zweiten Teil prüfen. Ein typischer Split ist 60% (Training) zu 40% (Test).
Die KI-Daten werden Üblicherweise in einer Pipeline verarbeitet, wobei sich hier der Begriff MLOps etabliert hat, analog zu DevOps. Ebenso müssen wir die Daten dokumentieren, ebenfalls analog zur Dokumentation von Softwarecode.
Als Mittel für die Dokumentation von KI-Daten haben sich Data Cards etabliert.
Data Cards sind strukturierte Zusammenfassungen wesentlicher Fakten zu verschiedenen Aspekten von ML-Datensätzen, die von den Beteiligten über den gesamten Lebenszyklus eines Projekts für eine verantwortungsvolle KI-Entwicklung benötigt werden.
The Data Cards Playbook
⑤ Vorbereitung für Beschrifter
Wir haben bereits gelernt, dass eine korrekte Beschriftung (Labels) die Qualität des Modells erhöht. Beschrifter können Menschen sein, aber auch automatische Prozesse. Wie auch immer das Labeling vonstatten geht, wir müssen es in unserem Entwicklungsprozess berücksichtigen.
Falls wir Menschen für das Beschriften heranziehen, so ist auch hier eine Diversität hilfreich, um unbewusste Verzerrungen zu neutralisieren. Weiterhin sollten wir diesen eine Richtlinie bereitstellen, um konsistentes Labeling sicherzustellen.
Das Labeling sollte von passenden Werkzeugen unterstützt werden und die Arbeitsflüsse der Beschrifter unterstützen. Es kann auch sinnvoll sein, das Selbstvertrauen der Beschrifter zu berücksichtigen und im Zweifelsfall die Ergebnisse von mehreren Personen heranzuziehen.
⑥ Das Modell abstimmen
Sobald wir unser Modell mit den Trainingsdaten trainiert haben werten wir die Ergebnisse aus. Damit können wir festzustellen, ob das Modell die Bedürfnisse der Zielnutzer gemäß unserer Erfolgsmetriken erfüllt. Wenn nicht, müssen wir es entsprechend anpassen.
Für diese Phase gibt es Werkzeuge, aber letzten Endes müssen wir testen, testen, testen. Damit wir unsere Veränderungen nachvollziehen können, sollten wir die am Modell und den Daten durchgeführte Änderungen versionieren. Um wirklich gute Ergebnisse zu bekommen, müssen wir hier viele Runden drehen, weshalb auch hier ein vernünftig etabliertes MLOps viel Frust vermeiden kann.
Fazit
Daten sind die Grundlage eines jeden ML-Systems. Verantwortungsvoll beschaffte Daten helfen uns bessere Systeme zu entwickeln und somit die Bedürfnisse der Nutzer besser zu erfüllen.
Damit ist die Reise zu einem erfolgreichen KI-System zwar noch nicht zu Ende, aber haben einen der wichtigsten Aspekte abgehandelt.
Foto von Mika Baumeister auf Unsplash