Die Reward Function: Dreh- und Angelpunkt von KI-Systemen

Wenn wir Systeme für Menschen entwickeln, müssen wir wichtige Entscheidungen fällen: Wer sind die Nutzer? Was ist den Nutzern wichtig? Was ist für sie wertvoll? Welches Problem für diese Nutzer wird das System lösen, und wie lösen wir es? Wie finden wir heraus, ob wir fertig sind? All diese Fragen müssen wir beantworten, egal ob das Zielsystem KI einsetzt oder nicht. Falls es jedoch ein KI-basiertes System ist, dann spielt die „Reward Function“ (Belohnungsfunktion) eine wichtige Rolle. Warum das so ist und wie wir sie nutzen, darum geht es im Folgenden.

Mit der Reward Function definiert ein KI-System Erfolge und Misserfolge. Um zu funktionieren, sollte diese bewusst mit einem Team der wichtigen Stakeholder definiert und optimiert werden.

Bevor wir uns der Reward Function zuwenden, müssen wir zwei andere Fragen klären: Erstens, passen Kundennutzen und KI überhaupt zusammen, und wenn ja, wie? Zweitens, nutzen wir KI für die Automatisierung oder Augmentation (Unterstützung) von Tätigkeiten? Mit diesem Wissen können wir dann die passende Reward Function entwerfen.

Das hier beschriebene basiert auf dem People + AI Guidebook von Google. Passend dazu auch hier der Zweiteiler RE4AI.

Schnittmenge von Nutzerbedürfnissen und KI-Stärken

Wie bei jeder Entwicklung ist die Identifizierung des richtigen Problems eine der wichtigsten Aufgaben. Dieser Schritt hat erst einmal nichts mit KI zu tun und ist gut verstanden.

KI setzen wir typischerweise für die für die Automatisierung oder Unterstützung von Tätigkeiten ein. In dieser Phase sollten wir uns dazu schon Gedanken machen. Eine gute Technik ist, bestehenden Arbeitsabläufe zu untersuchen. Wenn wir den Nutzern „über die Schulter schauen“ können wir Engpässe erkennen. Dies muss nicht bei der Arbeit geschehen, Workshops oder Interviews sind auch Techniken, die wir einsetzen können.

Macht KI das Produkt wirklich besser?

Es ist wichtig zu hinterfragen, ob KI das Produkt wirklich besser macht. Oft funktioniert eine regelbasierte oder heuristische Lösung genauso gut, wenn nicht sogar besser. Eine einfachere Lösung hat den zusätzlichen Vorteil, dass sie einfacher zu erstellen, zu erklären, zu debuggen und zu warten ist. KI kann in manchen Situationen das Produkt sogar schlechter machen.

KI ist wahrscheinlich besser

  • Empfehlung unterschiedlicher Inhalte für verschiedene Nutzer
  • Vorhersage von zukünftigen Ereignissen.
  • Personalisierung
  • Verstehen natürlicher Sprache
  • Erkennung einer Klasse von Objekten oder Elementen
  • Erkennung von Ereignissen mit geringer Häufigkeit, die sich im Laufe der Zeit ändern
  • Eine domänenspezifische Agenten- oder Botfunktion
  • Dynamische Inhalte

KI ist wahrscheinlich schlechter

  • Vorhersehbarkeit hat einen hohen Stellenwert.
  • Aufgabe mit statischen oder sehr begrenzten Daten.
  • Minimierung teuer Fehler.
  • Vollständige Transparenz ist erforderlich
  • Optimierung für hohe Geschwindigkeit und niedrige Kosten
  • Aufgaben mit hohem Wert

Automatisierung oder Augmentation?

Es gibt Aufgaben, die die Menschen gerne von der KI erledigen lassen würden. Aber Menschen sind auch gern in Kontrolle und wollen viele Tätigkeiten selbst erledigen. In diesen Fällen kann KI helfen, die Aufgaben schneller, effizienter und manchmal sogar kreativer zu erledigen. Im Idealfall arbeiten Automatisierung und Augmentation zusammen, um das Ergebnis eines langen, komplizierten Prozesses zu vereinfachen und zu verbessern.

Die folgenden Listen helfen zu entscheiden, ob (bzw. in welchen Bereichen der Aufgabe) wir automatisieren oder unterstützen sollten:

Automatisierung

Erfolg wird gemessen mit:

  • Erhöhte Effizienz
  • Höhere Sicherheit
  • Reduzierung mühsamer Aufgaben
  • Ermöglichung neuer Features die ohne Automatisierung nicht möglich gewesen wären

Kriterien für den Einsatz von Automatisierung:

  • Nutzer fehlt das Wissen für die Tätigkeit
  • Aufgaben sind langweilig, repetitiv, umständlich oder gefährlich

Augmentation

Erfolg wird gemessen mit:

  • Nutzer haben mehr Spaß an einer Aufgabe
  • Nutzer brauchen mehr Kontrolle, als bei einer Automatisierung möglich wäre
  • Verantwortung bleibt beim Nutzer
  • Nutzer können Ihre Leistungen skalieren
  • Kreativität steigt

Kriterien für den Einsatz von Automatisierung:

  • Nutzer haben Spaß an der Tätigkeit
  • Verantwortung für das Ergebnis liegt beim Menschen
  • Es steht viel auf dem Spiel
  • Klare Präferenzen sind schwer zu vermitteln

Die Reward Function

Jedes KI-Modell wird von einer „Reward Function“ gesteuert. Andere Begriffe sind Belohnungsfunktion, Zielfunktion oder Verlustfunktion. Dabei handelt es sich um eine mathematische Formel, die das KI-Modell verwendet, um „richtige“ von „falschen“ Vorhersagen zu unterscheiden. Sie bestimmt die Aktion oder das Verhalten, für das unser System zu optimieren versucht, und ist ein wichtiger Faktor für das endgültige Nutzererlebnis.

Viele KI-Modelle sagen voraus, ob ein bestimmtes Element zu einer bestimmten Kategorie gehört oder nicht. Anhand einer solchen binären Klassifizierung lässt sich gut erklären, wie die Reward Function eingesetzt wird.

Eine KI-Modell kann richtig oder falsch liegen, wobei es jeweils zwei Arten von „richtig“ und „falsch“ gibt, wie die folgende Matrix veranschaulicht:

Diese Matrix zeigt zwei Arten von Erfolg — echte positive und echte negative — und die beiden Arten von Fehlern — falsch positive und falsch negative — die jedes KI-Modell machen kann. Quelle: PAIR Guidebook, BY-NC-SA

Mit der Reward Function gewichten wir die Ergebnisse. Bei dem einfachen Beispiel einer binären Bewertung können wir also den vier Ergebnissen unterschiedlich einstufen. Die Abwägung der Kosten von falsch-positiven und falsch-negativen Ergebnissen ist eine wichtige Entscheidung, die die Erfahrungen unserer Nutzer prägen wird.

Es ist verlockend, alles gleich zu gewichten. Dies entspricht jedoch nicht dem, was die Nutzer wollen. Wenn eine KI bspw. eine gefährliche Situation erkennen soll, dann könnte ein False Negative zu großem Schaden führen. Wenn es jedoch zu viele False Positives geben sollte, könnten dies die Nutzer dermaßen nerven, dass sie das System abschalten oder ignorieren.

Precision und Recall

Precision und Recall sind die Begriffe, die die Breite und Tiefe der Ergebnisse beschreiben, welche die KI den Nutzern liefert, und die Arten von Fehlern, die die Nutzer sehen.

Je höher die Precision ist, desto sicherer können wir sein, dass die Ergebnisse des Modells richtig sind. Der Nachteil ist jedoch, dass die Anzahl der falsch-negativen Ergebnisse steigt, da möglicherweise relevante Ergebnisse ausgeschlossen werden.

Recall bezieht sich auf den Anteil der richtig positiven Ergebnisse, die von allen richtig positiven und falsch negativen Ergebnissen richtig kategorisiert wurden. Je höher die Rückrufquote ist, desto sicherer können wir sein, dass alle relevanten Ergebnisse irgendwo in der Ausgabe enthalten sind. Der Nachteil ist jedoch, dass sich die Zahl der falsch-positiven Ergebnisse erhöht, da möglicherweise irrelevante Ergebnisse einbezogen wurden.

Das folgende Bild macht das Ganze etwas anschaulicher:

Es gibt immer Zielkonflikte bei der Optimierung für Präzision oder Recall. Auf der linken Seite kann die Optimierung der Genauigkeit die Anzahl der falsch-positiven Ergebnisse verringern, aber die Anzahl der falsch-negativen Ergebnisse erhöhen. Auf der rechten Seite werden durch die Optimierung von Recall mehr richtig positive Ergebnisse erzielt, aber auch die Anzahl der falsch positiven Ergebnisse erhöht. Quelle: PAIR Guidebook, BY-NC-SA

Wir müssen diese Kompromisse bei der Entwicklung berücksichtigen — es führt kein Weg daran vorbei. Jedes Produkt ist individuell und es hängt davon ab, was unsere Benutzer erwarten und was ihnen das Gefühl der Vollständigkeit der Aufgabe vermittelt. Manchmal hilft es den Benutzern, neben den 100 %-Ergebnissen auch einige Ergebnisse mit geringerer Sicherheit zu sehen, damit sie sich sicher sein können, dass das System nichts übersehen hat. In anderen Fällen könnte die Anzeige von Ergebnissen mit geringerer Zuverlässigkeit dazu führen, dass die Benutzer dem System weniger vertrauen.

Auswertung der Reward Function

Wir müssen bei der Entwicklung der Reward Function unbedingt die Stakeholder mit einbeziehen. Hier ist auch relevant, wie viele Nutzer es geben wird. Hier sind einige Kriterien für die Auswertung:

  • Bewertung der Inklusivität — Inklusivität bedeutet sicherzustellen, dass alle Produktnutzer berücksichtigt werden. Dazu gehören Menschen mit unterschiedlichem Hintergrund, verschiedenen Blickwinkeln sowie Dimensionen wie Herkunft, Geschlecht, Alter oder Körperform, um nur einige zu nennen.
  • Bwertung im Zeitverlauf — Die Reward Function sollte Auswirkungen im Laufe der Zeit berücksichtigen, also bspw. wie lange einzelne Nutzer das System bereits benutzt haben.
  • Erstellung von Probem-Szenarien — Unser System könnte indirekte Auswirkungen auf die Nutzer haben. Diese sind bekanntermaßen schwer vorherzusagen, aber es lohnt sich, sie bei der Gestaltung Ihrer Reward Function diese zu berücksichtigen.

Auf negative Auswirkungen vorbereitet sein

Je mehr Anwendungsfälle KI abdeckt, desto wichtiger wird es, die negativen Auswirkungen zu überwachen, und auf diese angemessen zu reagieren. Mit an Sicherheit grenzender Wahrscheinlichkeiten werden sich selbst bei allerbester Planung Situationen ergeben, mit denen wir nicht gerechnet haben. Daher sollten wir entsprechende Kennzahlen und Trigger definieren regelmäßig überprüfen. Hier ist es übrigens wichtig, MLOps zu praktizieren, damit wir das System problemlos kontinuierlich anpassen können.

Fazit

Der erste Schritt für ein erfolgreiches KI-Produkt besteht darin, Ihr Produkt auf die Bedürfnisse der Nutzer abzustimmen. Sobald wir diesen gefunden haben, müssen wir prüfen, ob KI wirklich der beste Lösungsansatz ist. Wenn das der Fall ist, dann spielt die Reward Function eine zentrale Rolle um sicherzustellen, dass unser Produkt langfristig für alle Ihre Nutzer ein großartiges Erlebnis bietet.

Bildquelle: Quelle: PAIR Guidebook, BY-NC-SA

Michael Jastram

Creator and Author of SE-Trends