Die neue Dreifaltigkeit der künstlichen Intelligenz
Künstliche Intelligenz (KI), Machine Learning, Big Data – alles schöne Wörter. Aber was bedeuten sie, wie kann man sie nutzen, und was bedeutet das für Systems Engineers? Um KI effektiv zu nutzen, werden drei Dinge benötigt: Software, leistungsfähige Computer und Daten. Wie das genau funktioniert, und welche Rolle der Mensch dabei als Systemelement bedeutet, darum geht es im Folgenden.
Machine Learning
Was heute als künstliche Intelligenz bezeichnet wird ist häufig Machine Learning (ML): Statt das Verhalten eines Systems direkt zu programmieren, wird es mit Beispieldaten versorgt. Nachdem das System anhand von hundertausenden von Bildern gelernt hat, ob darauf eine Katze zu sehen ist oder nicht, kann es dies zukünftig selbst entscheiden.
Software, die diese Art von Lernen beherrscht, ist inzwischen recht ausgereift. Allerdings werden nach wie vor leistungsfähige Rechner benötigt. Daher auch die eingangs erwähnte Dreifaltigkeit: Software, leistungsfähige Computer und Daten.
Für effektiven Machine Learning werden drei Dinge benötigt: Software, leistungsfähige Computer und Daten.
Hardware wird inzwischen für den Einsatz für die Auswertung von ML-Daten optimiert. Dadurch reduziert sich der Energieverbrauch, was wiederum neue Anwendungsfelder eröffnet.
Systems Engineering
Dadurch, dass die Trainingsdaten das System sozusagen „Programmieren“, nehmen sie plötzlich einen anderen Stellenwert in der Entwicklung ein. Denn nicht ausgewogene Trainingsdaten können das Ergebnis verfälschen und das fertige System parteiisch machen. Es gibt dazu zahlreiche Beispiele (wahr und erfunden) von Systemen, die statt Panzern lediglich die die Lichtverhältnisse erkannten, oder rassistische Vorurteile widerspiegeln.
Wenn nun auch noch ML für sicherheitskritische Anwendungen herangezogen wird, wie beispielsweise beim autonomen Fahren, dann ist klar, dass die Trainingsdaten sicherheitsrelevant sind und dementsprechend auch behandelt werden müssen. Der entsprechende Nachweise muss im Rahmen der V&V-Aktivitäten geführt werden.
Gute Daten und schlechte Daten
Doch wie können wir die Qualität der Daten überhaupt sicherstellen? Das ist nach wie vor ein manueller Prozess. Daraus ist inzwischen eine riesige Industrie gewachsen, die Millionen von Menschen beschäftigt.
Um für ML nutzbar zu sein, müssen Daten überhaupt erst einmal klassifiziert werden. Das kann zum Beispiel bedeuten, dass ein Mensch auf einem Bild die Katze identifiziert, korrekt markiert und mit dem entsprechenden Label versieht. Erst jetzt kann das Bild für ML-Training herangezogen werden. Industriell sind natürlich andere Datensätze interessant, wie medizinische Bilder, Militäraufnahmen, usw.
China prescht vor
Daten werden als das neue Öl bezeichnet: Ein wertvoller Rohstoff. Doch jeder Rohstoff muss aufgearbeitet werden, und wie eben beschrieben ist das bei Daten nicht anders.
An dieser Stelle prescht China aktuell allen anderen voran. Zwei wertvolle chinesische Start-ups sind zum Beispiel Megvii ($4bn) und SenseTime ($7.5bn).
China ist weltweit führend im Bereich ML mit praktischen, profitablen Anwendungen
Ein weiteres Beispiel: Die Firma MBH beschäftigt 300.000 Mitarbeiter, die hauptsächlich damit beschäftigt sind, Daten mit Labeln zu versehen. Nächstes Jahr sollen weitere 150.000 Mitarbeiter eingestellt werden. Ein Kunde von MBH ist TikTok, ein Social-Video-Dienst. TikTok benutzt ML, um pornografische Inhalte beim Upload zu erkennen. Wenn dies nicht sicher festgestellt werden kann, wird das Video an mehrere MBH-Mitarbeiter vergeben die es bewerten. Die zusammengeführte Antwort wird in weniger als einer Sekunde an TikTok zurückgegeben, um dabei wird automatisch der TikTok-Algorithmus weiter optimiert.
Photo by Harry Cunningham on Unsplash