Künstliche Intelligenz – Unsicherheiten quantifizieren und managen

Immer mehr softwareintensive Systeme beinhalten datengetriebene Komponenten. Sie nutzen  Modelle, die beispielsweise auf künstlicher Intelligenz oder maschinellem Lernen beruhen. Es stellt sich daher die Frage, inwieweit man den Ergebnissen solcher Komponenten vertrauen kann? Wie kann man ihre Zuverlässigkeit bestimmen und wie viel Unsicherheit verbleibt? Eine Einführung zum Stand der Technik in diesem Bereich haben wir in einem aktuellen Whitepaper zusammengestellt und die wichtigsten Fakten im nachfolgenden Blogartikel zusammengestellt.

Was sind datengetriebene Komponenten?

Datengetriebene Komponenten sind Komponenten, die neben klassischem Code spezielle Modelle enthalten, die beispielsweise mittels Techniken aus den Bereichen künstliche Intelligenz / maschinelles Lernen generiert wurden. Die durch datengetriebene Modelle bereitgestellte Funktionalität wurde hierbei zuvor durch Algorithmen auf einem Datensatz mit Trainingsbeispielen erlernt und auf einem (möglichst repräsentativen) Datensatz getestet.

Welche Rolle spielt Unsicherheit bei diesen Komponenten?

Da die Funktionalität, die eine datengetriebenen Komponente bereitstellen soll, gewöhnlich nicht vollständig spezifiziert oder verifiziert werden kann – man denke nur an die Aufgabe zu entscheiden, ob auf einem Bild eine Person zu erkennen ist – verbleibt auch nach deren Prüfung auf Testdaten immer eine Restunsicherheit, dass die Komponente in bestimmten Situationen fehlerhafte Ergebnisse liefert. Die Ursachen solcher Unsicherheiten, die sich in Abweichungen zwischen der tatsächlichen und intendierten Ausgabe der Komponente manifestieren, lassen sich grob in drei Kategorien einteilen [KV2018]:

  1. „Model Fit“ – Schwächen im Modell selbst, d.h. das erlernte Modell approximiert den korrekten Zusammenhang zwischen Eingabegrößen und Ausgabe nur unzureichend
  2. „Data Quality“ – Defizite in der Datenqualität der Eingangsgrößen, wie sie praktisch in jeder realen Anwendung anzutreffen sind (z.B. verschmutzte Sensoren, Wettereinflüsse)
  3. „Scope Compliance“ – Unzureichende Übereinstimmung zwischen dem intendierten und tatsächlichen Verwendungskontext des Modells (z.B. ein Modell, das für den Einsatz in PKWs in Deutschland erstellt und getestet wurde, wird in England eingesetzt)

Insbesondere wenn datengetriebene Komponenten in sicherheitskritischen Systemen bzw. Systemen mit hohen Zuverlässigkeitsanforderungen eingesetzt werden, erwartet man qualifizierte Aussagen über die verbleibende Unsicherheit. Bei einer ausreichend detaillierten Betrachtung können hierbei schon während der Entwicklung kritische Situationen identifiziert und somit noch vor der Inbetriebnahme passende Gegenmaßnahmen konzipiert werden. Zusätzlich können zur Laufzeit Situationen mit hohem Unsicherheitspotenzial besser erkannt werden, was das Risiko senkt, dass Entscheidungen blindlings auf Basis höchstwahrscheinlich fehlerhafter Informationen getroffen werden.

Wie kann man Unsicherheit quantifizieren und managen?

Hierzu sind eine ganze Reihe von Fragen zu beantworten: Wie lassen sich Unsicherheitsquellen in datengetrieben Komponenten aufdecken? Wie lässt sich ihr Einfluss quantifizieren? Wie lässt sich mit diesen im Rahmen der Entwicklung und Validierung umgehen? Mit solchen Fragestellungen beschäftigen wir uns unter anderem im CrESt Projekt. Einen einführenden Überblick zum aktuellen Stand der Technik in diesem Bereich haben wir in einem aktuellen Whitepaper für Sie zusammengestellt.

 

[KV2018] Kläs, M., Vollmer, A. M., „Uncertainty in Machine Learning Applications – A Practice-Driven Classification of Uncertainty,“ First International Workshop on Artificial Intelligence Safety Engineering (WAISE 2018), Västerås, Sweden, 2018 (doi:10.1007/978-3-319-99229-7_36)

 

Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.