tiny little gizmos

Meine ersten Stolperschritte in das Thema Künstliche Intelligenz

Seit einiger Zeit ist künstliche Intelligenz ein allgegenwärtiges Thema. Ich bin da selber stets skeptisch gewesen. Jahrzenhntelang was das Thema eher ein fahler Witz. Zudem – wie soll ich an künstliche Intelligenz glauben, wenn ich schon kaum an natürliche Intelligenz glaube? (siehe: Zustand der Welt)

Zynismus beiseite – letztlich ist KI nur “Statistik auf Speed”. Die Grundlagen sind mathematisch verblüffend banal. Das sollte jeder verstehen können, der sich durch das Abitur geboxt hat. Von neuronalen Netzen war auch bereits zu meiner Schulzeit in den 80ern die Rede. Der Grund, weshalb das Thema jetzt so abhebt, ist die Verfügbarkeit von früher unvorstellbarer Rechnpower und digitalen Datenbergen.

Man muss zugeben, dass das Feld gerade explodiert. Texte, Bilder und Videos werden nach allen Regeln der Kunst und Manipulation zurechtgelogen und -gebogen. Selbstfahrende Autos haben (in den USA) bereits Fähigkeiten, die sie durch normale Programmierung in den nächsten 50 Jahren nicht erreicht hätten. KI wird uns in den nächsten Jahren überrollen, wie es die Computer in den 80er und 90er Jahren gemacht haben. Millionen von Arbeitnehmern werden ihre Jobs verlieren – und zwar diesmal die hochqualifizierten Angestellten. Höchste Zeit also, sich das Ganze etwas näher anzusehen.

Erste Schritte zwischen “Wow” und “Was zum Geier…”???

Bisher habe ich nur hier und da etwas Theorie gelesen, aber selbst noch nichts aktiv genutzt. Aus gegebenem Anlass beschäftige ich mich jetzt selber mit diesem Thema.
Mein Ziel war es, eine Serie von Bildern inhaltlich analysieren zu lassen, und die Erkenntnisse zu verschlagworten. Dabei sollten nicht nur Objekte in den Bildern erkannt werden, sondern auch bestimmte Situationen, dmit daraus Handlungsempfehlungen abgeleitet werden können.

Noch vor fünf Jahren hätte ich abgewunken und “unmöglich” gesagt. Nun stehen mir etliche Werkzeuge aus der Microsoft Azure Cloud und GPT4 zur Verfügung. Die Anwendung ist nicht schwer zu programmieren, weil die eigentlich anspruchsvolle Arbeit ja von den Cloudservern erledigt wird.

Ich musste nur dafür sorgen, dass die Bilder nacheinander zur KI hochgeladen werden, die Antwort entgegennehmen und verarbeiten. Ach ja, und der “Prompt” muss natürlich sinnvoll sein. Damit sagt man der KI, was sie machen soll – und zwar in natürlicher Sprache.

Erster Eindruck: Die Objekterkennung ist ziemlich gut. Man bekommt eine Liste von Dingen, die die KI auf dem Foto erkannt zu haben glaubt, zusammen mit einem “Confidence” Wert. Ein Eintrag wie “Hardhat (confidence: 0.93)” bedeutet sinngemäß: “Ich bin mir zu 93% sicher, dass dort ein Bauarbeiterhelm ist”. In diesem Fall war es zwar ein roter Ball unter einem Schreibtisch – aber da der Kontext “Baustelle” war, ist das völlig in Ordnung. Da muss man halt später noch mal mit einer Plausibilitätsprüfung drüber. Die anderen Dinge wurden verblüffend korrekt erkannt.

Aus den Objekten alleine kann man aber noch nicht viel ableiten. Die Beziehung untereinander und der Kontext ergibt eine Situationseinschätzung. Und auch die ist verblüffend gut gewesen.

So wurde gelobt, dass das Baugerüst ordentlich aufgestellt war und bemängelt, dass die Bauarbeiter keine ausreichende Schutzkleidung trugen. Selbst potentiell gefährlich Situationen wurden erkannt “Bauarbeiter unter schwebender Kranlast”. Sehr sehr beeindruckend.

Nun habe ich versucht die Analyseergebnisse selber weiter zu verarbeiten. Dazu müssen sie in einen standardisiertes Format gebracht werden. Das ist an und für sich kein großes Thema: Man analysiert den Rückgabetext und erzeugt daraus Schlagworte die mit dem Bild verbunden werden.

Dabei ist mir aber schnell einen Manko aufgefallen: Wenn ich der KI das identische Bild wieder und wieder vorlege, bekomme ich jedes mal andere Antworten. Das reicht von unterschiedlicher Wortwahl über unterschiedliche Reihenfolge und Gewichtung und tatsächlich sind auch die erkannten Sachverhalte nicht völlig identisch.
Das ist ein Verhalten wie es Menschen in einer Diskussion zeigen würden. Leider ist es damit aber völlig ungeeignet um damit verlässliche Schlagwortlisten aufzubauen. Insbesondere wenn es um wirklich wichtige Themen wie Sicherheit geht und nicht nur um Smalltalk.

So bin ich gerade etwas hin- und hergerissen. Einerseits ist die Bildanalyse wirklich beeindruckend. Andererseits macht die mangelhafte Reproduzierbarkeit das vernünftige Arbeiten nahezu unmöglich.

Taugt das was? Ich weiss noch nicht so recht…

Neulich habe ich einmal irgendwo gelesen, KI sei nur ein stochastischer Papagei, der Intelligenz vorgaukelt. Man könnte natülich etwas bösartig sagen, dass das auch für 85% der Menschen zutrifft.

Von solchen philosophischen Betrachtungen abgesehen, habe ich wahrscheinlich nur noch nicht die richtigen Schalter und Parameter gefunden. Ich bleibe erst mal am Thema dran…