Die Mensch-KI-Kollaboration

zurück

Frau vor Laptop sutzt gegenüber Roboter — Wie spricht man am besten mit einem Computer? Welche Anweisungen versteht die künstliche Intelligenz am besten? (Symbolbild)

Die sogenannten «Transhumanisten» erstreben eine vollkommene Verschmelzung des Menschen mit der Technologie. Mit den Hirn-Computer-Schnittstellen, dem Metaversum, Augmented und Virtual Reality, der Wechselwirkung zwischen Cloud- und Edge-Computing sowie dem Internet of Things scheint diese Idee bereits etwas näher als noch vor zehn Jahren zu sein. Der Mensch vernetzt sich mit anderen über digitale Plattformen, die technischen Instrumente kommunizieren immer selbständiger miteinander und die menschliche Interaktion mit der Technologie wird zu einem natürlichen Teil unseres Daseins. Viele dieser Entwicklungen werden durch die künstliche Intelligenz (KI) befeuert. Mittlerweile wird es immer schwieriger herauszufinden, ob wir es «auf der anderen Seite des Bildschirms» mit einem Menschen oder mit einer Maschine zu tun haben. Schreibe ich jetzt gerade mit einer KI? Ist dieses Video echt oder künstlich generiert? Spricht hier ein Mensch oder ein Computer mit mir?

Eines steht fest: Heute ist eine Welt ohne digitale Technologie kaum noch vorstellbar. Sie wurde zu einem selbstverständlichen Bestandteil unserer Gesellschaft. Sie durchdringt unsere Beziehungen, unsere Freizeit und unser Arbeiten. Schon bald wird es unserem Verhältnis zur künstlichen Intelligenz wohl genau gleich ergehen. Höchste Zeit also, sich mit dem Thema «Mensch-KI-Kollaboration» auseinanderzusetzen. Dabei stellen sich interessante und praxisrelevante Fragen: Wie spricht man am besten mit einem Computer? Welche Anweisungen versteht die künstliche Intelligenz am besten? Wo liegen die Gefahren und Potentiale in dieser Interaktion?

Die Sprache der künstlichen Intelligenz

Die ursprüngliche Mechanik der digitalen Computer nannte man «symbolische KI» (manchmal auch GOFAI für «Good Old-Fashioned AI»). Dabei hatte man es mit einem Rechner im ursprünglichen Sinne zu tun, wo logische Symbole miteinander ins Verhältnis gesetzt wurden. Die Stärke des Computers lag in klassischen Berechnungen – und hier war und ist er wesentlich besser als der Mensch. Versuchen Sie es selbst. Finden Sie die Lösung auf folgendes Problem mittels Kopfrechnen: 123'456'789 x 123'456'789 + 123'456'789 = ?

Fast alle von uns haben damit wohl grosse Mühe und die meisten Leute würden vielleicht schon bald aufgeben und den Taschenrechner zur Hand nehmen. Der Rechner kalkuliert uns die Antwort innert Millisekunden. Hier ist die Maschine klar im Vorteil. Aber für viele Aktionen des täglichen Lebens war der Computer lange kaum geeignet. Im echten Leben müssen wir Gesichter erkennen, Bilder verstehen, Sprache wahrnehmen und sinnvolle Sätze zum Sprechen und Schreiben generieren. All dies lässt sich nicht so einfach in glasklar logische (symbolische) Regeln verpacken. Das echte Leben ist nicht messerscharf definierbar, sondern hat etwas «Schwammiges» an sich – erste Versuche, dies zu konzeptualisieren, wurden unter dem Begriff «Fuzzy Logic» erforscht.

Als die Maschinen nun mit künstlich Neuronalen Netzwerken (kNN) und mit grossen Datenmengen zum Trainieren ausgestattet wurden, geschah etwas, was bislang nur unser Gehirn konnte: Das System konnte mit der Komplexität dieser schwammigen und unscharfen Welt viel besser umgehen. Frühere Computer konnten männliche und weibliche Gesichter kaum unterscheiden. Das Problem war: Wie definiert man ein geschlechterspezifisches Gesicht, sodass es auf alle Gesichter dieser Welt zutrifft? Fast unmöglich! Moderne KI hat damit aber keine Schwierigkeiten mehr, da sie nicht mehr genaue Regeln benötigt, sondern auf statistischen Vorhersagen beruht und damit wesentlich mehr Unschärfe zulässt. So wird die KI fähig, alltägliche Prozesse wie Bildererkennung, Entscheidungsfindung und Sprachgebrauch zu beherrschen. Das birgt unglaubliches Potential: Auf einmal können Menschen mittels natürlicher Sprache mit einem Computer sprechen, ohne eine Programmiersprache zu erlernen. Zudem können Aufträge erteilt werden, mit denen die Maschine früher überfordert gewesen wäre. Allerdings dürfen wir eines nicht vergessen: Wir haben es nicht mit einem Menschen oder einem Tier, sondern immer noch mit einer Maschine zu tun. Das bedeutet, dass wir wissen müssen, wie sie tickt, um geeignet mit ihr zu kollaborieren, sodass sie auch genau das tut, was wir von ihr erwarten.

Prompt Engineering: «Liebe KI, warum verstehst du mich nicht?»

Ein Sprachmodell ist im Prinzip ein Satzvervollständigungsalgorithmus. Diesen Eindruck erhielt man insbesondere, wenn man bis zum Jahr 2022 mit GPT-1, GPT-2 und GPT-3 rumgetüftelt hat. Man konnte damals einen Satz beginnen und die Maschine hat den Text dann weitergeschrieben. Erst mit der Umstrukturierung zu ChatGPT wurde dem System eine Chat-Maske übergestülpt, sodass wir es nun mit einem Chatbot zu tun haben. Diese Maske scheint sich grosser Beliebtheit zu erfreuen, sodass mittlerweile alle bekannten Sprachmodelle – ChatGPT von OpenAI, Gemini von Google, Claude-3 von Anthropic AI, LLAMA-2 von Meta oder Mixtral von Mistral AI – die Form eines Chatbots angenommen haben. Dasselbe trifft auf Bild-, Video-, Stimm- und Musikgeneratoren zu. Man spricht bei diesen Modalitäten auch von Text-to-Text-, Text-to-Image-, Text-to-Video-, Text-to-Voice und von Text-to-Music-Modellen. Die Texteingaben zur Generierung dieser Outputs nennen wir «Prompts» und das Verb dazu nennt sich «prompting». Je besser man versteht, wie man diese Prompts generieren muss, desto besser werden auch diese Outputs. Hier sprechen wir allgemein von «Prompt Engineering».

Es gibt zwei grundsätzliche Arten, wie man Sprachmodelle prompten kann: (i) Zero-Shot Prompts und (ii) Few-Shot Prompts. Bei den Zero-Shot Prompts gibt der Benutzer eine Anfrage ein, ohne weiter zu spezifizieren, wie das Resultat genau aussehen soll. In der Praxis verwenden die meisten ungeübten Benutzer:innen diese Form des Promptings. Damit ist das Modell allerdings auf sich alleine gestellt bezüglich der Weise, wie es den Auftrag bewältigt. Dieses Vorgehen eignet sich gut, wenn man keine klare Idee davon hat, in welcher Form man die Antwort gerne erhalten möchte. Eine genauere Antwort, die auf die bestehenden Bedürfnisse abgestimmt ist, erhält man, indem man dem Modell Beispiele gibt, wie die Antwort aussehen soll. Beispielsweise «Schreibe mir eine Konversation zum Thema XY, die wie das folgende Gespräch strukturiert ist [hier folgt das Beispiel des Gesprächs].» Wie der Name bereits sagt, definiert die Anzahl der «Shots», wie viele Beispiele man anfügt:

Zero-Shot Prompts: Keine Beispiele angefügt.
One-Shot Prompt: Ein Beispiel zur Verdeutlichung angefügt.
Two-Shot Prompts: Zwei Beispiele zum Prompt hinzugefügt.
Three-Shot Prompts: Drei Beispiele angefügt.
Few-Shot Prompts: Ein paar Beispiele angefügt (nicht genauer spezifiziert, wie viele das sind)

Des Weiteren haben sich aus der Forschung gewisse Prompt-Techniken etabliert. Der Klassiker ist das sog. Input-Output Prompting (IOP) und ist die simpelste Variante. Es wurde ursprünglich von Liu et al. (2021) vorgestellt und besteht aus einer einfachen Anfrage, die eine einfache Ausgabe generiert, z.B. «Erklär mir, was ein LLM ist». Wei et al. (2023) haben darauf basierend das Chain-of-Thought Prompting (CoT) entwickelt. Dabei wird das Sprachmodell gebeten zu erklären, wie eine gewisse Antwort zustande kommt. Sätze wie «Zeige mir Schritt für Schritt…» haben diesbezüglich gute Resultate erzielt. Interessanterweise wurden die Ergebnisse auch besser, wenn Floskeln wie «Hol tief Luft und erkläre…» angefügt werden. Es ist nicht so klar, weshalb dem so ist, doch die Antworten wurden dadurch jeweils ausführlicher und genauer. Das Rollenspiel oder Experten-Prompting (EP) wurde von Xu et al. (2023) ins Feld geführt, welche belegen konnten, dass die KI wesentlich bessere Antworten generiert, wenn sie zuerst die Rolle eines Experten bzw. einer Expertin einnehmen muss, bevor sie eine Anfrage bearbeitet. Beispielsweise «Stell dir vor, dass du ein Physiker bist, der alles zum Thema XY weiss. Erklär mir nun…». Im sog. Self-Consistency Prompting (SC) von Wang et al. (2023) wird das Modell beauftragt, verschiedene Antwortalternativen zu generieren und danach zu diskutieren, welche Lösung die beste ist. Dazu kann man dem Modell auch Kriterien zur Bewertung der Lösungen zur Hand geben. Aber was tut man, wenn man gar nicht weiss, wo man anfangen will mit dem Prompten? Hierfür haben Zhou et al. (2023) den bekannten Automatic Prompt Engineer (APE) entwickelt. Dies ist eine Technik, bei der man dem Modell verschiedene Beispiele für ideale Antworten aufzeigt und es anschliessend bittet, gute Prompts zur Generierung dieser Lösungen zu präsentieren. Diese Prompts kann man dann für weitere Aufgaben wiederverwenden. Eine weitere Technik ist das Generated Knowledge Prompting (GKn) von Liu et. al (2023), wobei das Modell zu Beginn den Auftrag erhält, Wissen zu einem Thema zusammenzutragen. Erst darauf basierend werden dann die effektiven Fragestellungen gestellt. Da das entsprechende Wissen nun im Kontextfenster des LLMs (Lange Language Models) ist, werden die Antworten genauer auf diesen Kontext ausgerichtet. Die mit Abstand komplexeste Prompting-Technik nennt sich Tree-of-Thought Prompting (ToT) von Yao et al. (2023), welche zu umfangreich ist, um sie hier im Detail darzustellen. Grob kann man sich die Methode so vorstellen, dass man das System in eine Art argumentatives Schachspiel versetzt, wo verschiedene Antworten als Gedankenströme erstellt werden und diese dann selbst bewertet werden. Wie in einem Schachspiel rückt das System dann argumentativ vor und bei selbst entdeckten Schwächen wieder zurück, bis es dann bei der bestmöglichen Antwort konvergiert.

Selbständige KI: Von Agenten zu Influencern

Die Erschaffer der KI-Modelle arbeiten hart daran, dass uns die künstliche Intelligenz immer besser versteht und die bestmöglichen Prompting-Techniken umgesetzt werden, ohne dass wir sie spezifisch einsetzen müssen. Zum Beispiel so, dass uns die Maschine ein Chain-of-Thought Prompting liefert, selbst wenn wir den Auftrag nur in der Form eines Input-Output Promptings erstellen. Eine von vielen Möglichkeiten sind sog. «System Prompts», welche für den bzw. die Nutzer:in unsichtbar bei jeder Interaktion mit dem Modell mitschwingen und fest in das System reinprogrammiert sind.

Insgesamt sollen die Modelle automatischer und besser werden. Das Schlagwort «automatisch» ist hier wichtig, denn das Ziel ist es, dass die KI so selbstständig wird, dass wir nur noch bei den wichtigsten Entscheiden mit ihr interagieren müssen. Letztlich soll sie derart autonom werden, dass sie für uns nach unseren Bedürfnissen selbstständig einkaufen gehen, Flüge buchen, Bücher bestellen, Websites erstellen und Filme produzieren kann. Dazu muss die KI aber noch viel besser werden und auch zu einem effektiveren Sparringspartner werden. Sie muss unsere Wüsche verstehen und zu diesem Zweck Rückfragen stellen können. Moderne LLMs erhalten einen Input und liefern einen Output. In Zukunft muss dieser Prozess eine interaktive Wechselwirkung mit dem Menschen werden, in dem der Output im Gespräch mit dem bzw. der Benutzer:in entsteht. Diese wesentlich autonomeren Modelle nennen wir «KI-Agenten» und es gibt immer mehr davon. Diese stellen Rückfragen zum Spezifizieren des Anliegens und setzen den Auftrag dann um.

Eine interessante und durchaus bedenkliche Form dieser Agenten häufen sich im Moment auf den sozialen Medien. Auf diesen Plattformen sind sie als «KI-Influencer» bekannt, die zum Teil lebensechte Profile unterhalten. Wenig erstaunlich ist, dass es sich dabei oft um makellos schöne Models handelt, die täglich neue sexy Bikinifotos und Videos von sich hochladen und sich mit ihren Followern in den Kommentarspalten unterhalten. Viele Menschen scheinen nicht zu bemerken, dass sie es bei diesem Gegenüber nicht mit einer echten Dame, sondern mit einer leblosen KI zu tun haben. Aus diesem Grund erhalten diese Profile Tausende von Followern und ihre Inhalte Abertausende von Likes. Die Firmen haben dieses Potential längst erkannt, sodass z.B. Levi’s verlauten liess, ab sofort auch mit «KI-Models» zu arbeiten. Sie begründen dies damit, mehr soziale Diversität zu generieren. Der Verdacht ist aber naheliegend, dass es dabei in erster Linie um ökonomische Gründe geht. KI-Models sind günstig, beschweren sich nicht, haben keine eigene Meinung, sind immer freundlich, kennen keine Allüren und können auf Knopfdruck Hunderte von passgenauen Bildern generieren. Derweil verdienen die Programmierer dieser KI-Influencer und Models Beträge im Millionenbereich.

Generative KI-Agenten: Der Müll im Internet und die «Dead Internet Theory»

Das Internet ist in den 1990er Jahren gross geworden und nach der Jahrtausenderwende lagerten sich dort so viele Informationen ab, dass wir in der Folge von «Big Data» sprachen. Zu Beginn waren die Daten auf dem Internet in der Regel von Menschen generierte Inhalte. Das Internet war sozusagen von Menschen für Menschen gemacht. Um das Jahr 2010 tauchte eine Verschwörungstheorie namens «The Dead Internet Theory» auf, welche besagte, dass das Internet nicht vertrauenswürdig sei, da es mehrheitlich aus automatisierten Bots bestehe. Seit 2018 hat die KI die Fähigkeit erlangt, eigene Inhalte zu generieren (man nennt sie deshalb «generative KI»), was zu einem massiven Anstieg von künstlich erstelltem Material online geführt hat – teilweise so echt, dass der Begriff «Deep Fake» dafür eingesetzt wird. Durch diese Dynamik wird die ursprüngliche Verschwörungstheorie allmählich zu einer realistischen Vorstellung des künftigen Internets, wo grosse Teile nicht mehr von Menschen, sondern von KI-Agenten erstellt werden. Wir sind zwar noch nicht so weit, dass die Cyber-Welt zu 99 Prozent aus künstlich generiertem Material besteht, aber in naher Zukunft könnte dies schon bald anders aussehen. Dies bedeutet, dass unsere Gesellschaft unweigerlich einen neuen Umgang mit dem Internet, digitalen Daten und unserer Interaktion mit den Maschinen erlernen muss.

Quellen und weiterführende Informationen

Walter, Y. (2024). Artificial Influencers and the Dead Internet Theory. AI & Society, Curmudgeon Corner, 1-2.

Liu, J., Liu, A., Lu, X., Welleck, S., West, P., Bras, R. L., Choi, Y., & Hajishirzi, H. (2022). Generated Knowledge Prompting for Commonsense Reasoning (arXiv: 2110. 08387). arXiv.

Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). Lost in the Middle: How Language Models Use Long Contexts (arXiv: 2307. 03172). arXiv.

Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing (arXiv: 2107. 13586). arXiv.

Diese Seite teilen

Autor/in

Prof. Dr. Yoshija Walter

Zum Profil

more...

April
Dauer 1 Semester
Teilpräsenz-Durchführung mit Online-Modulen

CAS FH in KI-Management (Künstliche Intelligenz / Artificial Intelligence)

Certificate of Advanced Studies (CAS)

Mehr laden

Digitalisierung | Innovationsmanagement | Wirtschaft

more...

Die Mensch-KI-Kollaboration Vom Prompt Engineering zu KI-Influencern und der «Dead Internet Theory»

08. Mai 2024 | Prof. Dr. Yoshija Walter

Die Sprache der künstlichen Intelligenz

Prompt Engineering: «Liebe KI, warum verstehst du mich nicht?»

Selbständige KI: Von Agenten zu Influencern

Generative KI-Agenten: Der Müll im Internet und die «Dead Internet Theory»

Diese Seite teilen

Prof. Dr. Yoshija Walter

CAS FH in KI-Management (Künstliche Intelligenz / Artificial Intelligence)

Die Sprache der künstlichen Intelligenz

Prompt Engineering: «Liebe KI, warum verstehst du mich nicht?»

Selbständige KI: Von Agenten zu Influencern

Generative KI-Agenten: Der Müll im Internet und die «Dead Internet Theory»

Diese Seite teilen

Prof. Dr. Yoshija Walter

Themen, die dem Blogbeitrag zugeordnet sind

CAS FH in KI-Management (Künstliche Intelligenz / Artificial Intelligence)