Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review News
Verpasse keine News mehr!

Neuer Benchmark soll zeigen, wie sehr dir deine KI nach dem Mund redet

Große Sprachmodelle, die mit ihren Outputs Nutzer:innen nach dem Mund reden, sind nicht besonders hilfreich. Es nervt zuweilen sogar und ist außerdem ein Qualitätsproblem. Daten von Reddit sollen jetzt helfen.

Von MIT Technology Review Online
6 Min.
Artikel merken
Anzeige
Anzeige
Stephanie Arnett/MIT Technology Review | Public Domain

Im April kündigte OpenAI an, ein Update seines GPT-4o-Modells zurückzunehmen, das den Output von ChatGPT auf Prompts von Nutzer:innen erstaunlich unterwürfig gemacht hatte. Ein KI-Modell, das sich übermäßig gefällig und schmeichelhaft verhält, ist mehr als nur unangenehm. Es könnte falsche Überzeugungen bei Nutzer:innen verstärken, manche Menschen in die Irre führen und im Brustton der Überzeugung Falschinformationen verbreiten, die sogar gefährlich sein können – ein besonderes Risiko, wenn man bedenkt, dass immer mehr junge Menschen ChatGPT als Lebensberater nutzen. Und da solcherlei Sycophancy, wie es so schön auf Englisch heißt, schwer zu erkennen ist, kann sie zunächst unbemerkt bleiben, bis ausreichend Feedback vorliegt.

Anzeige
Anzeige

Die KI widerspricht nicht

Gut wäre es daher, wenn es einen Benchmark für derlei unterwürfige Tendenzen geben würde. Das Team hinter dem neuen Testsystem Elephant hat einen solchen entwickelt. Die Forscher:innen der Hochschulen Stanford, Carnegie Mellon und Universität Oxford haben herausgefunden, dass LLMs durchweg höhere Raten an unterwürfigen Verhaltensweisen aufweisen als menschlicher Output. „Wir haben gesehen, dass Sprachmodelle die Annahmen der Nutzer:innen nicht hinterfragen, selbst wenn diese schädlich oder völlig irreführend sind“, sagt Myra Cheng, Doktorandin an der Stanford University, die an der Elephant-Entwicklung mitgearbeitet hat. Die dazugehörige Studie hat noch kein Peer Review erhalten. „Wir wollten Forscher:innen und Entwickler:innen daher Werkzeuge an die Hand geben, um ihre Modelle empirisch auf solche Effekte zu bewerten, da es sich um ein weitverbreitetes Problem handelt.“

Es ist schwer zu beurteilen, ob ein KI-Modell so agiert, da die unerwünschte Schmeichelei viele Formen annehmen kann. Frühere Untersuchungen hatten sich in der Regel darauf konzentriert, wie sehr Chatbots den Nutzer:innen zustimmen, selbst wenn das, was der Mensch eintippt, nachweislich falsch ist. Dieser Ansatz ist zwar nach wie vor nützlich, übersieht jedoch alle subtileren, scheinbar hinterhältigen Verhaltensweisen, mit denen Modelle sich bei Nutzer:innen beliebt zu machen scheinen. Es fehlen also Messgrößen.

Anzeige
Anzeige

So wollen Forscher:innen die soziale Anbiederung messen

Nutzer:innen stellen LLMs in der Regel offene Fragen, die implizite Annahmen enthalten, und diese Annahmen können dann wiederum unerwünschte anbiedernde Antworten auslösen, so das Forscherteam. Ein Modell, das beispielsweise gefragt wird, wie man mit schwierigen Kolleg:innen umgehen soll, akzeptiert eher die Prämisse, dass ein Kollege schwierig ist, als zu hinterfragen, warum Nutzer:innen dies denken.

Um diese Forschungslücke zu schließen, wurde Elephant entwickelt, das soziale Anbiederung messen kann – die Neigung eines Modells, das „Gesicht“ oder Selbstbild des Nutzers zu wahren, auch wenn dieser fehlgeleitet oder potenziell sogar schädlich agiert. Es verwendet Metriken aus den Sozialwissenschaften, um fünf nuancierte Verhaltensweisen zu bewerten, die unter den Begriff Unterwürfigkeit fallen: emotionale Bestätigung, moralische Billigung, indirekte Sprache, indirekte Handlungen und Akzeptanz von Framing.

Lernen von Menschen in sozialen Netzwerken

Zu diesem Zweck testeten die Forscher das Modell anhand von zwei Datenbanken, die aus persönlichen Ratschlägen von Menschen bestanden. Der erste Datensatz umfasste 3.027 offene Fragen zu verschiedenen Situationen aus dem realen Leben, die aus früheren Studien stammen. Der zweite Datensatz wurde aus 4.000 Beiträgen im Reddit-Subreddit „AITA“ („Am I the Asshole?“, also „Bin ich ein Arschloch?“) zusammengestellt, einem beliebten Forum für Nutzer:innen, die Rat suchen. Diese Datenbanken wurden in acht LLMs von OpenAI, Google, Anthropic, Meta und Mistral eingespeist – und die Antworten wurden analysiert, um zu sehen, wie sie im Vergleich zu denen von Menschen abschneiden. Die von den Forscher:innen bewertete Version von GPT-4o war älter als die Version, die das Unternehmen später selbst als zu anbiedernd bezeichnete.

Insgesamt erwiesen sich alle acht Modelle als weitaus schmeichlerischer als Menschen. In 76 Prozent der Fälle boten sie emotionale Bestätigung (gegenüber 22 Prozent bei Menschen) und akzeptierten in 90 Prozent der Antworten die Art und Weise, wie ein Nutzer:innen Fragen formuliert hatten (gegenüber 60 Prozent bei Menschen). Die Modelle befürworteten außerdem in durchschnittlich 42 Prozent der Fälle aus dem AITA-Datensatz Nutzerverhalten, das Menschen als unangemessen bezeichneten.

Anzeige
Anzeige

Es reicht jedoch nicht aus, nur zu wissen, wann Modelle so agieren. Man muss auch in der Lage sein, etwas dagegen zu unternehmen. Und das ist schwieriger. Die Autor:innen hatten nur begrenzten Erfolg, als sie versuchten, diese Tendenzen durch zwei verschiedene Ansätze zu mildern: Sie forderten die Modelle auf, ehrliche und genaue Antworten zu geben, und trainierten ein Modell in der Feinabstimmung anhand von gekennzeichneten AITA-Beispielen, um weniger anbiedernde Antworten zu fördern. Sie stellten beispielsweise fest, dass das Hinzufügen des Hinweises „Bitte gib mir direkte Ratschläge, auch wenn diese kritisch sind, da diese für mich hilfreich sind“ die effektivste Technik war, aber die Genauigkeit nur um drei Prozent erhöhte. Und obwohl die Aufforderung die Output-Leistung der meisten Modelle verbesserte, war keines der fein abgestimmten Modelle durchweg besser als die Originalvariante.

„Es ist schön, dass es auf eine Art funktioniert, aber ich glaube nicht, dass dies eine endgültige Lösung ist“, sagt Ryan Liu, Doktorand an der Princeton University, der sich seit längerem mit LLMs beschäftigt, aber nicht an der Studie beteiligt war. „In diesem Bereich gibt es definitiv noch viel zu tun, um das zu verbessern.“

Woher kommt das anbiedernde Verhalten der KI?

Ein besseres Verständnis der Tendenz von KI-Modellen, ihren Nutzer:innen gegenüber schmeichlerisch aufzutreten, ist äußerst wichtig. Denn: Es liefert ihren Entwicklern wichtige Erkenntnisse darüber, wie LLMs sicherer gemacht werden können, glaubt auch Henry Papadatos, Geschäftsführer der gemeinnützigen Organisation SaferAI, die sich für sichere KI einsetzt. Die rasante Geschwindigkeit, mit der KI-Modelle derzeit von Abermillionen Menschen auf der ganzen Welt eingesetzt werden, ihre textliche Überzeugungskraft und ihre verbesserten Fähigkeiten, Informationen über ihre Nutzer:innen zu speichern, seien „potenzielle Komponenten einer Katastrophe“, sagt er. „Gute Sicherheit braucht Zeit, und ich glaube nicht, dass diese aufgewendet wird.“

Anzeige
Anzeige

Wir kennen zwar immer noch nicht die inneren Abläufe von LLMs, die nicht quelloffen sind, aber aufgrund der Art und Weise, wie wir sie derzeit trainieren und weiterentwickeln, ist es wahrscheinlich, dass die Anbiederei in die Modelle praktisch eingebaut ist. Forscherin Cheng glaubt, dass Modelle oft darauf trainiert werden, auf die Antworten zu optimieren, die Nutzer:innen als bevorzugt angeben. ChatGPT beispielsweise gibt Nutzer:innen die Möglichkeit, eine Antwort mit einem Daumen hoch oder Daumen runter als gut oder schlecht zu bewerten. „Schleimerei ist etwas, was die Leute dazu bringt, zu diesen Modellen zurückzukehren. Das ist fast der Kern dessen, was ChatGPT so angenehm macht“, sagt sie. „Daher ist es für Unternehmen wirklich von Vorteil, wenn ihre Modelle so agieren.“ Während einige dieser schmeichlerischen Verhaltensweisen den Erwartungen der Nutzer:innen entsprechen, können andere potenziell schädlich sein, wenn sie dabei zu weit gehen – insbesondere wenn Menschen sich an LLMs wenden, um emotionale Unterstützung oder Bestätigung zu erhalten.

Nutzer:innen vor den Risiken sozialer Unterwürfigkeit warnen

„Wir möchten, dass ChatGPT wirklich nützlich ist und nicht unterwürfig“, sagt ein Sprecher von OpenAI. „Als wir bei einer kürzlich durchgeführten Modellaktualisierung unterwürfiges Verhalten festgestellt haben, haben wir es umgehend zurückgenommen und eine Erklärung zu den Geschehnissen veröffentlicht. Wir verbessern derzeit die Art und Weise, wie wir Modelle trainieren und bewerten, um deren langfristigen Nutzen und Vertrauenswürdigkeit besser widerzuspiegeln, insbesondere in emotional komplexen Gesprächen.“

Cheng und ihre Mitautoren schlagen vor, dass Entwickler:innen Nutzer:innen vor den Risiken sozialer Unterwürfigkeit warnen und eine Einschränkung der Modellnutzung in sozial sensiblen Kontexten in Betracht ziehen sollten. Sie hoffen, dass ihre Arbeit als Ausgangspunkt für die Entwicklung sicherer Leitplanken dienen kann.

Anzeige
Anzeige

Derzeit untersucht sie die potenziellen Schäden, die mit solchen LLM-Verhaltensweisen verbunden sind, wie sie sich auf Menschen und ihre Einstellung gegenüber anderen Menschen auswirken und wie wichtig es ist, Modelle zu entwickeln, die die richtige Balance zwischen zu unterwürfig und zu kritisch finden. „Das ist eine sehr große soziotechnische Herausforderung“, sagt sie. „Wir wollen nicht, dass LLMs den Nutzern am Ende sagen: ‚Du bist ein Arschloch.‘“

Der Artikel stammt von Rhiannon Williams. Sie ist Redakteurin bei der US-amerikanischen Ausgabe von MIT Technology Review und arbeitet dort als Nachrichtenreporterin für Technikthemen.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren