Neue Publikation: KI-Chatbots übertreffen Menschen bei der Bewertung sozialer Situationen
- Studienergebnisse eröffnen neue Perspektiven für den Einsatz von Chatbots
- Ergebnisse in „Scientific Reports“ veröffentlicht
Chatbots ermöglichen den Dialog zwischen Menschen und technischen Systemen und sind bereits in vielen Bereichen unseres Lebens im Einsatz. Sie sind außerdem in der Lage, soziale Situationen mit einer hohen Genauigkeit zu analysieren und zu bewerten. Das ist das Ergebnis einer empirischen Untersuchung der DLR-Abteilung Luft- und Raumfahrtpsychologie, bei der die Wissenschaftlerinnen und Wissenschaftler feststellten, wie treffend Chatbots auch schwierige soziale Situationen einschätzten. Diese Fähigkeit wurde bisher häufig als exklusiv menschliche Eigenschaft betrachtet. Die Studienergebnisse eröffnen neue Perspektiven für den Einsatz von Chatbots zur Beratung von Menschen in schwierigen sozialen Situationen.
Unter dem Titel „Large language models can outperform humans in social situational judgments“ haben Justin M. Mittelstädt und seine Kolleginnen und Kollegen die Ergebnisse in „Scientific Reports“ veröffentlicht. Nachdem Large Language Models (LLM) bereits in wissensbasierten Leistungstests überzeugende Ergebnisse geliefert haben, setzte sich die Forschergruppe nun zum Ziel, deren soziale Urteilsfähigkeit im direkten Vergleich zu menschlichen Teilnehmenden empirisch zu untersuchen. LLMs sollen natürliche Sprache verarbeiten und kontextuelle Zusammenhänge verstehen, um hilfreiche Antworten zu generieren. Als Systeme der künstlichen Intelligenz zielen sie darauf ab, menschliche Kommunikation zu verstehen und eigenständig kohärente Texte zu erstellen. Die Modelle werden mit großen Textdaten aus verschiedenen Quellen wie Büchern, Artikeln und Websites trainiert, um Muster in Sprache, Kontext und Bedeutung zu erlernen.
„Wir interessieren uns für die Diagnostik sozialer Kompetenz und zwischenmenschlicher Fähigkeiten.“, sagt Studienautor Justin M. Mittelstädt vom DLR-Institut für Luft- und Raumfahrtmedizin. „Im Deutschen Zentrum für Luft- und Raumfahrt setzen wir Methoden zur Diagnose dieser Fähigkeiten ein, um zum Beispiel geeignete Piloten und Astronauten zu finden. Da wir neue Technologien für die künftige Mensch-Maschine-Interaktion erforschen, wollten wir herausfinden, wie moderne LLMs in Fähigkeitsbereichen abschneiden, die als fundamental menschlich gelten.“
Bei der Untersuchung wurden anspruchsvolle, arbeitsplatzbezogene Situationen skizziert, für deren Bewältigung effektive Handlungsoptionen auszuwählen sind. Die Effektivität der Optionen wurde zuvor von einem Expertengremium bestimmt. Fünf populäre LLM-basierte Chatbots absolvierten den Test jeweils zehn Mal. Die Ergebnisse wurden anschließend mit einer Stichprobe von 276 Pilotenbewerbenden verglichen. Alle fünf Chatbots erreichten mindestens das Durchschnittsniveau der menschlichen Vergleichsgruppe. Dabei wiesen drei Chatbots sogar deutlich bessere Ergebnisse auf als das Mittel der Bewerbenden. Bemerkenswert war zudem die hohe Übereinstimmung zwischen den Effektivitätseinschätzungen der Chatbots und den Expertenurteilen.
„Wir haben bereits gesehen, dass LLMs gut darin sind, Wissensfragen zu beantworten, zu programmieren, logische Probleme zu lösen und ähnliches.“, so Mittelstädt. „Aber wir waren überrascht, dass einige der Modelle auch Nuancen sozialer Situationen beurteilen können, obwohl sie nicht explizit für den Einsatz in sozialen Umgebungen trainiert wurden. Dies zeigte uns, dass soziale Konventionen und die Art und Weise, wie wir als Menschen interagieren, als lesbare Muster in den Textquellen, mit denen diese Modelle trainiert werden, kodiert sind.“
Da der Test auf hypothetischen Szenarien basiert, bleibt die Frage nach der Leistung LLM-basierter Systeme in dynamischen sozialen Kontexten offen: „Um einen quantifizierbaren Vergleich zwischen LLMs und Menschen zu ermöglichen, haben wir einen Multiple-Choice-Test eingesetzt, mit dem beim Menschen eine Prognose für das Verhalten in der realen Welt möglich sind.“, so Mittelstädt. „Die Leistung in einem solchen Test garantiert jedoch noch nicht, dass LLMs in realen und komplexeren Szenarien ebenfalls sozial kompetent reagieren werden.“ Dennoch deuten die Ergebnisse darauf hin, dass KI-Systeme zunehmend in der Lage sind, menschliches soziales Urteilsvermögen nachzuahmen. Diese Fortschritte öffnen Türen für praktische Anwendungen, einschließlich personalisierter Beratung im sozialen und beruflichen Umfeld sowie potenzieller Einsatzmöglichkeiten in der psychischen Gesundheitspflege.
Weitere Informationen:
PsyPost: AI chatbots outperform humans in evaluating social situations, study finds
Publikation:
Mittelstädt, J., Maier, J., Goerke, P., Zinn, F., Hermes, M. Large language models can outperform humans in social situational judgments. Scientific Reports. 2024;14:27449. Nature Publishing Group. doi: 10.1038/s41598-024-79048-0. ISSN 2045-2322.