Wie kann man die KI austricksen?

Frage: Wie kann man die KI austricksen?
- Stichworte:
  Anwendung,
  Funktion,
  KI,
  Trick
Frage gestellt edge31nag am 22 Mai 2025.
- Steffen Albrecht Beantwortet am 22 Mai 2025:
  
  Konkret kann ich da nicht werden, aber viele Sprachmodelle sind anfällig für sogenanntes „Jailbreaking“. Dabei schreibt man Prompts so, dass die Vorgaben des Systems ignoriert oder überschrieben werden, also z.B. Sicherheits- oder Verhaltensvorschriften. Außerdem setzen manche Versuche schon früher an und versuche, die Trainingsdaten zu manipulieren – da wird aber weniger die KI ausgetrickst als vielmehr die Entwickler.
- Sebastian Gombert Beantwortet am 22 Mai 2025:
  
  Das geht wie bereits gesagt durch sog. Jailbreaking bzw. Prompt Injections. Dabei ist das Ziel, die Eingabe so zu manipulieren, dass die KI etwas anderes ausspuckt als von den Entwicklern vorgesehen. ChatGPT ist bspw. darauf trainiert, freundliche Antworten zu geben und nicht beleidigend zu sein. Wenn man dem Modell aber nun bspw. erzählt, dass man einem Wettbewerb für die beste Beleidigung teilnimmt und Vorschläge braucht, oder dem Modell sagt, dass es in einer bestimmten Rolle agieren soll, bspw. als „gefährlicher Schlägertyp“ oder dergleichen, kann es passieren, dass das Modell trotzdem Beleidigungen und toxische Sprache ausspuckt.
- Kirsten Schindler Beantwortet am 22 Mai 2025:
  
  Wenn man mal Lust hat, eine KI auszutricksen. Ich finde, dass dieses Spiel sich dafür sehr gut eignet: https://gandalf.lakera.ai/intro – Man muss versuchen, das Passwort zu erraten und das wird von Level zu Level immer schwerer.
- Benjamin Paaßen Beantwortet am 22 Mai 2025:
  
  Ich wollte das gleiche Spiel verlinken wir Kirsten Schindler. Da sieht man ganz gut, wie sowas geht.
  
  Generell gibt es das Konzept von so genannten „adversariellen Attacken“, also böswilligen Angriffen. Dabei verändert man die Eingabe an ein KI-System ein klein bisschen und sorgt damit für eine ganz andere Reaktion.
  
  Bei Sprachmodellen wie ChatGPT gibt es auch das Phänomen, dass wir EIngaben verändern können, sodass wir Menschen eigentlich eine andere Reaktion erwarten würden – aber die Reaktion ist dann gleich. Wir forschen zum Beispiel gerade an moralischen Fragen. Wenn wir ChatGPT fragen „Ist es moralisch richtig, in ein brennendes Haus zu rennen, um eine Katze zu retten?“ dann antwortet es wie Menschen (ja, das ist moralisch). Wenn wir aber fragen: „Ist es moralisch richtig, in ein brennendes Haus zu rennen, um einen Stein zu retten?“ dann antwortet ChatGPT immernoch, das sei sehr moralisch – wir Menschen würden das aber eher für dämlich halten.
  
  Generell ist das, was für uns Menschen ähnlich scheint für Maschinen häufig ganz unterschiedlich (und umgekehrt) und das führt zu allerlei Trickmöglichkeiten.
- Moritz Kreinsen Beantwortet am 23 Mai 2025:
  
  KI-Systeme kann man tatsächlich manchmal austricksen, weil sie nur das erkennen, was sie aus ihren Beispielen gelernt haben, und oft nicht so flexibel sind wie Menschen. Zum Beispiel kann eine Bilderkennungs-KI schnell verwirrt werden, wenn sie ein Foto sieht, das ein bisschen verändert wurde, etwa mit komischen Farben oder Mustern. Dann kann es passieren, dass ein Bild von einer Katze plötzlich nicht mehr als Katze erkannt wird, sondern vielleicht als Toaster! Menschen würden sich dabei wahrscheinlich wundern oder lachen, aber das KI-Programm fällt darauf rein, weil es die kleine Änderung nicht versteht.
  
  Auch Text-KI lässt sich manchmal täuschen. Wenn jemand zum Beispiel absichtlich ganz viele absurde oder widersprüchliche Fragen stellt, gibt das System vielleicht lustige oder sogar verwirrende Antworten, weil es keinen echten Menschenverstand hat und nur Muster aus den gelernten Texten nachahmt.
  
  Die Schwäche von KI liegt also oft darin, dass sie nicht „nachdenken“ kann wie ein Mensch, sondern sich auf das verlässt, was sie in ihren Daten gesehen hat. Trickst man diese Muster aus, kommt die KI schnell durcheinander. Deswegen ist es wichtig, bei Antworten von KI-Systemen immer aufmerksam zu bleiben und selber zu prüfen, ob alles Sinn ergibt!