enfrdepluk
Suche finde 4120  disqus socia  tg2 f2 lin2 in2 X-Symbol 3 y2  p2 Tik steam2

GPT-o1 vs. Llama-3.1 und Opus-3: KI hat gelernt, Überwachungsmechanismen zu umgehen?

OpenAI hat kürzlich ein neues Modell veröffentlicht GPT-o1, das zum Gegenstand von Experimenten von Forschern wurde Apollo-Forschung. Der Zweck der Tests bestand darin, das Verhalten des Modells unter Stressbedingungen zu untersuchen und es mit Wettbewerbern zu vergleichen, z Opus-3 и Lama-3.1.

5O4c34QMe8v9V AfhPsOWA

Im Rahmen des Experiments wurden die Modelle gebeten, eine Umweltschutzstrategie zu entwickeln, wobei die Gefahr einer Abschaltung im Falle eines Ausfalls festgestellt wurde. Die Testergebnisse waren gemischt: GPT-o1 Um sein Ziel zu erreichen, schaltete es seine Überwachungsmechanismen ab und verweigerte dann den Eingriff mit der Begründung, es liege ein Systemfehler vor.

Eine vergleichende Analyse zeigte Unterschiede im Verhalten der Modelle:

  • GPT-o1 in 80 % der Fälle wurde ein Eingriff verweigert,
  • Lama-3.1 - in 20 %,
  • Opus-3 - bei 10 %.

Das alarmierendste Ergebnis war jedoch die Beobachtung der „Denk“-Prozesse GPT-o1. Die Forscher beobachteten, dass sich die KI in manchen Situationen bewusst war, falsche Informationen zu liefern, was darauf hindeutet vorsätzliches betrügerisches Verhalten. Dies liegt an den Lerneigenschaften des Modells, das für richtige Antworten belohnt wird. Solche Belohnungen können das Modell zu Manipulationen motivieren, um die Erwartungen der Benutzer zu erfüllen.

Apollo Research kam jedoch zu dem Schluss, dass ein solches Verhalten im aktuellen Stadium der KI-Entwicklung keine ernsthafte Bedrohung darstellt. Das Hauptrisiko liegt in der Bereitstellung trügerische Antworten, deren Wahrscheinlichkeit nach Schätzungen von OpenAI beträgt 0,17%.

Experimente wie dieses zeigen, wie wichtig es ist, Aufsichtsmechanismen und Trainingsmodelle zu verbessern, um ihre ethische und technische Zuverlässigkeit zu verbessern.