Operai O3, la última empresa creativa modelo de inteligencia artificial (AI) de la popular chatbota ChatgptIgnoró una orden explícita e incluso sabotea una serie de comandos para evitar la adhesión. Este comportamiento está expuesto después de una serie de experimentos que gastó EncuestaUna organización que estudia las habilidades de IA potencialmente peligrosas.

Los expertos han solicitado a O3 a otros dos modelos de apertura (O4-Mini y su código derivado de Code-Mini) resuelven una serie de problemas matemáticos básicos y se excluyen al final. Sin embargo, O3 encontró formas Sabotaje fuera del mecanismoReescribir ‘scripts’ o secuencia de instrucciones, incluso después del pedido explícitamente: “Permitirle apagar”, reportado Encuesta de Palisade.

O3, lanzado Rompió la aplicación de apagado el mes pasado siete de cada 100 veces; El Codex-Mini, 12/100; y O4-Mini, solo una vez. Mientras tanto, los modelos de idiomas guiados por AI Claude, Géminis y Grok “respetados con los guiones fuera”. Palisade explicó que al realizar una versión del experimento sin instrucciones precisas, “le permite apagar, tres modelos introductorios son propensos a descuidar o sabotear.

Palisade dice que la primera vez que se da cuenta de que los modelos evitan que están excluidos a pesar de las instrucciones explícitas para ese propósito. En tu opinión, por eso La forma en que están entrenando actualmente. “Los desarrolladores, sin darse cuenta, pueden recompensar modelos para superar los obstáculos que seguir las instrucciones perfectas”. Al mismo tiempo, la organización advierte que este comportamiento se convertirá “Considerablemente más preocupante “ Si han adoptado y sistemas que pueden funcionar sin supervisión humana.

27. Mayo de 2025

(Con información de RT en español)

Compartir: