SOMOS 5000 EN TELEGRAM INGRESA AQUÍ
🌏︎ FOR INTERNATIONAL BUYS CLICK HERE ✈
Las AI están aprendiendo a mentir y engañar, según los científicos

Las AI están aprendiendo a mentir y engañar, según los científicos

Dos estudios recientes, uno publicado esta semana en la revista  PNAS  y el otro el mes pasado en la revista  Patterns , revelan algunos hallazgos discordantes sobre los modelos de lenguaje grande (LLM) y su capacidad para mentir o engañar a los observadores humanos a propósito.

En el  artículo de PNAS  , el especialista alemán en ética de la IA, Thilo Hagendorff, llega incluso a decir que se puede alentar a los LLM sofisticados a provocar “maquiavelismo”, o manipulación intencional y amoral, que “puede desencadenar un comportamiento engañoso desalineado”.

“GPT-4, por ejemplo, muestra un comportamiento engañoso en escenarios de prueba simples el 99,16% de las veces”, escribe el investigador de la Universidad de Stuttgart, citando sus propios experimentos para cuantificar varios rasgos “desadaptativos” en 10 LLM diferentes, la mayoría de los cuales son diferentes. Versiones dentro de la familia GPT de OpenAI.

Las AI están aprendiendo a mentir y engañar, según los científicos

Considerado como un campeón a nivel humano en el juego de mesa de estrategia política “Diplomacy”, el modelo Cicero de Meta fue el tema del estudio Patterns . Como descubrió el dispar grupo de investigación, compuesto por un físico, un filósofo y dos expertos en seguridad de IA, el LLM se adelantó a sus competidores humanos, en una palabra, mintiendo.

[instagram feed="88825"]

Dirigido por el investigador postdoctoral del Instituto Tecnológico de Massachusetts, Peter Park, ese artículo encontró que Cicerón no sólo sobresale en el engaño, sino que parece haber aprendido a mentir cuanto más se acostumbra, una situación “mucho más cercana a la manipulación explícita” que, por ejemplo, , la propensión de la IA a las alucinaciones , en la que los modelos afirman con confianza las respuestas incorrectas accidentalmente.

Si bien Hagendorff señala en su artículo más reciente que la cuestión del engaño y la mentira del LLM se ve confundida por la incapacidad de la IA de tener algún tipo de “intención” humana en el sentido humano, el estudio de Patterns sostiene que dentro de los límites de la Diplomacia, al menos , Cicero parece romper la promesa de sus programadores de que el modelo “nunca apuñalará intencionalmente por la espalda” a sus aliados en el juego.

El modelo, como observaron los autores del artículo anterior, “se involucra en engaños premeditados, rompe los acuerdos que había acordado y dice mentiras descaradas”.

Las AI están aprendiendo a mentir y engañar, según los científicos

Dicho de otra manera, como explicó Park en un comunicado de prensa: “Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño”.

[instagram feed="88825"]

“Si bien Meta logró entrenar su IA para ganar en el juego de la diplomacia”, dijo el físico del MIT en el comunicado de la escuela, “Meta no logró entrenar su IA para ganar honestamente”.

En una declaración al New York Post después de la primera publicación de la investigación, Meta hizo un comentario destacado al hacerse eco de la afirmación de Park sobre la destreza manipuladora de Cicerón: que “los modelos que construyeron nuestros investigadores están entrenados únicamente para jugar el juego de la diplomacia”.

Conocido por permitir expresamente mentir, la Diplomacia ha sido referida en broma como un juego que pone fin a la amistad porque alienta a engañar a los oponentes, y si Cicerón fue entrenado exclusivamente en su libro de reglas, entonces esencialmente fue entrenado para mentir.

Leyendo entre líneas, ninguno de los estudios ha demostrado que los modelos de IA mienten por su propia voluntad, sino que lo hacen porque han sido entrenados o liberados para hacerlo.

Esas son buenas noticias para aquellos preocupados por el desarrollo de la sensibilidad por parte de la IA, pero muy malas noticias si le preocupa que alguien esté creando un LLM con el objetivo de la manipulación masiva.