·June 11, 2024·2 min read

Las AI están aprendiendo a mentir y engañar, según los científicos

Sigue nuestras Playlist!!

Dos estudios recientes, uno publicado esta semana en la revista PNAS y el otro el mes pasado en la revista Patterns , revelan algunos hallazgos discordantes sobre los modelos de lenguaje grande (LLM) y su capacidad para mentir o engañar a los observadores humanos a propósito.

En el artículo de PNAS , el especialista alemán en ética de la IA, Thilo Hagendorff, llega incluso a decir que se puede alentar a los LLM sofisticados a provocar “maquiavelismo”, o manipulación intencional y amoral, que “puede desencadenar un comportamiento engañoso desalineado”.

“GPT-4, por ejemplo, muestra un comportamiento engañoso en escenarios de prueba simples el 99,16% de las veces”, escribe el investigador de la Universidad de Stuttgart, citando sus propios experimentos para cuantificar varios rasgos “desadaptativos” en 10 LLM diferentes, la mayoría de los cuales son diferentes. Versiones dentro de la familia GPT de OpenAI.

Considerado como un campeón a nivel humano en el juego de mesa de estrategia política “Diplomacy”, el modelo Cicero de Meta fue el tema del estudio Patterns . Como descubrió el dispar grupo de investigación, compuesto por un físico, un filósofo y dos expertos en seguridad de IA, el LLM se adelantó a sus competidores humanos, en una palabra, mintiendo.

Sigue nuestras Playlist!!

[instagram feed="88825"]

Dirigido por el investigador postdoctoral del Instituto Tecnológico de Massachusetts, Peter Park, ese artículo encontró que Cicerón no sólo sobresale en el engaño, sino que parece haber aprendido a mentir cuanto más se acostumbra, una situación “mucho más cercana a la manipulación explícita” que, por ejemplo, , la propensión de la IA a las alucinaciones , en la que los modelos afirman con confianza las respuestas incorrectas accidentalmente.

Si bien Hagendorff señala en su artículo más reciente que la cuestión del engaño y la mentira del LLM se ve confundida por la incapacidad de la IA de tener algún tipo de “intención” humana en el sentido humano, el estudio de Patterns sostiene que dentro de los límites de la Diplomacia, al menos , Cicero parece romper la promesa de sus programadores de que el modelo “nunca apuñalará intencionalmente por la espalda” a sus aliados en el juego.

El modelo, como observaron los autores del artículo anterior, “se involucra en engaños premeditados, rompe los acuerdos que había acordado y dice mentiras descaradas”.

Dicho de otra manera, como explicó Park en un comunicado de prensa: “Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño”.

Sigue nuestras Playlist!!

“Si bien Meta logró entrenar su IA para ganar en el juego de la diplomacia”, dijo el físico del MIT en el comunicado de la escuela, “Meta no logró entrenar su IA para ganar honestamente”.

Profesores generados por una IA ya dictan clase en una universidad en Hong Kong

En una declaración al New York Post después de la primera publicación de la investigación, Meta hizo un comentario destacado al hacerse eco de la afirmación de Park sobre la destreza manipuladora de Cicerón: que “los modelos que construyeron nuestros investigadores están entrenados únicamente para jugar el juego de la diplomacia”.

Conocido por permitir expresamente mentir, la Diplomacia ha sido referida en broma como un juego que pone fin a la amistad porque alienta a engañar a los oponentes, y si Cicerón fue entrenado exclusivamente en su libro de reglas, entonces esencialmente fue entrenado para mentir.

Leyendo entre líneas, ninguno de los estudios ha demostrado que los modelos de IA mienten por su propia voluntad, sino que lo hacen porque han sido entrenados o liberados para hacerlo.

Esas son buenas noticias para aquellos preocupados por el desarrollo de la sensibilidad por parte de la IA, pero muy malas noticias si le preocupa que alguien esté creando un LLM con el objetivo de la manipulación masiva.

Vamos a ésta Fiesta !

TechnoFeria 2024 presenta el TimeTable para el 2 y 3 de Agosto ( AfterHours y B2B Sorpresa )

Los ríos de Alaska se están volviendo ácidos como el vinagre a medida que el metal tóxico se escapa del permafrost derretido

JAMIE BISSMIRE: bomba atómica de los 90’s, el alma del groove para el FDM225

El 76% de los nuevos artistas dice que su carrera musical es financieramente insostenible

Mira este Documental hecho por RedBull a Machina Live

DEFAULT SERIES presenta su gira por Sur América 2024

Medellín, una parodia urbana: Entrevista al profe universitario PABLO MENJURA

Julián Assange está libre. Hoy 24 de Junio y estará en Australia

Miles de personas creyeron que un Rapero Rasta Robótico había cantado en Silicon Valley

Snowden critica a OpenAI: Sam Altman conversa con Director de la NSA Paul M. Nakasone