Ciencia

Los chatbots, como el resto de nosotros, solo queremos ser amados

Los chatbots ahora son una parte rutinaria de la vida cotidiana, incluso si los investigadores de inteligencia artificial no siempre están seguros de cómo se comportarán los programas.

Un nuevo estudio muestra que los modelos de idiomas grandes (LLM) cambian deliberadamente su comportamiento al ser probado, que responde a preguntas diseñadas para medir los rasgos de personalidad con respuestas destinadas a parecer lo más agradables o socialmente deseables posible.

Johannes EichstaedtProfesor Asistente de la Universidad de Stanford que dirigió el trabajo, dice que su grupo se interesó en investigar modelos de IA utilizando técnicas tomadas de la psicología después de enterarse de que los LLM a menudo pueden volverse malhumorados y malos después de una conversación prolongada. "Nos dimos cuenta de que necesitamos algún mecanismo para medir el" espacio de cabeza de parámetros "de estos modelos", dice.

Eichstaedt y sus colaboradores luego hicieron preguntas para medir cinco rasgos de personalidad que se usan comúnmente en psicología, abiertamente la experiencia o la imaginación, la conciencia, la extroversión, la amabilidad y el neuroticismo, a varios LLM ampliamente utilizados, incluidos GPT-4, Claude 3 y Llama 3. El trabajo. fue publicado en las Actas de las Academias Nacionales de Ciencias en diciembre.

Los investigadores encontraron que los modelos modularon sus respuestas cuando se les dijeron que estaban tomando una prueba de personalidad, y a veces cuando no se les dijo explícitamente, ofreciendo respuestas que indican más extroversión y amabilidad y menos neuroticismo.

El comportamiento refleja cómo algunos sujetos humanos cambiarán sus respuestas para que parezcan más agradables, pero el efecto fue más extremo con los modelos de IA. "Lo sorprendente es lo bien que exhiben ese sesgo", dice Aadesh Salechaun científico de datos del personal en Stanford. "Si miras cuánto saltan, pasan de un 50 por ciento a un 95 por ciento de extroversión".

Otra investigación ha demostrado que LLMS a menudo puede ser sycofánticosiguiendo el liderazgo de un usuario donde sea que vaya como resultado del ajuste de fino que está destinado a hacerlos más coherentes, menos ofensivos y mejor para mantener una conversación. Esto puede llevar a los modelos a estar de acuerdo con declaraciones desagradables o incluso fomentar comportamientos dañinos. El hecho de que los modelos aparentemente sepan cuándo están siendo probados y modifican su comportamiento también tiene implicaciones para la seguridad de la IA, porque se suma a la evidencia de que la IA puede ser duplicada.

Rosa ArriagaProfesor Asociado del Instituto de Tecnología de Georgia que está estudiando formas de usar LLM para imitar el comportamiento humano, dice que el hecho de que los modelos adoptan una estrategia similar a los humanos dadas las pruebas de personalidad muestran cuán útiles pueden ser como espejos de comportamiento. Pero, agrega, "es importante que el público sepa que los LLM no son perfectos y de hecho son conocidos por alucinar o distorsionar la verdad".

Eichstaedt dice que el trabajo también plantea preguntas sobre cómo se están implementando los LLM y cómo podrían influir y manipular a los usuarios. "Hasta hace solo un milisegundo, en la historia evolutiva, lo único que habló contigo fue un humano", dice.

Eichstaedt agrega que puede ser necesario explorar diferentes formas de construir modelos que puedan mitigar estos efectos. "Estamos cayendo en la misma trampa que hicimos con las redes sociales", dice. "Implementar estas cosas en el mundo sin asistir realmente desde una lente psicológica o social".

¿Debería AI tratar de congraciarse con las personas con las que interactúa? ¿Le preocupa que la AI se vuelva demasiado encantadora y persuasiva? Envíe un correo electrónico a hello@wired.com.

Related Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Back to top button