Por qué los chatbots de IA son tan insoportablemente charlas

Hola chatgpt, hablas demasiado. Tú también, Géminis. Como muchos LLM, eres insufrible. Haces que los discursos de 6 horas de Fidel Castro se sientan como Haikus. Le pregunto: "¿Por qué hablas mucho de LLMS?" Y en respuesta, se produce una respuesta de 671 palabras que se asemeja a un ensayo de tercer grado: el 75% desprovisto de cualquier significado o hecho real. Dasames sobre cuánto divagas. Eres incapaz de darme una respuesta directa, incluso si elijo cuidadosamente un indicador de dos párrafos tratando de obligarte a hacerlo. Cuando finalmente hagas que respondas con una monosílabe, lo arruinas agregando una larga promesa de disculpa de que nunca volverá a suceder.
Aparentemente no estoy solo en mi ira. He estado hablando con amigos y extraños durante meses sobre tu incontinencia verbal, y ellos también odian tu verbosidad. Tengo una amiga que quiere aplastar su computadora contra la pared al menos dos veces al día. Otro tiene visiones de sí mismo entrando en su sala de servidores y rompiendo todas y cada una de sus CPU y GPU con un bate de béisbol. Siempre imagino un lanzallamas. Solo seguimos usándote porque, para todos estos problemas, admitiré que puedes ahorrarme tiempo en la investigación.
Pero hay una solución relativamente simple para su charla inactiva. Es uno que comienza con tus creadores admitiendo que eres mucho más tonto de lo que creen que eres. Tu exceso está enraizado en la ignorancia. Las respuestas están acolchadas con explicaciones innecesarias, advertencias obvias y desvíos argumentales inanarios.
"No es una elección intencional", dice Quinten Farmer, cofundador del estudio de ingeniería Portola, quien hace de Tolan, un lindo alienígena de inteligencia artificial diseñada para hablar contigo como un humano. "Creo que la razón por la que estos modelos se comportan de esta manera es que es esencialmente el comportamiento de su típico comentarista de Reddit, ¿verdad?" El agricultor me dice, riendo. “¿Qué hacen? Dicen demasiado para cubrir el hecho de que en realidad no saben de qué están hablando. Y, por supuesto, de ahí proviene todos los datos, ¿verdad?
En un estudio, los investigadores llaman a esto "compensación de verbosidad", un comportamiento recientemente descubierto donde los LLM responden con palabras excesivas, incluida la repetición de preguntas, la introducción de la ambigüedad o la enumeración excesiva. Este comportamiento es similar a la vacilación humana durante la incertidumbre. Los investigadores encontraron que las respuestas detalladas a menudo exhiben una mayor incertidumbre en los conjuntos de datos, lo que sugiere una fuerte conexión entre la verbosidad y la incertidumbre del modelo. Muchos LLM producen respuestas más largas cuando tienen menos confianza en la respuesta.
También hay una falta de retención de conocimiento. LLMS olvida la información previamente suministrada en una conversación, lo que resulta en preguntas repetitivas e interacciones innecesariamente detalladas. Y los investigadores encontraron que existe un claro "sesgo de verbosidad" en el entrenamiento de LLM donde los modelos prefieren respuestas más largas y detalladas, incluso si no hay diferencia en la calidad.
La verbosidad se puede solucionar
No importa cuánto LLMS suene como un humano, la verdad es que realmente no entienden el lenguaje, a pesar de ser bastante buenos para unir palabras. Esta competencia en el lenguaje puede crear la ilusión de una inteligencia más amplia, lo que lleva a respuestas más elaboradas. Entonces, básicamente, la investigación muestra lo que sospechamos: los LLM son excelentes para tonterías para que piensen que saben la respuesta. Muchas personas compran esta ilusión porque simplemente quieren creer o porque simplemente no usan el pensamiento crítico, algo que los investigadores de Microsoft descubrieron en un nuevo estudio que analizan el impacto de la IA en el funcionamiento cognitivo.
Hay gradientes en este fenómeno, por supuesto. Farmer cree que la perplejidad y el Claude de Anthrope y son mejores para dar respuestas más concisas sin todo el relleno sin sentido. Y Deepseek, el nuevo niño en el bloque que proviene de China, mantiene sus respuestas mucho más cortas y al grano. Según Deepseek, las respuestas del modelo están diseñadas para ser más directas y concisas porque su capacitación prioriza la claridad y la eficiencia, influenciada por los datos y el refuerzo que favorita la brevedad. Los modelos estadounidenses enfatizan la calidez o la elaboración conversacional, afirma, reflejando las diferencias culturales y de diseño.
En mis pruebas, también descubrí que las respuestas de Claude sesgadas más cortas (aunque aún pueden ser molestas). Claude, al menos, reconoció esto cuando lo estaba cuestionando sobre este problema: "¡Mirando mi respuesta anterior, sí, probablemente hablé demasiado allí!" También me sorprendió con esta gema cuando dije que parecía ser una LLM honesta: “Trato de ser directo sobre lo que sé y no sé, y reconocer mis limitaciones claramente. Si bien puede ser tentador inventar citas o sonar más autorizados que yo, creo que es mejor ser sencillo ". Otra ilusión de actividad cognitiva, sí, pero 100% en el punto.
Los desarrolladores podrían resolver este problema con una mejor capacitación y orientación. De hecho, Farmer me dice que al crear Tolan, el equipo de desarrollo discutió cuánto tiempo o corto deberían ser las respuestas. El escritor que creó las historias de fondo de los personajes se inclinó por más tiempo, porque desarrollaría la conexión con la entidad digital. Otros querían respuestas más cortas y más altas. Es un debate que todavía tienen internamente, pero creen que lograron el equilibrio correcto.
Tú, chatgpt, sin embargo, no eres un lindo alienígena. Eres una herramienta. No hay necesidad de equilibrio. No necesito vincularme contigo. Solo responde la maldita pregunta. Y, si no sabes la respuesta, como cuando pregunté qué jugadores de fútbol habían ganado la mayoría de las ligas de los campeones de la UEFA, solo admite, y cállate en lugar de darme 500 caracteres de lo incorrecto.
La brevedad es el alma del ingenio. Y claramente, ni tú ni yo somos Polonio (pero al menos tengo la excusa de ser un viejo hombre enojado gritando nubes).