Ciencia

Pioneros del aprendizaje de refuerzo Gane el premio Turing

En la década de 1980, Andrew Barto y Sutton rico se consideraron devotos excéntricos a una idea elegante pero en última instancia condenada: las máquinas que tienen a los que los humanos y los animales lo hacen, por experiencia.

Décadas sobre, con la técnica que fueron pioneros ahora cada vez más críticas para la inteligencia artificial moderna y los programas como ChatGPT, Barto y Sutton han recibido el Premio Turing, el más alto honor en el campo de la informática.

Barto, profesor emérito de la Universidad de Massachusetts Amherst, y Sutton, profesor de la Universidad de Alberta, pidiendo una técnica conocida como aprendizaje de refuerzo, que implica la coaxtar una computadora para realizar tareas a través de la experimentación combinada con comentarios positivos o negativos.

"Cuando este trabajo comenzó para mí, fue extremadamente pasado de moda", recuerda Barto con una sonrisa, hablando sobre Zoom desde su casa en Massachusetts. "Ha sido notable que (ha) haber logrado cierta influencia y atención", agrega.

El aprendizaje de refuerzo fue quizás el más famoso por Google Deepmind en 2016 para construir Alphago, un programa que aprendió por sí mismo cómo jugar el juego de mesa increíblemente complejo y sutil para un nivel experto. Esta demostración provocó un nuevo interés en la técnica, que se ha utilizado en la publicidad, optimizando el uso de energía del centro de datos, las finanzas y el diseño de chips. El enfoque también tiene una larga historia en robótica, donde puede ayudar a las máquinas a aprender a realizar tareas físicas a través de prueba y error.

Más recientemente, el aprendizaje de refuerzo ha sido crucial para guiar la producción de modelos de idiomas grandes (LLM) y producir programas de chatbot extraordinariamente capaces. El mismo método también se está utilizando para entrenar modelos AI para imitar el razonamiento humano y construir agentes de IA más capaces.

Sutton señala, sin embargo, que los métodos utilizados para guiar a los LLM involucran a los humanos que proporcionan objetivos en lugar de un algoritmo que aprende exclusivamente a través de su propia exploración. Él dice que hacer que las máquinas aprendan por sí solas por su cuenta, en última instancia, puede ser más fructífera. "La gran división es si (AI es) aprender de las personas o si es aprender de su propia experiencia", dice.

El "trabajo de Barto y Sutton ha sido un linchpin de progreso en IA en las últimas décadas", dijo Jeff Dean, vicepresidente senior de Google, en un comunicado publicado por el Asociación para la maquinaria informática (ACM) que entrega el premio Turing anualmente. "Las herramientas que desarrollaron siguen siendo un pilar central del auge de la IA y han hecho importantes avances".

El refuerzo tiene un historial largo y a cuadros dentro de la IA. Estaba allí en los amanecer del campo, cuando Alan Turing sugirió que las máquinas pudieran aprender a través de la experiencia y la retroalimentación en su famoso artículo de 1950 "Computación de maquinaria e inteligencia"Que examina la noción de que una máquina podría pensar algún día como un humano. Arthur Samuel, un pionero de IA, utilizó el aprendizaje de refuerzo para construir uno de los primeros programas de aprendizaje automático, un sistema capaz de reproducir damasen 1955.

Related Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Back to top button