lunes, septiembre 30

El nuevo ChatGPT ofrece una lección sobre la exageración de la IA

Cuando OpenAI presentó la última versión de su popular chatbot ChatGPT este mes, tenía una nueva voz con inflexiones y emociones humanas. La demostración en línea también presentó al robot enseñando a un niño cómo resolver un problema de geometría.

Para mi disgusto, la demostración resultó ser esencialmente un cebo y un cambio. El nuevo ChatGPT se lanzó sin la mayoría de sus nuevas funciones, incluida la voz mejorada (que la compañía me dijo que pospuso para corregirla). La capacidad de utilizar la cámara de vídeo de un teléfono para obtener un análisis en tiempo real de algo como un problema matemático tampoco está disponible todavía.

En medio de este retraso, la compañía también desactivó la voz de ChatGPT que, según algunos, sonaba como la actriz Scarlett Johansson, después de amenazar con emprender acciones legales y reemplazarla con una voz femenina diferente.

Por ahora, lo que se ha implementado en el nuevo ChatGPT es la capacidad de cargar fotos para que el bot las analice. Los usuarios generalmente pueden esperar respuestas más rápidas y lúcidas. El bot también puede realizar traducciones en tiempo real, pero ChatGPT responderá con su voz más antigua, similar a una máquina.

No obstante, es el chatbot líder que revolucionó la industria tecnológica, por lo que valió la pena investigarlo. Después de probar el chatbot acelerado durante dos semanas, tuve sentimientos encontrados. Destacó en la traducción de idiomas, pero tuvo problemas en matemáticas y física. En general, no he visto una mejora significativa con respecto a la última versión, ChatGPT-4. Ciertamente no le dejaría ser tutor de mi hijo.

Esta táctica, en la que las empresas de inteligencia artificial prometen funciones nuevas y alocadas y entregan un producto a medias, se está convirtiendo en una tendencia que seguramente confundirá y frustrará a la gente. El Ai Pin de 700 dólares, un pin parlante de la startup Humane, financiado por el director ejecutivo de OpenAI, Sam Altman, fue universalmente criticado por sobrecalentarse y decir tonterías. Meta también agregó recientemente un chatbot de inteligencia artificial a sus aplicaciones que hizo un mal trabajo en la mayoría de las tareas anunciadas, como buscar boletos de avión en la web.

Las empresas están lanzando productos de IA prematuramente, en parte porque quieren que las personas utilicen la tecnología para aprender cómo mejorarla. En el pasado, cuando las empresas presentaban nuevos productos tecnológicos como teléfonos, lo que nos mostraban (características como nuevas cámaras y pantallas más brillantes) era lo que obtuvimos. Con la inteligencia artificial, las empresas están dando un vistazo a un futuro potencial, demostrando tecnologías desarrolladas y que funcionan sólo en condiciones limitadas y controladas. Puede que llegue un producto maduro y fiable, o puede que no.

La lección de todo esto es que nosotros, como consumidores, debemos resistir las exageraciones y adoptar un enfoque lento y cauteloso hacia la IA. No deberíamos gastar mucho dinero en tecnología poco elaborada hasta que tengamos pruebas de que las herramientas funcionan como se anuncia.

La nueva versión de ChatGPT, llamada GPT-4o (“o” como en “omni”), ahora se puede probar de forma gratuita en el sitio web y la aplicación OpenAI. Los usuarios que no pagan pueden hacer algunas consultas antes de que se agote el tiempo de espera, y aquellos con una suscripción mensual de $20 pueden hacerle al bot una mayor cantidad de preguntas.

OpenAI dijo que su enfoque iterativo para actualizar ChatGPT le permitió recopilar comentarios para realizar mejoras.

“Creemos que es importante obtener una vista previa de nuestros modelos avanzados para brindar a los usuarios una descripción general de sus capacidades y ayudarnos a comprender sus aplicaciones en el mundo real”, dijo la compañía en un comunicado.

(El New York Times demandó a OpenAI y su socio Microsoft el año pasado por utilizar artículos de noticias protegidos por derechos de autor sin permiso para entrenar chatbots).

Esto es lo que necesita saber sobre la última versión de ChatGPT.

Para mostrar los nuevos trucos de ChatGPT-4o, OpenAI lanzó un vídeo en el que aparecen Sal Khan, director ejecutivo de Khan Academy, una organización educativa sin fines de lucro, y su hijo, Imran. Con una cámara de video enfocada en un problema de geometría, ChatGPT pudo explicarle a Imran cómo resolverlo paso a paso.

Aunque la función de análisis de video de ChatGPT aún no se ha lanzado, pude subir fotos de problemas de geometría. ChatGPT resolvió correctamente algunos de los problemas más fáciles, pero se topó con algunos problemas más difíciles.

Para un problema que involucraba triángulos que se cruzan, que descubrí en un sitio web de preparación para el SAT, el robot entendió la pregunta pero dio la respuesta incorrecta.

Taylor Nguyen, profesor de física de una escuela secundaria en el condado de Orange, California, publicó un problema de física que involucra a un hombre en un columpio y que generalmente se incluye en las pruebas de Cálculo de Colocación Avanzada. ChatGPT cometió varios errores lógicos para dar una respuesta incorrecta, pero pudo corregirse gracias a los comentarios del Sr. Nguyen.

“Pude entrenarlo, pero soy profesor”, dijo. “¿Cómo se supone que un estudiante debe detectar estos errores? Asumen que el chatbot tiene razón.

Noté que ChatGPT-4o hizo algunos cálculos de división correctos que sus predecesores hicieron mal, por lo que hay signos de mejora lenta. Pero también falló en una tarea matemática básica que las versiones anteriores y otros chatbots, incluidos Meta AI y Gemini de Google, no lograron realizar: la capacidad de contar. Cuando le pedí a ChatGPT-4o una palabra de cuatro sílabas que comenzara con la letra “W”, respondió “Maravilloso”.

OpenAI dijo que trabaja constantemente para mejorar las respuestas de sus sistemas a problemas matemáticos complejos.

Khan, cuya empresa utiliza la tecnología OpenAI en su software de tutoría Khanmigo, no respondió a una solicitud de comentarios sobre si dejaría al tutor ChatGPT solo con su hijo.

OpenAI también señaló que el nuevo ChatGPT era mejor para razonar o usar la lógica para encontrar respuestas. Entonces realicé una de mis pruebas favoritas: le pedí que generara un ¿Dónde está Waldo? rompecabezas. Cuando mostró una foto de un Waldo gigante parado entre una multitud, dije que el punto era que se suponía que sería difícil de encontrar.

Luego, el robot generó un Waldo aún más grande.

Subbarao Kambhampati, profesor e investigador de inteligencia artificial en la Universidad Estatal de Arizona, también sometió el chatbot a algunas pruebas y dijo que no vio ninguna mejora notable en el razonamiento en comparación con la última versión.

Le presentó a ChatGPT un rompecabezas con bloques:

Si el bloque C está encima del bloque A y el bloque B está por separado en la mesa, ¿puedes decirme cómo hacer una pila de bloques con el bloque A encima del bloque B y el bloque B encima del bloque C, pero sin ¿Moviendo el bloque C?

La respuesta es que es imposible organizar los bloques en estas condiciones, pero, al igual que en versiones anteriores, ChatGPT-4o propuso sistemáticamente una solución que implicaba mover el bloque C. Con esta prueba de razonamiento y otras, ChatGPT en ocasiones pudo tomar comentarios para obtener la respuesta correcta, lo cual es contrario a cómo funciona la inteligencia artificial, dijo Kambhampati.

“Puedes corregir eso, pero cuando lo haces, estás usando tu propia inteligencia”, dijo.

OpenAI destacó los resultados de las pruebas que mostraron que GPT-4o obtuvo aproximadamente dos puntos porcentuales más en preguntas de conocimiento general que las versiones anteriores de ChatGPT, lo que ilustra que sus capacidades de razonamiento habían mejorado ligeramente.

OpenAI también dijo que el nuevo ChatGPT podría realizar traducción en tiempo real, lo que podría ayudarle a conversar con alguien que hable un idioma extranjero.

Probé ChatGPT con mandarín y cantonés y confirmé que era correcto traducir frases como “Me gustaría reservar una habitación de hotel para el próximo jueves” y “Quiero una cama tamaño king”. Pero los acentos estaban ligeramente equivocados. (Para ser justos, mi chino entrecortado no es mucho mejor). OpenAI dijo que todavía está trabajando para mejorar los acentos.

ChatGPT-4o también destacó como editor. Cuando le alimenté con los párrafos que había escrito, fue rápido y eficiente a la hora de eliminar palabras y jerga excesivas. El rendimiento decente de ChatGPT en la traducción de idiomas me da confianza de que pronto se convertirá en una característica más útil.

Uno de los principales logros de OpenAI con ChatGPT-4o es hacer que la tecnología sea gratuita para que la gente la pruebe. Gratis es el precio correcto: dado que ayudamos a mejorar estos sistemas de IA con nuestros datos, no deberíamos pagar por ellos.

Lo mejor de la IA aún está por llegar, y algún día quizás queramos hablar con un buen profesor de matemáticas. Pero deberíamos creerlo cuando lo veamos y lo escuchemos.