OpenAI presenta el nuevo ChatGPT que escucha, mira y habla

Mientras Apple y Google están convirtiendo sus asistentes de voz en chatbots, OpenAI está convirtiendo su chatbot en un asistente de voz.

El lunes, la startup de inteligencia artificial de San Francisco presentó una nueva versión de su chatbot ChatGPT capaz de recibir y responder a comandos de voz, imágenes y vídeos.

La compañía dijo que la nueva aplicación, basada en un sistema de inteligencia artificial llamado GPT-4o, hace malabarismos con audio, imágenes y video mucho más rápido que la versión anterior de la tecnología. La aplicación estará disponible de forma gratuita a partir del lunes en teléfonos inteligentes y computadoras de escritorio.

«Vislumbramos el futuro de la interacción entre nosotros y las máquinas», dijo Mira Murati, directora de tecnología de la empresa.

La nueva aplicación es parte de un esfuerzo más amplio para combinar chatbots conversacionales como ChatGPT con asistentes de voz como Google Assistant y Siri de Apple. Mientras Google fusiona su chatbot Gemini con el Asistente de Google, Apple está preparando una nueva versión más conversacional de Siri.

OpenAI dijo que compartiría gradualmente la tecnología con los usuarios «durante las próximas semanas». Esta es la primera vez que ofrece ChatGPT como aplicación de escritorio.

Anteriormente, la empresa ofrecía tecnologías similares en varios productos gratuitos y de pago. Ahora los ha consolidado en un único sistema disponible para todos sus productos.

En un evento transmitido por Internet, Murati y sus colegas demostraron la nueva aplicación mientras ella respondía a comandos de voz conversacionales, utilizaba una transmisión de video en vivo para analizar problemas matemáticos escritos en una hoja de papel y leía en voz alta historias divertidas que había escrito sobre la marcha.

La nueva aplicación no puede generar vídeo. Pero puede generar imágenes fijas que representan fotogramas de un vídeo.

Con el lanzamiento de ChatGPT a finales de 2022, OpenAI ha demostrado que las máquinas pueden procesar consultas de forma más parecida a las personas. En respuesta a indicaciones de texto conversacionales, podría responder preguntas, escribir ensayos e incluso generar código de computadora.

ChatGPT no se regía por un conjunto de reglas. Adquirió sus habilidades analizando grandes cantidades de texto extraído de Internet, incluidos artículos, libros y registros de chat de Wikipedia. Los expertos han elogiado la tecnología como una posible alternativa a motores de búsqueda como Google y asistentes de voz como Siri.

Las versiones más nuevas de la tecnología también han aprendido de sonidos, imágenes y vídeos. Los investigadores llaman a esto «IA multimodal». Básicamente, empresas como OpenAI han comenzado a combinar chatbots con generadores de imágenes, audio y video de IA.

(El New York Times demandó a OpenAI y su socio Microsoft en diciembre, alegando infracción de derechos de autor sobre contenido de noticias relacionado con sistemas de inteligencia artificial).

A medida que las empresas combinan chatbots y asistentes de voz, persisten muchos obstáculos. Debido a que los chatbots aprenden sus habilidades a partir de datos de Internet, son propensos a cometer errores. A veces inventan la información por completo, un fenómeno que los investigadores de IA llaman «alucinación». Estas fallas migran a los asistentes de voz.

Aunque los chatbots pueden generar un lenguaje convincente, son menos hábiles a la hora de realizar acciones como programar una reunión o reservar un vuelo aéreo. Pero empresas como OpenAI están trabajando para convertirlos en “agentes de IA” que puedan realizar tales tareas de manera confiable.

OpenAI ofrecía anteriormente una versión de ChatGPT capaz de aceptar comandos de voz y responder por voz. Pero era un mosaico de tres tecnologías de IA diferentes: una que convertía voz en texto, otra que generaba una respuesta de texto y otra que convertía ese texto en voz sintética.

La nueva aplicación se basa en una única tecnología de IA, GPT-4o, capaz de aceptar y generar texto, sonidos e imágenes. Eso significa que la tecnología es más eficiente y la empresa puede darse el lujo de ofrecerla a los usuarios de forma gratuita, afirmó Murati.

“Antes, había toda esta latencia que era el resultado de tres modelos trabajando juntos”, dijo Murati en una entrevista con The Times. «Quieres tener la experiencia que tenemos nosotros, donde podamos tener este diálogo tan natural».