Una nueva versión del popular sistema de inteligencia artificial (IA) de ChatGPT, GPT-4 Omni (GPT-4o), anunciada este lunes por la compañía OpenAI, ha demostrado capacidades nunca vistas en sistemas similares, que cambiarán por completo el sector de los asistentes de IA.
El GPT-4 Omni puede ver y comunicarse con los usuarios en modo de diálogo normal, casi como un ser humano. Según la empresa, se convirtió en la primera herramienta que puede procesar texto, audio e imagen juntos. Es posible conversar con el modelo e incluso interrumpirlo mientras responde, y la velocidad con la que analiza el audio es «similar al tiempo humano de respuesta en una conversación».
¿Qué otras capacidades tiene?
OpenAI publicó en X varios videos revelando las potencialidades del nuevo producto. El primero muestra cómo un sistema de IA puede interactuar con otro similar. El primer ChatGPT, que puede observar la sala porque tiene activada la percepción de video, le describe lo que está ocurriendo al otro, que, a su vez, le hace preguntas aclaratorias. Después, cantan juntos una canción sobre lo que ocurre.
Además, la versión actualizada del sistema manifiesta sus capacidades lingüísticas, pues ChatGPT traduce de un idioma a otro inmediatamente durante una conversación, así como también indica en la lengua especificada el nombre del objeto al que apunta la cámara, facilitando la comunicación entre la gente y el proceso educativo.
El sistema de IA puede detectar las emociones de una persona e incluso darle consejos sobre su apariencia, dependiendo de la situación.