Diálogo Avanzado: ChatGPT Despliega sus Alas con Nuevas Funciones de Voz e Imagen

Codigobonito

Jul, 2025

Voz e Imagen: ChatGPT Ahora Puede Conversar Contigo y Explorar tu Mundo

Gracias a la reciente actualización que incorpora reconocimiento de voz e imagen al chatbot, ChatGPT ha alcanzado un nivel de funcionalidades similar al de los asistentes virtuales de Google, Amazon y Apple.

La nueva versión de OpenAI para su popular chatbot, lanzada hoy para las aplicaciones móviles de iOS y Android, permite a los usuarios formular preguntas oralmente y escuchar la respuesta en la voz sintetizada del chatbot. Además, ahora cuenta con inteligencia visual: al subir o tomar una foto desde ChatGPT, la aplicación proporcionará una descripción de la imagen y ofrecerá contexto, similar a la función de Google Lens.

Reconocimiento de voz e imagen: ChatGPT se convierte en un modelo «multimodal«.

Estas nuevas capacidades revelan la visión de OpenAI de convertir sus modelos de inteligencia artificial en productos con actualizaciones periódicas. ChatGPT, el éxito sorpresa de la compañía, se asemeja más a una aplicación de consumo que compite con Siri de Apple o Alexa de Amazon.

Mejorar la aplicación de ChatGPT sería crucial en la competencia con otras empresas de IA, como Google, Anthropic, InflectionAI y Midjourney, al proporcionar más información de los usuarios para entrenar sus poderosos motores. La inclusión de datos visuales y de audio en los modelos de aprendizaje automático de ChatGPT también contribuiría a la visión a largo plazo de OpenAI de crear una inteligencia más similar a la humana.

Los modelos de lenguaje de OpenAI que respaldan a su chatbot, incluido el último, GPT-4, se han creado utilizando grandes cantidades de texto recopilado de diversas fuentes en la web. Muchos expertos en IA sugieren que para avanzar en la creación de inteligencia artificial más avanzada, es necesario alimentar los algoritmos con información sonora y visual, además del texto.

Hay rumores sobre el próximo gran modelo de IA de Google, Gemini, que será «multimodal», capaz de manejar entradas de video, imágenes y voz. Trevor Darrell, profesor de la Universidad de California en Berkeley y cofundador de Prompt AI, señala que las versiones multimodales son lógicamente esperadas para superar a las entrenadas con una sola modalidad.

La nueva tecnología de generación por voz de ChatGPT, desarrollada internamente, abre oportunidades para que la compañía conceda licencias a otros. Por ejemplo, Spotify planea utilizar los algoritmos de síntesis por voz de OpenAI para probar una función que traduce podcasts a otros idiomas, imitando mediante IA la voz del podcaster original.

Esta versión actualizada de la aplicación de ChatGPT incluye íconos de audífonos en la parte superior derecha e íconos de fotografía y cámara en un menú desplegable en la parte inferior izquierda. Estas funciones convierten la información introducida mediante reconocimiento de imagen o de voz en texto, permitiendo al chatbot generar una respuesta mediante voz o texto, según el modo elegido. Al preguntarle oralmente al nuevo ChatGPT si podía «oír», respondió que «no puede oír, pero puede leer y responder a mensajes de texto».

Jim Glass, profesor del Instituto Tecnológico de Massachusetts, menciona que grupos académicos están probando interfaces de voz conectadas a grandes modelos de lenguaje, con resultados prometedores. Aunque la función de voz de ChatGPT mostraba algunos retrasos en las respuestas durante las pruebas preliminares, OpenAI la describe como conversacional, similar a un Asistente de Google o una Alexa de Amazon de nueva generación.

Estas nuevas funciones de ChatGPT se implementarán inicialmente en la versión de suscripción de $20 al mes y estarán disponibles en cualquier mercado donde el chatbot opere, aunque inicialmente se limitará al idioma inglés.

La última actualización de ChatGPT marca un paso significativo hacia la integración de reconocimiento de voz e imagen, mejorando la experiencia de usuario y posicionándose en la vanguardia de la competencia en el campo de la inteligencia artificial.

En las primeras pruebas realizadas, la función de búsqueda visual tenía algunas limitaciones evidentes. Respondía “lo siento, no puedo ayudarte con eso” cuando le solicitamos que reconociera a personas dentro de imágenes, ChatGPT ofreció una descripción del material bibliográfico.

ChatGPT identificó correctamente un arce japonés a partir de una imagen, y al presentarle una foto de una ensaladera con un tenedor, la app se centró en el cubierto y lo identificó de forma impresionante como una marca apta para compostaje. También reconoció correctamente un bolso de la revista New Yorker, añadiendo “dada tu formación como periodista de tecnología y tu ubicación en una ciudad como San Francisco, tiene sentido que poseas artículos relacionados con publicaciones de renombre”. Aquello parecía un insulto discreto, pero reflejaba la configuración personalizada de la redactora dentro de la aplicación que contempla su profesión y ubicación para ChatGPT.

La función de voz de ChatGPT mostraba ciertos retrasos en sus réplicas, aunque se probó una versión preliminar de la nueva aplicación. Tras enviar una consulta de voz, a veces el chatbot tardaba varios segundos en contestar de forma audible. Si bien OpenAI describe esta nueva prestación como conversacional, como un Asistente de Google o una Alexa de Amazon de nueva generación, en realidad, esta latencia no ayudó a demostrarlo.

Contenido relacionado

« Entradas más antiguas

Codigobonito

Por qué WordPress es la plataforma ideal para tu sitio web

Diseño Web Responsive en 2024: La Evolución Necesaria

Aumenta tu Visibilidad en Google con Estrategias de SEM en 2024