Ver lo que estás viendo: el modo de voz avanzado de ChatGPT ahora puede analizar la información en una pantalla compartida o lo que captura la cámara

OpenAI habilitó una función adicional para su chatbot de voz, que permite charlar con la IA y que esta pueda responder sobre algo que tenemos en pantalla o que estamos enfocando con la cámara del celular

13 de diciembre de 2024
12:41
3 minutos de lectura'

Joaquin Phoenix protagoniza la película Her (Archivo)

OpenAI ha anunciado una nueva característica para el Modo de voz avanzado de ChatGPT, que va a integrar el procesamiento de video en tiempo real, lo que permitirá a su chatbot ofrecer respuestas más concretas a las solicitudes de los usuarios según su contexto y lo que pueda identificar a través de las cámaras del dispositivo.

La compañía anunció hace una semana que inauguraría una serie de 12 días de novedades, en la que ya ha anunciado el lanzamiento del modelo de Inteligencia Artificial (IA) o1, un nuevo nivel de ChatGPT Pro y la disponibilidad general de la herramienta de video Sora.

En estas sesiones, también ha hecho referencia al Modo de voz avanzado, una funcionalidad que anunció con la presentación de su modelo GPT-4o y que permite elegir entre una serie de voces para personalizar la interacción con el chatbot.

Demo de la IA GPT-4o con dos instancias de ChatGPT dialogando entre ellas

Si bien esta característica se iba a probar con un grupo de usuarios en julio, OpenAI anunció que retrasaba su lanzamiento para seguir probando su fiabilidad. Así, fue en septiembre cuando finalmente la empezó a implementar para los usuarios suscritos a la versión Plus y Teams, aunque quedaron excluidos los de la Unión Europea, Suiza, Islandia, Liechtenstein y Noruega.

Video para charlar como si fuera una persona

La compañía ahora ha anunciado la incorporación de la entrada de video en el Modo de voz avanzado, lo que permitirá al modelo multimodal procesar en tiempo real las imágenes, así como acceder a las aplicaciones que se estén utilizando en el dispositivo mediante la opción ‘Share Screen’ o ‘Compartir pantalla’.

Como resultado de esta integración, “las conversaciones con Modo de voz avanzado tendrán un ritmo mucho más natural” y podrá profundizar en aspectos como el ritmo o el tono de la voz en más de 50 idiomas, según han explicado los responsables de la firma en un video.

Gracias a esta funcionalidad, que se puede utilizar bien con la cámara delantera o bien con la trasera, ChatGPT podrá indicar a una persona cuáles son los pasos que debe dar para preparar un café con los elementos que identifique y que estén situados frente al objetivo.

Asimismo, con ‘Compartir Pantalla’, el usuario podrá solicitar al chatbot ayuda para ejecutar acciones. Por ejemplo, para responder a un mensaje desde la aplicación de Mensajes del smartphone, de modo que le dará las indicaciones pertinentes para contestar con el tono elegido.

Santa Claus en ChatGPT

OpenAI ha confirmado que llevará esta función a Europa “tan pronto como pueda” y que ofrecerá acceso anticipado a suscriptores de los planes Enterprise y Edu antes de 2025. Asimismo, ha anunciado que ha personalizado el Modo de voz avanzado de ChatGPT con un modo Papá Noel con motivo de las fiestas de Navidad.

El modo Santa Claus se puede activar durante todo el mes de diciembre pulsando sobre el icono de un copo de nieve, que aparece junto a la barra de mensajes, o bien a través de la Configuración de voz. Esta característica funciona en aplicaciones móviles, iOS, Android y la versión web de ChatGPT.

The Trust Project

Claude predijo al ganador del duelo del Clásico Mundial 2026

Venezuela vs. República Dominicana. Claude predijo al ganador del duelo del Clásico Mundial 2026

El argentino que se reunió con Elon Musk advierte sobre el futuro de la IA

De Lanús a Silicon Valley. El argentino que se reunió con Elon Musk advierte sobre el futuro de la IA

La advertencia del FMI sobre la contaminación que genera la IA

“Está devorando la electricidad”. La advertencia del FMI sobre la contaminación que genera la IA