Google I/O 2024: las búsquedas en Google ahora admitirán consultas complejas, en video, y con varios niveles de detalle
Un día después del debut de GPT-4o de OpenAI, Google dio inicio a su conferencia de desarrolladores, donde anunció más funciones para su chatbot de inteligencia artificial, Gemini, y su integración con Google; también hubo novedades sobre una mayor presencia de IA en Android
- 9 minutos de lectura'
15:50 | Google se ríe de si misma
En el fin de la presentación, Sundar Pichai hace el chiste de que durante las casi dos horas de presentación, la palabra IA (inteligencia artificial) fue pronunciada 121 veces, como una muestra del foco que la compañía está poniendo en esta área, donde se considera una pionera, pero donde ha tenido que salir a revalidar sus títulos tras la llegada de ChatGPT, Copilot y otras herramientas similares.
No hubo, como en otros años, anuncios de hardware (la compañía mostró el Pixel 8a hace una semana) ni mostró nuevos servicios: la atención estuvo centrada en mostrar cómo está integrando todas las ventajas de la inteligencia artificial generativa en todas sus plataformas.
15:30 | Android alertará ante una estafa telefónica
Gemini también será capaz de monitorear el audio de una conversación telefónica, y podrá alertarnos si parece que nos están intentando estafar; el análisis del audio se hace en el dispositivo, así que no requiere conexión a internet y mantiene nuestra privacidad. El ejemplo que dieron en el escenario no abunda en detalles; una llamada en la que avisan de una actividad extraña en nuestra cuenta bancaria y ofrecen mudar el dinero a otra “más segura”.
Android ya puede detectar y clasificar SMS y números de teléfono como spam, pero en este caso está haciendo un análisis de discurso, algo mucho más complejo, y buscando algunas palabras clave (el número de seguridad social en EE.UU., datos bancarios, etcétera).
Solo funciona con llamadas telefónicas (porque otras llamadas, como las de WhatsApp, están cifradas y el sistema operativo no tiene manera de saber su contenido) y, probablemente, solo con números de teléfono desconocidos; no tendría sentido analizar cada segundo de una llamada con un contacto con el que hablamos a diario. La compañía no dio más detalles, así que habrá que esperar a que publiquen más detalles; por ahora estará limitado a los equipos Pixel.
Thanks to Gemini Nano, @Android will warn you in the middle of a call as soon as it detects suspicious activity, like being asked for your social security number and bank info. Stay tuned for more news in the coming months. #GoogleIO pic.twitter.com/wtc3rrk0Gc
— Google (@Google) May 14, 2024
15:20 | Llega el turno de Gemini en Android
En Google I/O es el turno de Sameer Samat, que explica cómo integrarán Gemini en todos los niveles de Android.
Por ejemplo, Enlazar para buscar (Circle to search), que está disponible en los últimos modelos de Pixel y en los Samsung Galaxy top de los últimos cuatro años, y que llegará a otros dispositivos en los próximos meses (y llegar a los 200 millones de dispositivos a fin de año). Hasta ahora servía sólo para reconocer el contenido de una imagen y generar una búsqueda; ahora podrá reconocer el contenido en pantalla, incluyendo cosas de matemáticas o física, diagramas, etcétera, y ofrecer una guía para -por ejemplo- resolver un problema.
Circle to Search now makes for a great study buddy 📝 You can circle complex physics problems on your phone or tablet to get step-by-step instructions to learn how to solve. #GoogleIO pic.twitter.com/nFFW36BwWo
— Google (@Google) May 14, 2024
De hecho, la compañía explica que la versión de Gemini que vendrá en Android permitirá analizar cualquier texto en pantalla, o un PDF, dentro del teléfono, e incluso responder preguntas sobre un video que se está reproduciendo, y dar una respuesta educativa -con pasos- antes que una solución directa.
15:15 | Un verdadero asistente personal
Google dice que la nueva versión de Gemini, disponible en los próximos meses, tiene varias virtudes, incluyendo la posibilidad de interrumpir su respuesta para modificarla si no estamos contentos con ella (o si está respondiendo a otra cosa); también, generar “Gemas”, que son rutinas predefinidas para que Gemini haga una tarea repetitiva (aplicar tal filtro a tal contenido) y ahorrarle tiempo al usuario. También, una nueva herramienta para planear las vacaciones, muy orientada al hemisferio norte, capaz de generar un itinerario personalizado a partir de un pedido más o menos específico.
La compañía también insiste en algo que es obvio, pero que es fundamental para su futuro: no hay una única manera de hacer una consulta (en Google, ChatGPT, etcétera), terminando con el concepto de “prompt engineer” que ha surgido en el último año.
15:02 | Gemini en Workspace
Mientras sigue la presentación, Google muestra cómo Workspace, su suite corporativa, puede aprovechar Gemini para cruzar todos los datos que un usuario tiene en los diferentes servicios (mail, documentos, etcétera), para ofrecer respuestas específicas a consultas concretas dentro de la plataforma, similar al Copilot de Microsoft (buscar datos en la bandeja de entrada, combinarlos, generar una planilla, responder una consulta compleja, etcétera).
14:43 | Google no se olvida de las búsquedas
Gemini, el motor de inteligencia artificial generativa de la compañía, también está integrado en las búsquedas, que fueron fundamentales para la compañía que nació hace un cuarto de siglo. Las búsquedas de Google ahora tienen un resultado generado a pedido para cada búsqueda (AI Overviews) que están disponibles para EE.UU. desde hoy, y a más de mil millones de personas en los próximos meses. La compañía suma un concepto nuevo: “investigación de pasos múltiples” para hacer consultas encadenadas sobre un tema, con diversos niveles de complejidad. Si no sabemos exactamente qué estamos buscando, la compañía generará una página de resultados con múltiples alternativas para ayudarnos con lo que estamos investigando (y que podemos no haber tenido en cuenta).
Google también permitirá hacer búsquedas desde video: como ya tiene Enlazar para buscar (que usa el reconocimiento de imágenes para Google Lens, y que está en los últimos teléfonos de Samsung y Google), pero ahora se puede hacer también con video: el clásico “por qué pasa esto”, cuando no sabemos el nombre de las cosas, pero que hasta ahora estaba limitado a imágenes o texto. Puede ser la salvación (o la perdición) de los ferreteros, mecánicos y más.
And you’ll also be able to ask questions with video, right in Search. Coming soon. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) May 14, 2024
Así es todo lo que Google ofrecerá en las búsquedas en los próximos meses:
Gemini Live, por ejemplo, será una forma de usar el asistente en vivo, con la cámara de video (es decir, será capaz de reconocer lo que toma la cámara del teléfono, responder a lo que, actuar por contexto, y más).
14:29 | Gemini 1.5 Flash, la respuesta a GPT-4o
Google presenta Gemini 1.5 Flash (también llamado Project Astra), una nueva versión que funciona como un asistente: es una versión de Gemini (que ya puede reemplazar al Asistente de Google) pero que funciona más rápido con una mayor compresión del contexto en el que está el usuario, con una voz más natural y con un reconocimiento de contenido tomado por una cámara en tiempo real.
Es una especie de Google Lens, pero que funciona en tiempo real, y sobre lo que le está ofreciendo la cámara del teléfono; la compañía lo mostró funcionando también en unos anteojos similares a los Ray Ban de Meta, que permiten interactuar con la inteligencia artificial con voz y video, y en función de lo que captan, en tiempo real, lo que captan las cámaras del dispositivo.
La compañía también reveló un nuevo motor de generación de imágenes y videos a partir de una descripción, llamada Veo.
We put our cutting-edge video generation model Veo in the hands of filmmaker @DonaldGlover and his creative studio, Gilga.
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Let’s take a look. ↓ #GoogleIO pic.twitter.com/oNLDq1YlHC
14:16 | Generar un audio personalizado para estudiar
En otra demo, la compañía mostró como Gemini generó, en NotebookLM, una lección sobre física para un chico con dos voces muy naturales (al nivel de GPT-4o) que modificaban lo que decían en función de las preguntas de los alumnos; es lo más cercano, hasta ahora, que la compañía ha mostrado que se acerca a lo que anunció ayer OpenAI (en ambos casos, la incógnita está en cuánto alucinarán, es decir, cómo controlarán los errores en los que siempre caen estos sistemas).
14:13 | Gemini en Google Workspace
Sundar Pichai ahora habla de Google Workspace (la suite corporativa de la compañía) y cómo puede, por ejemplo, hacer un resumen de todo lo que contienen los últimos mensajes de un remitente específico o de una conversación, lo que permite ponernos al día.
Se vienen contextos de 2 millones de tokens, eso significa que puede procesar unas 2000 páginas de texto, 2 horas de video o 22 horas de audio de una sola vez y responder preguntas sobre ello. pic.twitter.com/czRqFZx27h
— Maximiliano Firtman (@maxifirtman) May 14, 2024
14:07 | Ask Photos
Google sumará a Gemini a Google Photos, por lo que será posible hacer una consulta compleja en la aplicación de fotos: por ejemplo, pedirle que nos brinde un dato específico que aparece en alguna foto: cuándo aprendió a nadar nuestra hija, o cuál es nuestra patente, en los ejemplos que ofreció Sundar Pichai. Estará disponible en nuestro invierno, primero en inglés. Hasta ahora se podían buscar algunos tipos de fotografías (atardeceres, partidos de fútbol, mascotas, etcétera). Esto permite búsquedas más complejas sobre contenido que no fue definido de antemano.
13:59 | Comienza el Google I/O 2024
Con la presencia en el escenario de Sundar Pichai, el CEO de Google, comienza el Google I/O. Primero, con un video en el que la compañía repasa las novedades del último año, muy focalizada en inteligencia artificial, y en habilitar su uso para todo el mundo. Pichai recuerda que la compañía está en el rubro de la inteligencia artificial hace más de una década, y que su modelo Gemini es multimodal (como el GPT-4o anunciado ayer), es decir, que es capaz de entender texto, imágenes, videos y audio. Dice que 1,5 millones de desarrolladores usan Gemini para alguna tarea o aplicación, y que lo usan -de una u otra forma- los 2000 millones de usuarios que tiene la compañía. La compañía dice que habilitará las respuestas enchuladas por IA que presentó el año pasado, y que estaban en beta, a todos los usuarios de EE.UU., con otros países más adelante.
13:40 | La transmisión en vivo, en YouTube
13:30 | Los grandes ejecutivos, presentes
Sameer Samat, el responsable del equipo de producto y diseño de Android, será uno de los speakers de la conferencia inicial. En la foto está con Davey Burke, otro alto ejecutivo responsable de la plataforma Android.
The atmosphere at Shoreline for Google I/O is unreal! I'm blown away by what our teams have accomplished. We’re just 45 minutes away from the keynote – you won't want to miss it! #GoogleIO #Android #Developers @davey_burke pic.twitter.com/a8vqDvzLcO
— Sameer Samat (@ssamat) May 14, 2024
12:30 | ¡Una referencia a ChatGPT?
Un rato después de que OpenAI mostrara su nuevo modelo de IA con una interacción por voz muy natural, GPT-4o, Google publicó este tuit, donde se escucha la voz de Gemini (el nuevo asistente de Google, basado en inteligencia artificial generativa, que ya funciona en el país), con una mayor capacidad para generar un diálogo más natural con sus usuarios, y una mayor comprensión del entorno (en este caso, el escenario del Google I/O 2024, el Shoreline Theater junto al campus de Google en California).
One more day until #GoogleIO! We’re feeling 🤩. See you tomorrow for the latest news about AI, Search and more. pic.twitter.com/QiS1G8GBf9
— Google (@Google) May 13, 2024
12:13 | Un nuevo I/O
Como todos los años, Google da inicio hoy al I/O, su conferencia anual de desarrolladores, donde dará más detalles sobre sus servicios: las búsquedas, la nueva versión de Android y, por supuesto, todo lo relacionado con Gemini, su inteligencia artificial; el anuncio de hoy genera expectativa, además, por los anuncios de ayer de OpenAI, cuando mostró la ductilidad verbal de su nueva versión, GPT-4o.
Otras noticias de Internet
Más leídas de Tecnología
Similares a los Ray-ban de Meta. Samsung tendrá su línea de anteojos inteligentes en 2025
Cuidado. Qué significa quitar la foto de perfil en WhatsApp, según un psicólogo
Auto clásico. Cómo se vería el histórico Dodge GTX modelo 2025, según la IA
Según la IA. Los suplementos naturales que pueden mejorar tu digestión