Proyecto Astra: Nuestra visión del futuro de los asistentes de inteligencia artificial
Gemini abre nuevos horizontes con un modelo más rápido, un contexto más extenso, agentes de inteligencia artificial y mucho más
Hoy estamos emocionados de presentar una serie de actualizaciones en toda la familia de modelos Gemini. Entre estas novedades, se encuentra el nuevo 1.5 Flash, un modelo ligero diseñado para ofrecer velocidad y eficiencia, así como el Proyecto Astra, nuestra visión del futuro para los asistentes de inteligencia artificial.
En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Apenas unos meses después, introdujimos 1.5 Pro, que trae mejoras significativas en el rendimiento y una innovadora ventana de contexto largo que puede manejar hasta 1 millón de tokens.
Los desarrolladores y clientes empresariales han estado utilizando 1.5 Pro de maneras sorprendentes, apreciando especialmente su capacidad para manejar grandes cantidades de información y su potente rendimiento general. Sus capacidades de razonamiento multimodal y su larga ventana de contexto han resultado ser extremadamente útiles.
Sabemos, gracias a los comentarios de nuestros usuarios, que algunas aplicaciones requieren una latencia más baja y un menor costo de servicio. Esto nos ha inspirado a seguir innovando, y hoy estamos orgullosos de presentar Gemini 1.5 Flash: un modelo más ligero que 1.5 Pro, diseñado para ser rápido y eficiente, ideal para su uso a gran escala.
Tanto 1.5 Pro como 1.5 Flash están disponibles en versión preliminar pública con una ventana de contexto de 1 millón de tokens en Google AI Studio y Vertex AI. Además, 1.5 Pro ahora también está disponible con una ventana de contexto de 2 millones de tokens a través de una lista de espera para desarrolladores que utilicen la API y para clientes de Google Cloud.
Además de estas actualizaciones, estamos encantados de anunciar la próxima generación de modelos abiertos, Gemma 2, y compartir nuestros avances en el futuro de los asistentes de IA con el Proyecto Astra.
Actualizaciones en la familia de modelos Gemini
Presentamos Flash 1.5, optimizado para velocidad y eficiencia
1.5 Flash es la nueva incorporación a la familia de modelos Gemini y es el modelo más rápido disponible en la API. Este modelo ha sido optimizado para tareas de gran volumen y alta frecuencia, ofreciendo un servicio más rentable y presentando nuestra innovadora ventana de contexto largo.
A pesar de ser un modelo más ligero que el 1.5 Pro, 1.5 Flash es altamente capaz de realizar razonamiento multimodal con grandes cantidades de información, ofreciendo una calidad impresionante para su tamaño.
1.5 Flash se destaca en tareas como resúmenes, aplicaciones de chat, subtítulos para imágenes y vídeos, extracción de datos de tablas y documentos extensos, y mucho más. Esto es posible gracias a un proceso llamado «destilación», en el que los conocimientos y habilidades más esenciales de un modelo más grande se transfieren a un modelo más pequeño y eficiente.
Pronto compartiremos más detalles sobre 1.5 Flash en un informe técnico actualizado de Gemini 1.5.
Mejoras significativas en 1.5 Pro
En los últimos meses, hemos trabajado intensamente para mejorar 1.5 Pro, nuestro modelo más avanzado en términos de rendimiento general para una amplia gama de tareas.
Además de ampliar su ventana de contexto a 2 millones de tokens, hemos mejorado su capacidad para generar código, su razonamiento y planificación lógicos, la conversación en múltiples turnos y la comprensión de audio e imágenes, gracias a nuevos datos y avances algorítmicos. Hemos observado mejoras significativas en nuestros puntos de referencia tanto públicos como internos para cada una de estas tareas.
1.5 Pro ahora es capaz de seguir instrucciones cada vez más complejas y detalladas, incluyendo aquellas que especifican comportamientos a nivel de producto en términos de función, formato y estilo. Hemos mejorado el control sobre las respuestas del modelo para casos de uso específicos, como la creación de la personalidad y el estilo de respuesta de un agente de chat o la automatización de flujos de trabajo a través de múltiples llamadas a funciones. También hemos permitido a los usuarios controlar el comportamiento del modelo configurando instrucciones del sistema.
Hemos añadido comprensión de audio en la API de Gemini y en Google AI Studio, lo que permite a 1.5 Pro analizar imágenes y audio para vídeos cargados en Google AI Studio. Además, estamos integrando 1.5 Pro en productos de Google, como Gemini Advanced y en aplicaciones de Workspace.
Próximamente habrá más detalles en nuestro informe técnico actualizado de Gemini 1.5.
Gemini Nano amplía su capacidad con entradas multimodales
Gemini Nano está evolucionando para ir más allá de las entradas de texto y ahora también incluirá imágenes. A partir de la integración con Pixel, las aplicaciones que utilicen Gemini Nano con capacidades multimodales podrán entender el mundo de una manera similar a cómo lo hacen las personas, no solo a través del texto, sino también mediante la vista, el sonido y el lenguaje hablado.
Próxima generación de modelos abiertos
Hoy también queremos compartir una serie de actualizaciones sobre Gemma, nuestra familia de modelos abiertos desarrollados a partir de la misma investigación y tecnología utilizada para crear los modelos Gemini.
Nos complace anunciar Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable en IA. Gemma 2 presenta una nueva arquitectura diseñada para lograr un rendimiento y una eficiencia innovadores, y estará disponible en nuevos tamaños.
Además, la familia Gemma se está expandiendo con PaliGemma, nuestro primer modelo de visión y lenguaje inspirado en PaLI-3. También hemos actualizado nuestro kit de herramientas de IA generativa responsable con el LLM Comparator, una herramienta para evaluar la calidad de las respuestas del modelo.
Progreso en el desarrollo de agentes universales de IA
Como parte de la misión de Google DeepMind de crear IA de manera responsable para beneficiar a la humanidad, siempre hemos tenido el objetivo de desarrollar agentes de IA universales que sean útiles en la vida cotidiana. Por eso, hoy compartimos nuestros avances en la construcción del futuro de los asistentes de IA con el Proyecto Astra, un agente avanzado con capacidad de ver y hablar.
Para ser verdaderamente útil, un agente necesita comprender y responder al mundo complejo y dinámico de la misma manera que lo hacen las personas, asimilando y recordando lo que ve y oye para comprender el contexto y tomar decisiones. Además, debe ser proactivo, fácil de enseñar y personal, para que los usuarios puedan interactuar con él de forma natural y sin retrasos.
Aunque hemos logrado avances notables en el desarrollo de sistemas de inteligencia artificial que pueden comprender información multimodal, reducir el tiempo de respuesta a niveles conversacionales sigue siendo un desafío técnico importante. En los últimos años, hemos trabajado para mejorar la forma en que nuestros modelos perciben, razonan y conversan, de modo que el ritmo y la calidad de la interacción sean lo más naturales posible.
Basándonos en Gemini, hemos desarrollado prototipos de agentes que pueden procesar información más rápidamente al codificar de forma continua cuadros de video, combinando la entrada de video y voz en una línea de tiempo de eventos y almacenando esta información en caché para recuperarla de manera eficiente.
También hemos mejorado su capacidad para emitir sonidos más naturales, proporcionando a los agentes una gama más amplia de entonaciones. Estos agentes pueden comprender mejor el contexto en el que se utilizan y responder de forma más rápida y adecuada durante una conversación.
Con esta tecnología, es fácil imaginar un futuro en el que las personas puedan tener un asistente de IA experto a su lado, accesible a través de un teléfono o unas gafas inteligentes. Algunas de estas capacidades llegarán a los productos de Google, como la aplicación Gemini y la experiencia web, a finales de este año.
https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/?utm_source=yt&utm_medium=social&utm_campaign=io24#gemini-model-updates