¿Qué es Google Gemini y por qué promete revolucionar el campo de la inteligencia artificial?

Foto del redactor Carolina González Valenzuela

Redactora de Tecnología

31 dic. 2023 8:15h.

Google ha querido cerrar el año por todo lo alto presentando su último modelo de lenguaje al estilo GPT-4 con nombre Gemini.
Este es de forma nativa multimodal, lo que le da el potencial de transformar cualquier tipo de entrada en cualquier tipo de salida. Además, cuenta con tres tipos de modelo diferente, Ultra, Pro y Nano.
La inteligencia artificial ya puede detectar si ese Louis Vuitton que compras es verdadero.

El año 2023 será recordado como un punto de inflexión en la historia de la inteligencia artificial, donde la competencia entre gigantes y startups ha finalizado con la llegada de Google Gemini.

Lo cierto es que esta gran compañía durante 2023 se ha quedado algo rezagada en este campo pese a grandes lanzamientos como Google Bard, pero parece que tenía reservada una última sorpresa para el final.

Gemini se presenta como una familia de modelos que prometen superar incluso al renombrado GPT-4 en diversos aspectos, especialmente en la integración multimodal. Puede generar y procesar texto, imágenes y otros tipos de datos como gráficos y mapas.

Sin embargo, y por muy impresionantes que puedan parecer estas herramientas hoy en día, Google cree que están lejos de maximizar todo el potencial de la tecnología. Entonces, en este artículo, se analizará lo que el gigante de las búsquedas pretende lograr con Gemini, cómo funciona y por qué indican que será el futuro de la IA.

¿Qué es Google Gemini?
Estará disponible en tres modelos
Gemini frente a GPT-4: ¿cómo se compara?

¿Qué es Google Gemini?

Gemini es un nuevo y potente modelo de inteligencia artificial de Google, al estilo GPT-4 que, al igual que este, no se puede acceder directamente. Más bien, actúa como una base que Google y, en última instancia, otros desarrolladores pueden utilizar para crear productos sobre ella. Por ejemplo, GPT-4 ha servido para crear un ChatGPT más potente. Con Gemini ocurre lo mismo.

Según Dennis Hassabis, director ejecutivo y cofundador de Google DeepMind, "fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video".

Puede comprender no solo texto, sino también imágenes, vídeos y audio. Como modelo multimodal, Gemini se describe como capaz de completar tareas complejas en matemáticas, física y otras áreas, además de comprender y generar código de alta calidad en varios lenguajes de programación.

Si bien esto por sí solo no es algo que llame demasiado la atención, ya que actualmente se cuenta con modelos similares, la versatilidad de Gemini es un factor clave porque es más que un solo modelo y puede ejecutarse en todo, desde centros de datos hasta móviles.

Se lanzó el 6 de diciembre con demostraciones que le muestran escribiendo código, explicando problemas matemáticos, encontrando similitudes entre dos imágenes, convirtiendo imágenes en código, entendiendo emojis y más, aunque es cierto que hubo polémicas acerca de cuanto se habían falsificado estas pruebas.

Estos son los mejores móviles de Google que puedes comprar

Estará disponible en tres modelos

Google describe a Gemini como un modelo flexible que es capaz de ejecutarse en todo, desde los centros de datos de Google hasta dispositivos móviles. Para lograr esta escalabilidad, Gemini se lanza en tres tamaños: Gemini Nano, Gemini Pro y Gemini Ultra.

1. Gemini Nano: el tamaño del modelo Gemini Nano está diseñado para ejecutarse en smartphones, específicamente Google Pixel 8. Está diseñado para realizar tareas en el dispositivo que requieren un procesamiento eficiente de IA sin conectarse a servidores externos, como sugerir respuestas dentro de aplicaciones de chat o resumir texto.

La ventaja de que todo se quede en tu móvil y no vaya a servidores externos es esa privacidad y seguridad de la que muchos hablan al referirse a estas herramientas de IA. Sin embargo, no esperes la misma velocidad de respuesta y es cierto que consumen bastante batería y espacio de almacenamiento.

2. Gemini Pro: Gemini Pro, que se ejecuta en los centros de datos de Google, está diseñado para impulsar la última versión del chatbot de inteligencia artificial de la compañía, Bard. Es capaz de ofrecer tiempos de respuesta rápidos y comprender consultas complejas. En este caso se elimina el anterior modelo, que era PaLM 2, para dar la bienvenida a Gemini Pro.

He probado Gemini en Bard: la IA de Google aún es perezosa y comete errores, pero tiene gran potencial

Google Bard IA inteligencia artificial Gemini Pro prueba

3. Gemini Ultra: aunque todavía no está disponible para un uso generalizado, Google describe a Gemini Ultra como su modelo más capaz, superando los "resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación de modelos de lenguaje grande (LLM) y desarrollo."

Está diseñado para tareas altamente complejas y se lanzará después de finalizar su fase actual de prueba —se espera de cara a principios de 2024—.

Aparte de todo esto, la capacidad de razonar y la precisión son dos de los factores más importantes que hacen que un modelo de IA sea "bueno", pero esas cualidades prácticamente no tienen sentido si no van acompañadas de controles de seguridad adecuados.

Con ese fin, Google dice que empleó “las mejores técnicas de prueba adversativas” para identificar problemas de seguridad antes de implementar Gemini. La compañía dice que implementó controles y creó clasificadores de seguridad específicos para ayudar a su modelo a mantenerse alejado de problemas como prejuicios, toxicidad y lanzar contenido que fomente la violencia.

Gemini frente a GPT-4: ¿cómo se compara?

Al comparar Gemini con GPT-4, que se esconde detrás del ChatGPT más potente, muchos expertos hablan de parámetros. Los parámetros en un sistema de inteligencia artificial son las variables cuyos valores se ajustan o sintonizan durante la etapa de entrenamiento y que la IA usa para transformar los datos de entrada en salida.

A grandes rasgos, aunque no siempre es así —a veces es mejor calidad que cantidad—, cuantos más parámetros tiene una IA, más sofisticada es. GPT-4, la IA más avanzada en funcionamiento, tiene 1,75 billones de parámetros. Por el contrario, se informa que Gemini supera este número, aunque no hay datos oficiales.

Pero el poder de un sistema de IA no se trata solo de una gran cantidad de parámetros. Un estudio de SemiAnalysis asegura que Gemini "aplastará" GPT- 4. Anticipa que para finales de 2023, Gemini podría ser hasta 20 veces más poderoso.

Con todo esto, no cabe duda de que Google está alimentando a Gemini como si fuese una bestia voraz y espera que crezca hasta convertirse en la columna vertebral de toda la inteligencia de IA incorporada e integrada en cada producto y servicio de Google.

Carolina González Valenzuela

Redactora de Tecnología

Redactora de Tecnología, especializada en inteligencia artificial y ciberseguridad.

Otros artículos interesantes:

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Smartphones, Inteligencia artificial, Vídeo, Datos, Software, Ciberseguridad