La arquitectura interna de la GPU GeForce RTX 4090 de NVIDIA muestra de lo que es capaz el chip AD102

NVIDIA ha presentado la serie RTX 4000 y presumen de haber creado las tarjetas gráficas más potentes de la historia. Y si bien no tenemos datos concretos que lo demuestren, el cambio de arquitectura nos deja ver el enorme potencial de la nueva generación.
La compañía de tarjetas gráficas, NVIDIA, presentó el pasado día 20 de septiembre la serie RTX 4000. Durante la conferencia vimos las RTX 4090 y 4080 junto a la arquitectura que la da vida: Ada Lovelace. Estas GPU prometen ser las GeForce más potentes de la historia.
Si ya hablamos de todo lo que teníamos que hablar de las RTX 4000: modelos, fecha de lanzamiento, precios, especificaciones... ahora toca el turno de centrarse en su arquitectura, la cual hace únicas a estas tarjetas gráficas.
En el corazón de la GeForce RTX 4090 se encuentra el gigantesco silicio AD102. Construido en un proceso de fabricación de silicio de 4 nm, este chip mide 608 mm² de superficie y contiene 76.300 millones de transistores.
Y lo bueno es que ahora hemos podido echar un mejor vistazo al diagrama de bloques a nivel de silicio del AD102, que incluye la introducción de varios componentes nuevos.
Así la nueva arquitectura de las GeForce de NVIDIA
El AD102 cuenta con una interfaz de PCI-Express 4.0 x16 y una interfaz de memoria GDDR6X de 384 bits. El motor Gigathread actúa como componente principal de asignación de recursos del silicio.
Ada introduce el acelerador de flujo óptico, un componente crucial para que DLSS 3 genere fotogramas enteros sin que intervenga la maquinaria de renderizado de gráficos.
El chip cuenta con el doble de motores de hardware de codificación de medios que Ampere, incluida la codificación/decodificación AV1 acelerada por hardware. Los múltiples aceleradores permiten transcodificar varios flujos de vídeo (genial para los creadores de contenido).

Los principales componentes de renderización de gráficos del AD102 son los GPC (grupos de procesamiento de gráficos). Hay 12 de ellos, frente a los 7 de la generación anterior de GA102. Cada GPC comparte un motor de rasterización y backends de renderizado con seis TPC (clusters de procesamiento de texturas).
Cada TPC contiene dos SM (multiprocesadores de flujo), la maquinaria indivisible de procesamiento de números de la GPU NVIDIA. En el SM es donde NVIDIA realiza la máxima innovación arquitectónica y de donde saca el gran rendimiento que se espera.
Cada SM contiene un núcleo RT de tercera generación, una caché L1 de 128 KB y cuatro TMU, entre cuatro clusters que contienen cada uno 16 núcleos CUDA FP32, 16 núcleos CUDA, 4 unidades de carga/almacenamiento, una diminuta caché L0; un archivo de registros y el importantísimo núcleo tensor de cuarta generación.

Por tanto, cada SM contiene un total de 128 núcleos CUDA, 4 núcleos Tensor y un núcleo RT. Hay 12 SM por GPC, es decir, 1.536 núcleos CUDA, 48 núcleos Tensor y 12 núcleos RT por GPC. Es decir, doce GPCs suman 18.432 núcleos CUDA, 576 núcleos Tensor y 144 núcleos RT.
Luego cada GPC aporta 16 ROPs, por lo que hay la friolera de 192 ROPs en el chip. Una caché L2 sirve de plaza para que las distintas GPC, los controladores de memoria y la interfaz de host PCIe intercambien datos.
NVIDIA no ha mencionado el tamaño de esta caché L2, pero se dice que es significativamente mayor que la de la generación anterior y que desempeña un papel importante a la hora de lubricar el subsistema de memoria lo suficiente como para que NVIDIA pueda mantener la misma tasa de datos de 21 Gbps a 384 bits de la generación anterior.
NVIDIA está introduciendo la reordenación de la ejecución de sombreadores (SER), una nueva tecnología que reorganiza las cargas de trabajo matemáticas para que sean relevantes para cada hilo de trabajo, de modo que sean procesadas con mayor eficacia por los componentes SIMD.

Se espera que esto tenga un impacto especialmente grande en el renderizado de juegos con raytracing. En Cyberpunk 2077, con su nuevo preajuste gráfico Overdrive, que aumenta considerablemente los cálculos de RT por píxel, SER mejora el rendimiento hasta un 44 %.
NVIDIA tiene el difícil trabajo de justificar su nueva generación tras dos años de desabastecimiento, precios altísimos y poca información. Seguramente lanzar estos primeros modelos de la gama alta a precios -oficiales- nunca vistos, no sea la mejor de las ideas.
Otros artículos interesantes:
- NVIDIA lo hace oficial: comienza la campaña de las RTX 4000
- Intel Arc en 50 juegos vs NVIDIA RTX 3060, el resultado no es el que esperábamos
- El futuro ya es una realidad, descubre cómo controlar tu hogar desde tu TV
Descubre más sobre Chema Carvajal, autor/a de este artículo.
Conoce cómo trabajamos en Computerhoy.