NVIDIA ha colaborado con OpenAI para mejorar la optimización de sus nuevos modelos gpt-oss de código abierto. Como fruto de esa colaboración, estos modelos se pueden ejecutar sin problema, y de forma local, en tarjetas gráficas GeForce RTX y NVIDIA RTX Pro.
No es la primera vez que el gigante vender apuesta por la ejecución de modelos de IA en local. Este tipo de soluciones tienen muchas ventajas, las más importantes son la privacidad, ya que todo lo que hacemos con los modelos de IA queda dentro de nuestro equipo, y de nuestra empresa si nos movemos en un escenario profesional, y la independencia frente a proveedores externos de servicios.
OpenAI ha lanzado dos nuevos modelos, gpt-oss-20b, que trabaja con 20.000 millones de parámetros, y gpt-oss-120b, que trabaja con casi 120.000 millones de parámetros. Como ya sabrán muchos de nuestros lectores una mayor cantidad de parámetros equivale a una IA más precisa y capaz, pero también dispara los requisitos a nivel de hardware.
Ejecutar un modelo de 120.000 parámetros de forma local no es nada sencillo, recordad que hasta hace relativamente poco los modelos con 7.000 millones de parámetros nos parecían «sorprendentes», así que imaginad de lo que es capaz un modelo con casi trece veces más parámetros.
Ambos modelos pueden trabajar con hasta 131.072 tokens a modo de contexto, lo que los convierte en dos modelos mayor capacidad de contextualización que existen actualmente si hablamos de ejecución en local, obviamente.
OpenAI gpt-oss-20b alcanza los 256 tokens por segundo en una GeForce RTX 5090
Esos son los datos de rendimiento oficiales que ha compartido NVIDIA con su actual tope de gama en consumo, la GeForce RTX 5090. Se recomienda contar con una tarjeta gráfica GeForce que cuente con 24 GB de memoria gráfica, pero también podremos ejecutar este modelo en tarjetas gráficas con 16 GB de VRAM utilizando MXFP4, un tipo de precisión que permite utilizar modelos de alta calidad consumiendo menos recursos.
Si quieres probar el modelo gpt-oss-20b, que como dijimos puede trabajar con 20.000 millones de parámetros, la forma más sencilla y más recomendable es utilizar la nueva aplicación de Ollama, que tiene soporte totalmente optimizado para tarjetas gráficas GeForce RTX, aunque necesitarás una GPU con 24 GB de VRAM.
En caso de que no cuentes con una tarjeta gráfica que tenga 24 GB de VRAM tranquilo, porque como dijimos también puedes probar este modelo en una gráfica de 16 GB.
Para ello puedes recurrir a Llama.ccp, una solución de código abierto que cuenta con el apoyo y la colaboración de NVIDIA, y que junto con la librería tensor GGML ofrece un alto grado de optimización y un excelente rendimiento con GPUs GeForce y NVIDIA RTX. Otra alternativa muy sencilla y asequible es Microsoft AI Foundry Local.
Por ejemplo, utilizando MXFP4 con este modelo bajo una GeForce RTX 5080, que tiene 16 GB de VRAM, podemos conseguir unos 170 tokens por segundo, y con una GeForce RTX 5060 Ti de 16 GB superaremos los 100 tokens por segundo.
El modelo gpt-oss-120b tiene unos requisitos más elevados y consume una mayor cantidad de memoria gráfica, lo que lo convierte en una opción orientada a las tarjetas gráficas NVIDIA RTX 6000. Según OpenAI, este modelo puede funcionar en tarjetas gráficas que tengan al menos 60 GB de memoria VRAM, y logra un funcionamiento eficiente a partir de los 80 GB.
Una NVIDIA RTX 6000, que tiene 96 GB de memoria GDDR7, sería capaz de mover el modelo gpt-oss-120b sin ningún tipo de problema en local.
La entrada Ya puedes ejecutar los nuevos modelos de OpenAI en local con tu GeForce RTX se publicó primero en MuyComputer.