Ollama es una plataforma para ejecutar modelos de lenguaje locales con una experiencia de uso sencilla. Permite descargar, ejecutar y usar modelos como gpt-oss:20b y gpt-oss:120b en tu equipo, sin depender de la nube. La app ofrece interfaz gráfica (GUI) en Windows 11, linux y Mac OS además del tradicional CLI
Modelos disponibles y objetivos
gpt-oss:20b y gpt-oss:120b son modelos open-weight lanzados por OpenAI bajo licencia Apache 2.0, diseñados para razonamiento avanzado, navegación, función de agentes y respuesta estructurada.
Requisitos técnicos
Modelo | Requisitos mínimos | Requisitos recomendados |
---|---|---|
gpt-oss:20b | ~16 GB RAM o VRAM, 13 GB disco | GPU NVIDIA ≥16 GB (RTX 3090, 4080), sistema rápido |
gpt-oss:120b | ~80 GB GPU memoria (A100, H100 o 4×24 GB) | Workstation con GPU ≥ 80 GB, NVLink o PCIe Gen4 |
Ambos modelos | funciona en CPU con menor velocidad | GPU acelera significativamente la inferencia |
El formato MXFP4 reduce el tamaño gracias a la cuantización avanzada, permitiendo que los modelos se ajusten en memoria disponible.
Instalación en Windows, Linux y MacOs
Accede a Ollama.com y descarga el instalador para Windows


Conexión con IDEs y APIs
API local: Ollama expone una API compatible con OpenAI, lo que permite usar el SDK de Python para integrarse con tu flujo de desarrollo.
Visual Studio / VS Code: Puedes usarlo mediante la API local; OpenAI Toolkit y Foundry Local ya integran el modelo en Windows con GPU optimizado.
Android Studio: Indirectamente puedes usarlo mediante scripts o servidor local (Ollama CLI o API HTTP) y consumir respuestas dentro de tu app Android. Aunque no hay integración directa, es viable mediante HTTP requests al servidor local.
Lo bueno y lo malo
** Lo bueno**
Modelos de razonamiento avanzados y accesibles localmente.
Flexibilidad para el desarrollo offline sin depender de la nube.
Soporte multiplataforma (Windows, Mac, Linux).
API compatible con OpenAI facilita integración.
Modelos licencitados de forma permisiva (Apache 2.0) .
** Lo malo**
Requisitos de hardware muy elevados, especialmente el modelo 120B.
Sin GPU, las velocidades son muy bajas (inferior a 10 token/s).
Configuración multi-GPU compleja y costosa.
Falta de integración nativa en IDEs como Android Studio.
Otros modelos con menos requisitos
Además de gpt-oss:20b y gpt-oss:120b, Ollama soporta modelos más pequeños que funcionan incluso en laptops o PCs sin GPU dedicada. Algunos ejemplos:
Modelo | Tamaño aprox. | VRAM/CPU recomendada | Uso recomendado |
---|---|---|---|
LLaMA 3.2 3B | ~2–3 GB | CPU 8 GB RAM | Chat básico, asistentes rápidos, pruebas locales. |
Mistral 7B | ~4 GB | GPU 6–8 GB VRAM o CPU | Traducción, resúmenes cortos, tareas de texto rápidas. |
Gemma 2B | ~1.5 GB | CPU con 4–6 GB RAM | Bots ligeros, prototipado rápido, aplicaciones móviles. |
Phi-3 Mini | ~2.5 GB | CPU o GPU 4 GB VRAM | Tareas de programación y razonamiento simple. |
Estos modelos son ideales para:
Probar Ollama sin invertir en hardware costoso.
Ejecutar IA en entornos de desarrollo móvil o integraciones IoT.
Mantener un consumo energético bajo.
Ollama permite instalar estos modelos con el mismo comando ollama pull
, simplemente cambiando el nombre del modelo, por ejemplo:
ollama pull mistral
ollama run mistral
Conclusión
Ollama, junto con los modelos gpt-oss:20b y gpt-oss:120b, representa una solución potente y accesible para implementar inteligencia artificial sofisticada de forma local. Si bien requiere hardware exigente y cierta configuración, su compatibilidad con Windows, API abierta y potencia de razonamiento lo hacen ideal para desarrolladores que buscan independencia de la nube y flexibilidad en proyectos de IA avanzados.

Ollama – Modelos gpt-oss:20b y gpt-oss:120b

Arte visual con IA: cómo ChatGPT crea imágenes mágicas con un solo clic
