Correr modelos de IA localmente tiene ventajas reales: privacidad total, cero costo de API, disponibilidad offline y experimentación sin límites. En 2026 la calidad de los modelos open source alcanzo a los modelos propietarios de hace 2 anos, lo que es más que suficiente para muchos casos de uso. Herramienta base: Ollama es el gestor de modelos más simple para macOS, Linux y Windows. Un solo comando instala y corre cualquier modelo: ollama run llama3.3. Expone una API REST local en puerto 11434, compatible con la API de OpenAI, lo que facilita migrar proyectos existentes. Llama 3.3 de Meta (70B parámetros): El modelo de referencia de la comunidad open source. Excelente en ingles, razonamiento y código. Requisito mínimo: 40GB RAM para versión completa. versión cuantizada Q4: unos 20GB RAM. En Mac M2 Pro o M3 con memoria unificada corre fluidamente. Para laptops con 16GB RAM, usar la versión de 8B parámetros. Mistral Small 3.1 (7B): Increible rendimiento para su tamano. Corre en laptops con 8GB RAM (versión Q4 cuantizada ocupa unos 4.5GB). Muy bueno para extracción de datos, clasificación y resumen. Velocidad: 20-40 tokens por segundo en Apple Silicon. DeepSeek R2 Lite (16B): Especializado en razonamiento matematico y cientifico. El pensamiento paso a paso esta integrado nativamente. Requiere unos 10GB RAM con cuantización Q4. Especialmente útil para análisis estructurado y resolución de problemas complejos. Gemma 3 de Google (9B): El mejor modelo de Google disponible localmente. Multilingue nativo con soporte solido para español. Unos 6GB RAM con Q4. Ideal para aplicaciones en idiomas no ingleses. recomendación por hardware disponible: Con 8GB RAM usar Mistral 7B o Gemma 3 9B en Q4. Con 16GB RAM usar Llama 3.3 8B o DeepSeek R2 Lite. Con 32GB o más (Mac M2 o M3) usar Llama 3.3 70B Q4 o modelos completos sin cuantizar.