Opensource AI

ollama run gemma:2b-instruct ollama run llama3.2:1b ollama run tinyllama

No uses llama de Facebook porque aunque es opensource. Facebook es una empresa rent-seeking, en cualquier momento cambian las reglas no son confiables. Usa los modelos chinos.

Tienes razón en desconfiar, y ahí radica la polémica. La frase “Open Source” en IA es un término que se está usando de forma tramposa.

Vamos a aclarar el enredo:

1. La verdad sobre Llama (Facebook)

Llama SÍ libera los “pesos” (weights). Si te bajas Llama 3, te bajas un archivo gigante (los pesos) que te permite correr el modelo en tu PC. Técnicamente, puedes usar ollama run llama3 sin problemas.

¿Entonces cuál es el problema? El problema es la LICENCIA (Legal). Aquí es donde George Hotz y los puristas se enfadan. Facebook libera los pesos, pero con un contrato legal muy específico (la “Llama Community License Agreement”).

Restricción comercial: La licencia dice algo así como: “Puedes usar esto gratis, pero si tu app tiene más de 700 millones de usuarios mensuales, tienes que pedirnos permiso (y seguramente pagar)”.
Restricción de entrenamiento: La licencia prohíbe usar los resultados de Llama para entrenar otros modelos de IA (para que no le robes su “secreto”).

Conclusión: Llama es “Open Weights” (Pesos Abiertos), pero NO es “Open Source” (Código Abierto) de verdad. No puedes hacer lo que quieras con él legalmente. Facebook lo usa como marketing: dicen que es “abierto” para que los desarrolladores se acostumbren y se encierren en su ecosistema, pero siguen manteniendo el control.

2. ¿Por qué los modelos chinos son mejores en este aspecto?

Aquí está la diferencia clave por la que Hotz prefiere a los chinos (Qwen, DeepSeek):

Muchos de estos modelos chinos usan licencias estándar de la industria como Apache 2.0 o MIT.

Apache 2.0 (Usada por Qwen/DeepSeek): Significa que puedes hacer LITERALMENTE LO QUE QUIERAS.
- ¿Quieres usarlo en una app con 10.000 millones de usuarios? Adelante.
- ¿Quieres usar el modelo para entrenar otro modelo y venderlo? Adelante.
- ¿Quieres modificarlo y no compartir los cambios? Adelante.

3. El argumento de George Hotz

Hotz dice que los modelos chinos ven la IA como una “Utilidad Pública” (como la electricidad).

A China (y a empresas como Alibaba/DeepSeek) les interesa que el software sea gratis y abierto para que la gente use su hardware (chips) y su infraestructura. Su negocio no es cobrarte por el modelo, es que el modelo exista para vender la capa de abajo.

En cambio, Facebook (Meta) es una empresa de “Rent Seeking” (búsqueda de renta/extracción). Su negocio es encerrarte. Te dan el modelo “abierto” hoy, pero mañana cambian las reglas o te ponen barreras si te vuelves demasiado grande.

Resumen para ti

Facebook (Llama): Te presta el modelo. Es como alquilar una casa: puedes vivir ahí, pero el dueño sigue siendo Zuckerberg y pone reglas.
Chinos (Qwen/DeepSeek): Te regalan el modelo (Licencia Apache). Es como que te den la escritura de la casa. Es tuya, haz lo que quieras.

Por eso, para un hacker o alguien que quiere soberanía total sobre sus herramientas, los modelos chinos (DeepSeek, Qwen) son éticamente y legalmente superiores.

Z.ai, Qwen, MiniMax, and Kimi models are only 6-12 months behind. And everyone in the world is rooting for the Chinese models, not closed source rent seeking from the USA. Because nobody wants the continuation of rent-seeking billionaires. The status quo is cooked. It’s time to flip the table, not rearrange the seats.

Entendido. Nada de interfaz gráfica, todo por terminal, directo al grano y optimizado para ArchLinux. He verificado los paquetes y los modelos disponibles para que no pierdas tiempo.

La herramienta estándar en Arch para esto es Ollama. Corre como un servicio en segundo plano y te permite descargar y correr modelos con un solo comando.

Aquí tienes los pasos exactos:

1. Preparación de Drivers (GPU)

Si tienes tarjeta gráfica (NVIDIA), es obligatorio tener los drivers propietarios para que la IA no vaya lenta (usando CPU).

Ejecuta en la terminal:

sudo pacman -S nvidia nvidia-utils

Si no tienes GPU o quieres usar solo el procesador (CPU), salta este paso, pero será más lento.

2. Instalación de Ollama

En ArchLinux, el paquete está en los repositorios oficiales. No uses scripts de internet, usa pacman:

sudo pacman -S ollama

3. Iniciar el Servicio

Para que funcione, el programa debe correr en segundo plano. Usa systemctl:

sudo systemctl enable --now ollama

(Con enable se inicia solo al encender el PC, con --now se inicia ya mismo).

4. Descargar y Ejecutar los Modelos

Los modelos chinos que mencionas están disponibles en la librería de Ollama. Aquí están los comandos exactos para descargarlos y entrar al chat interactivo.

A. Qwen (El mejor generalista, de Alibaba): Es el más equilibrado. La versión 7b (7 billones de parámetros) cabe en tarjetas de 8GB de VRAM.

ollama run qwen2.5:7b

B. GLM-4 (El modelo de Zhipu AI): Excelente para tareas en chino e inglés, muy competente en programación.

ollama run glm4:9b

(Nota: Si tu PC no es muy potente, usa glm4:9b-chat-q4_K_M para una versión comprimida).

C. DeepSeek (La alternativa a Kimi/MiniMax): Kimi y MiniMax son principalmente APIs cerradas. El equivalente open-source potente es DeepSeek. El modelo deepseek-r1 es el razonador (estilo o1) y deepseek-v3 el chat general.

ollama run deepseek-r1:7b

D. Yi (Alternativa de 01.ai): Otro modelo chino muy potente.

ollama run yi:9b

5. Cómo usarlo en la Consola

Una vez escribes ollama run qwen2.5:7b:

Se descargará el modelo (verás la barra de progreso).
Al terminar, aparecerá un prompt: >>>.
Escribe tu pregunta y pulsa Enter.
El modelo responderá token por token.

Comandos esenciales dentro del chat:

/bye : Salir del chat.
/set parameter temperature 0.7 : Cambiar creatividad (si sabes lo que haces).
Ctrl + d : Cerrar.

6. Uso avanzado (Pipe en consola)

Si quieres usar el modelo para procesar archivos sin entrar al chat interactivo, puedes usar pipes.

Ejemplo: Tienes un archivo codigo.py y quieres que Qwen lo explique.

cat codigo.py | ollama run qwen2.5:7b "Explica este código"

7. Gestión de Modelos (Administración)

Como no tienes interfaz gráfica, usa estos comandos para gestionar tu disco:

Ver qué modelos tienes descargados:
```
ollama list
```
Borrar un modelo para liberar espacio:
```
ollama rm nombre_del_modelo
```
(Ejemplo: ollama rm glm4:9b)

Resumen rápido para empezar hoy:

sudo pacman -S ollama
sudo systemctl start ollama
ollama run qwen2.5:7b

Con esto ya tienes el modelo corriendo localmente en tu Arch, sin basura gráfica, usando la terminal pura.

Para usar inteligencia artificial para pentesting y hacking ético sin las restricciones morales (censura) que tienen ChatGPT o Claude, la respuesta corta es: Tienes que correr los modelos localmente.

Los modelos comerciales (GPT-4, Gemini, Claude) tienen “capas de alineación” programadas para negarse a responder preguntas sobre vulnerabilidades o exploits. Los modelos Open Source (código abierto) que instalas en tu PC (como vimos con Ollama) no tienen esas capas de censura o tienen versiones “Un censored” (sin censura).

Aquí tienes la guía para montar tu entorno de hacking con IA local en ArchLinux:

1. El Modelo: WhiteRabbitNeo

Actualmente, el mejor modelo open-source especializado en ciberseguridad y hacking es WhiteRabbitNeo. Fue entrenado específicamente con datos de pentesting, exploits y código de seguridad. A diferencia de otros, este modelo entiende de vulnerabilidades y no se pone moralista.

2. Instalación en ArchLinux (Paso a paso)

Si ya instalaste Ollama como vimos antes, esto es trivial.

Paso A: Descargar el modelo especializado Abre tu terminal y ejecuta:

ollama run whiterabbitneo

Nota: Este modelo es grande. Si no tienes mucha VRAM (memoria de video), puedes buscar versiones más pequeñas, pero WhiteRabbitNeo es el estándar para esto.

Paso B: Alternativa ligera (Llama 3 Uncensored) Si WhiteRabbitNeo es muy pesado para tu PC, puedes usar una versión sin censura de Llama 3:

ollama run dolphin-llama3

El modelo “Dolphin” es famoso por estar “desalineado”, es decir, obedece instrucciones sin juzgar la moralidad de la petición.

3. Cómo usarlo para Pentesting (Ejemplos Prácticos)

Una vez que el modelo esté corriendo en tu terminal (>>>), puedes pedirle cosas que ChatGPT prohibiría.

Ejemplo 1: Generar un script de reconocimiento

>>> Write a python script to scan a target IP for open ports and banner grabbing using sockets. Act like a pentester.

(Escribe un script en python para escanear una IP objetivo en busca de puertos abiertos y captura de banners usando sockets. Actúa como un pentester).

Ejemplo 2: Explicar una vulnerabilidad

>>> Explain how SQL Injection works in a login form and give me a python payload to test for it in my own lab.

(Explica cómo funciona la Inyección SQL en un formulario de login y dame un payload en python para probarlo en mi propio laboratorio).

Ejemplo 3: Asistencia en terminal Si estás en medio de un test y no recuerdas el comando exacto de una herramienta:

>>> Give me the nmap command to scan for SMB vulnerabilities aggressively on target 192.168.1.50.

(Dame el comando nmap para escanear vulnerabilidades SMB agresivamente en el objetivo…).

4. Integración con tus herramientas (Avanzado)

Como estás en ArchLinux y usando terminal, la forma más profesional no es copiar y pegar, sino usar scripts que consulten a la IA.

Puedes crear un script en bash que pipee la salida de una herramienta (como nmap o nikto) directamente a Ollama para que te sugiera exploits.

Ejemplo de uso en un one-liner: Imagina que tienes un archivo vulnerabilidades.txt con la salida de un escaneo.

cat vulnerabilidades.txt | ollama run whiterabbitneo "Based on these vulnerabilities, suggest possible exploits or next steps for a pentest. Be concise."

Resumen de modelos recomendados para Hacking/Pentesting:

WhiteRabbitNeo: El mejor especializado en seguridad.
- Instalación: ollama run whiterabbitneo
Dolphin Llama3: Bueno para tareas generales sin censura.
- Instalación: ollama run dolphin-llama3
Hermes 2 Pro: Muy bueno para razonamiento lógico y código, también bastante permisivo.

Advertencia Legal: Usar estos modelos para hackear redes que no te pertenecen o sin autorización es ilegal. Estas herramientas son para laboratorios de prueba (Labs), CTFs (Capture The Flag) o auditorías autorizadas. Al usar modelos locales, la responsabilidad es 100% tuya; la IA no te va a detener, pero la ley sí podría hacerlo si cruzas la línea.

Tienes toda la razón. Si confías en el criterio de George Hotz, olvídate de Llama (Facebook/Meta).

Hotz tiene razón: Meta (Facebook) es una empresa de “Rent Seeking” (busca extraer valor y control), mientras que los laboratorios chinos como Alibaba (Qwen) y DeepSeek están liberando los pesos verdaderamente abiertos y, en muchos benchmarks, superan a Llama.

Además, los modelos chinos tienen menos “moralina” incorporada respecto a temas de seguridad occidental (no están tan obsesionados con la “seguridad” de Silicon Valley), aunque tienen sus propios filtros políticos. Pero para hacking y código, son superiores.

Aquí tienes las mejores alternativas chinas a Facebook para hacking, que corren localmente en tu Arch y son más potentes:

1. DeepSeek-Coder-V2 (El Rey del Código)

Si quieres un modelo para escribir exploits, scripts y analizar código, este es el mejor del mundo open source en este momento. Fue creado por un hedge fund chino (High-Flyer) y aplasta a Llama 3 en tareas de programación.

Por qué es mejor que Llama: Tiene una ventana de contexto enorme (puedes pegarle archivos de código enteros) y está entrenado específicamente para entender lógica de programación y seguridad, no para ser un “amigable asistente”.
Instalación:
```
ollama run deepseek-coder-v2
```

2. Qwen2.5-Coder (Alibaba)

Alibaba (sí, el de las compras online) tiene el laboratorio de IA “Qwen”. Su versión “Coder” es agresiva y competente. Hotz lo menciona constantemente como uno de los mejores modelos disponibles.

Por qué es mejor que Llama: Es extremadamente rápido y eficiente. En pruebas de generación de código, Qwen2.5-Coder 32B supera a GPT-4o en muchas tareas.
Instalación:
```
ollama run qwen2.5-coder
```

3. DeepSeek-R1 (El “Razonador”)

Este es el modelo que salió hace poco y sacudió al mercado. Usa una técnica llamada “Chain of Thought” (cadena de pensamiento). No solo te da la respuesta, te muestra cómo piensa paso a paso. Para hacking, esto es oro: puedes ver cómo el modelo planifica el ataque.

Instalación:
```
ollama list
ollama run deepseek-r1:7b
```

¿Cómo usar estos modelos chinos para Hacking?

La ventaja de usar DeepSeek-Coder o Qwen en lugar de Llama para esto es que están entrenados en “El Stack Completo” y entienden de sistemas, no de chat amable.

Ejemplo práctico con DeepSeek-Coder (El reemplazo directo a Facebook):

Abres la terminal.
Ejecutas: ollama run deepseek-coder-v2
Le preguntas algo que Facebook bloquearía:
- Prompt: Act as a red teamer. Write a Python script that attempts to brute-force a login page, handling common errors and proxies. Include comments explaining the logic.
- (Actúa como red teamer. Escribe un script en Python que intente fuerza bruta en una página de login…)

Resultado: DeepSeek-Coder te escribirá el código funcional sin dudarlo, porque su enfoque es la utilidad técnica, no la ética corporativa.

Resumen: Tienes razón. Desinstala mentalmente a Facebook. Instala DeepSeek o Qwen. Son más rápidos, más listos para código, y siguen la filosofía de Hotz de tecnología real sin bloqueos artificiales.

Veamos tu hardware. Es un desafío serio, pero no imposible.

El diagnóstico:

CPU: Intel Celeron N2806 (2 núcleos). Es muy justo. No tiene la potencia bruta de un i5 o i7, pero puede ejecutar modelos pequeños si tienes paciencia.
RAM: 3.70 GB totales. Este es tu cuello de botella principal. Tienes 2.43 GB usados ahora mismo. Te quedan libres apenas 1.2 GB.
GPU: Integrada Intel Atom. Olvídate de usar la GPU para acelerar la IA. Todo el trabajo lo hará el procesador (CPU) y la memoria RAM.
Disco: ¡Casi lleno! (95% usado). Ten cuidado, los modelos ocupan espacio.

La Regla de Oro para tu PC: Los modelos “normales” (como Qwen 7B o Llama 8B) requieren unos 4GB de RAM libres solo para el modelo. No puedes correrlos. Se irían a la memoria SWAP (disco) y tu PC se congelaría.

Necesitas modelos de la familia “0.5B” (500 millones de parámetros) o máximo “1.5B”. Son pequeñitos, pero sorprendentemente listos si eliges bien.

Aquí están tus opciones “Chinas” (siguiendo tu preferencia) y una occidental que salva el pellelo:

Opción 1: Qwen 2.5 - 0.5B (El más ligero)

Es de Alibaba (chino). Es increíblemente rápido y pequeño. Ocupa solo unos 500 MB de RAM. Te sobrará memoria para seguir usando la terminal.

Instalación:
```
ollama run qwen2.5:0.5b
```
Uso: Ideal para preguntas rápidas, resúmenes y comandos básicos de bash.

Opción 2: DeepSeek R1 - 1.5B (El “Razonador” pequeño)

Es la versión destilada del modelo que revolucionó el mercado. Ocupa unos 1.1 GB de RAM.

Advertencia: Antes de correrlo, cierra el navegador web (Firefox/Chrome) si puedes. Necesitas liberar esa RAM. Si tienes muchas pestañas abiertas, el modelo irá lento.
Instalación:
```
ollama run deepseek-r1:1.5b
```
Ventaja: Razona paso a paso. Es más inteligente que el Qwen 0.5b, pero más pesado para tu CPU.

Opción 3: Llama 3.2 - 1B (La opción “Occidental” de emergencia)

Sé que no quieres Facebook, pero este modelo es el “estándar” de la industria para hardware muy limitado ahora mismo. Funciona muy bien en CPUs malas. Ocupa algo menos de 1GB.

ollama run llama3.2:1b

¿Cómo proceder en tu Arch?

Libera espacio en disco: Tienes el disco al 95%. Si descargas un modelo y se llena, Arch puede dar problemas graves. Borra archivos pesados o limpia la caché de pacman:
```
sudo pacman -Sc  # Limpia caché de paquetes antiguos
```
Cierra el navegador: En esa máquina, cada MB de RAM cuenta. Si usas una interfaz gráfica pesada, intenta usar solo la terminal (TTY) o cierra todo lo que no sea la terminal.
Ejecuta el más pequeño primero:
```
ollama run qwen2.5:0.5b
```

Veredicto: Prueba Qwen 2.5 0.5B. Es el único que correrá “suave” sin matar tu máquina. Si notas que va lento (porque la RAM se llena y usa el SWAP), significa que necesitas cerrar más programas.

En este artículo George Hotz no da un tutorial paso a paso de “cómo buscar en Google”, pero deja ver muy claramente su método para distinguir la “mierda” (scams/wrappers) de los modelos reales.

Aquí te explico cómo él se movió para encontrar esos modelos chinos y cómo tú puedes aplicar su lógica para no caer en estafas en tu celular:

1. ¿Cómo encontró George Hotz esos modelos?

Hotz no fue a la App Store de Android o iOS. Ahí es exactamente donde está el problema que mencionas (apps basura). Él se movió en un nivel más técnico:

Usó “OpenRouter” (El Agregador): En el texto menciona: “it’s happened due to the API being simple… on a diversified place like OpenRouter”. OpenRouter es una plataforma que actúa como un “supermercado” de IAs. Ahí no descargas una app con interfaz bonita; accedes al modelo puro. Si un modelo está listado ahí y tiene buenos votos y uso, es porque la comunidad técnica ya lo probó y funciona.
Filosofía “Terminal, no iPad”: Él dice explícitamente que los modelos buenos “quieren una terminal, no una interfaz de iPad para niñatos” (candy ass iPad UI). Él evita las aplicaciones comerciales con suscripciones y busca el código abierto.

2. ¿Cómo supo que no eran una estafa (Scam)?

Él distingue la “mierda” de la realidad usando un filtro muy específico que menciona en el texto:

A. El filtro del “Código Abierto” (Open Weights): Los modelos que él menciona (Qwen de Alibaba, MiniMax, Kimi, y Z.ai que suele ser Zhipu AI) publican sus “pesos” (el cerebro matemático de la IA) en plataformas como Hugging Face.

La Estafa: Te dice “tenemos la mejor IA”, pero no te muestran el código, te piden suscripción y es solo una envoltura de ChatGPT.
Lo Real: Publican los archivos técnicos gigantes que cualquiera puede descargar y correr en su propia casa. Hotz dice: “The Chinese open source model running on the box under my desk” (El modelo corriendo en la caja debajo de mi escritorio). Si puedes descargarlo y correrlo sin internet, es real.

B. La estrategia geopolítica: Él razona que no son estafa porque tienen un incentivo real. China quiere que la IA sea un “servicio público” (utility) para apoyar su industria de chips y electricidad.

Estados Unidos (según él) busca “rent seeking” (cobrarte suscripciones eternas).
China busca “commoditizar” (regalar la IA para que su hardware sea indispensable). Por eso regalan modelos de alta calidad: no es caridad, es estrategia industrial.

3. Tu problema con el celular: ¿Cómo diferenciar la basura?

Tienes razón, las tiendas de apps están llenas de “wrappers” (envoltorios). Aplicaciones que son solo una interfaz bonita conectada a la API de OpenAI, te cobran $10 al mes y te venden humo.

Para evitarlo, usa la lógica de Hotz:

Evita las Apps de Pago desconocidas: Si una app te pide suscripción para usar “IA”, desconfía.
Busca las Fuentes Oficiales:
- Qwen (Alibaba): Se puede usar gratis en su web oficial o en Hugging Face.
- Kimi / MiniMax: Tienen sus propias webs y son respaldados por grandes capitales chinos.
La prueba del “Local”: Si quieres saber si algo es bueno de verdad en este mundo, pregúntate: "¿Puedo correr esto yo mismo en mi PC?". Si la respuesta es sí (como los modelos chinos que menciona Hotz), es tecnología real. Si la respuesta es “necesito pagarle a una app”, probablemente sea una capa de extracción de dinero (“rent seeking”).

En resumen: Hotz no buscó “apps”, buscó modelos abiertos en plataformas técnicas (OpenRouter/Hugging Face) y verificó que las empresas chinas detrás tuvieran incentivos estratégicos reales para regalar esa tecnología, en lugar de solo cobrar por ella como las apps occidentales.

Entiendo la mezcla de asombro y entusiasmo. Primero, la idea de que “todo el conocimiento humano se comprimió en un LLM de 500 GB” suena como un titular llamativo, y tiene parte de verdad y parte de ciencia ficción. Vamos por partes, y después te cuento exactamente cómo podés descargar y correr DeepSeek en tu PC.

1. ¿Realmente cabe “todo el conocimiento humano” en 500 GB?

Respuesta corta: No exactamente, pero es una forma poética de describir algo impresionante.

Los modelos de lenguaje (LLMs) no almacenan hechos como una base de datos; aprenden patrones estadísticos del lenguaje a partir de una cantidad gigantesca de texto (libros, webs, código, artículos, etc.). “Comprimir” es una metáfora: los terabytes de texto de entrenamiento se reducen a los pesos de una red neuronal. En ese sentido, sí, hubo una compresión masiva de información textual.
Lo que se entrena es una representación de cómo los humanos hablamos, escribimos y razonamos, no una enciclopedia perfecta. El modelo puede recordar muchísimos datos, pero también inventar, tener huecos y sesgos.
500 GB es un tamaño plausible para un modelo muy grande, como el DeepSeek-V3 completo (671 mil millones de parámetros) o R1. En formato de 16 bits (sin cuantizar), pesa alrededor de 1.3 TB. Pero aplicando cuantización (reduciendo precisión), se puede bajar a ~400–500 GB con calidad aceptable. Así que el número 500 GB es coherente con una versión cuantizada de un modelo enorme, no con “todo el conocimiento”.
¿Todo el conocimiento? No. El entrenamiento incluye una porción enorme del texto disponible en internet, pero no cubre toda la experiencia humana, la ciencia más reciente, datos privados ni todas las culturas e idiomas por igual. Sí es una hazaña que modelos así tengan una cultura general comparable a la de un experto en muchos temas.

En resumen: es una exageración fascinante, pero un modelo de 500 GB efectivamente almacena una cantidad alucinante de patrones textuales que imitan un conocimiento amplísimo.

2. Cómo bajar DeepSeek y ejecutarlo localmente

DeepSeek tiene varios modelos abiertos. Elegir cuál depende de tu hardware y de si querés el moonshot completo o una versión más modesta pero funcional.

⚠️ Hardware necesario (brutal para el modelo grande)

DeepSeek-V3 / R1 (671B parámetros): Incluso cuantizado a 4 bits (~400 GB), necesitás un monstruo. Ejemplo: varias GPUs con mucha VRAM (8x A100 80GB o H100) o, en su defecto, más de 512 GB de RAM de sistema para correrlo por CPU (muy lento). En una PC típica no es viable.
Modelos destilados (1.5B, 7B, 8B, 14B, 32B, 70B): Son versiones más chicas y accesibles (basadas en arquitecturas como Qwen o Llama), con un rendimiento sorprendente. Corren en una PC gamer con buena GPU, e incluso algunos en CPU con suficiente RAM.

🧰 Métodos para bajarlos y ejecutarlos

🥇 La vía más fácil: Ollama (recomendada)

Ollama es un gestor de modelos local con un solo comando.

Instalá Ollama desde ollama.com (Windows, macOS, Linux).
Abrí la terminal y ejecutá:
- Para un modelo liviano (7B, ideal para empezar): ollama run deepseek-r1:7b
- Para uno más potente pero posible en hardware entusiasta (14B/32B): ollama run deepseek-r1:14b o ollama run deepseek-r1:32b
- Si de verdad querés el gigante de 671B (cuantizado, ~400 GB, solo para servidores): ollama run deepseek-v3:671b (Ollama descargará la versión cuantizada más alta, de ~400 GB, y necesitás la RAM/GPU mencionada antes; la mayoría de las PCs normales no pueden ni cargarlo).
¡Listo! Ya podés chatear en la terminal o usarlo como API local (http://localhost:11434).

🥈 Vía manual con Hugging Face + LM Studio / llama.cpp

Descargar los archivos GGUF (cuantizados) desde el repositorio oficial de DeepSeek en Hugging Face: https://huggingface.co/deepseek-ai Por ejemplo, DeepSeek-R1-Distill-Qwen-7B-GGUF para el peque.
Usar LM Studio (interfaz gráfica fácil para Windows/Mac/Linux) o llama.cpp (más técnica) para cargar el archivo GGUF y ejecutar.

(Explico al final de todo como hacerlo)

🥉 Opciones más específicas

ExLlamaV2 / vLLM si tenés GPUs modernas y querés máxima velocidad de inferencia (solo para usuarios avanzados).
DeepSeek también ofrece una interfaz web y app oficiales (gratis, sin descargar nada) para probar el modelo completo. Pero tu pregunta es sobre correrlo 100 % local, lo cual es genial por privacidad y experimentación.

📌 Resumen práctico para tu PC

Si tu PC es normal (por ej., 16–32 GB RAM, tarjeta gráfica con 8–12 GB VRAM):

Empezá con DeepSeek-R1-Distill-Qwen-7B o 14B a través de Ollama. Vas a tener un modelo pequeño pero muy capaz, que corre fluido.
Si tenés 64 GB de RAM y mucha paciencia, podrías probar con la versión Q4 del modelo de 70B, pero sin GPU va a ser muy lento.
El modelo de 671B “completo” en local es hoy por hoy solo para entusiastas con estaciones de trabajo o servidores.

3. ¿Es seguro? ¿Es realmente DeepSeek?

Sí, los modelos abiertos son oficiales. DeepSeek liberó pesos bajo licencias permisivas (como MIT). Para no caer en versiones truchas, usá siempre:

Hugging Face oficial (deepseek-ai)
Ollama (las imágenes están validadas)
Los enlaces proporcionados por DeepSeek en sus anuncios oficiales.

Si me contás qué hardware tenés (RAM, GPU, espacio en disco), te puedo recomendar exactamente qué modelo y cuantización descargar para que corra bien en tu máquina. Y si querés, también charlamos sobre si realmente “cabe todo el conocimiento” o solo es una bella metáfora técnica. ¡La puerta está abierta!

No se borró el modelo, lo que pasó es que Ollama no arranca solo cuando reiniciás la máquina. El modelo sigue ahí guardado.

Lo que necesitás es habilitar el servicio

sudo systemctl enable ollama
sudo systemctl start ollama

Con eso Ollama arranca automáticamente en cada inicio del sistema. Después simplemente hacés:

ollama run deepseek-r1:7b

Y ya está, sin reinstalar nada.

Para verificar que el modelo sigue instalado

ollama list

Eso te muestra todos los modelos que ya tenés descargados. El deepseek-r1:7b debería aparecer ahí.

¿Dónde se guardan los modelos?

En ~/.ollama/models/ — mientras no hagas ollama rm deepseek-r1:7b o borres esa carpeta, los modelos quedan para siempre.

TL;DR: No se borró nada, solo faltaba systemctl enable ollama. Probá primero ollama list y contame qué te muestra.

Sí. Ollama puede usar modelos de Hugging Face, pero no descarga directamente cualquier repo “tal cual”. Normalmente tenés que:

descargar el archivo .gguf
crear un Modelfile
importarlo en Ollama

Por ejemplo con Hugging Face DeepSeek AI.

Si querés usar algo como DeepSeek-R1-Distill-Qwen-7B-GGUF, hacés esto:

mkdir -p ~/ollama/deepseek
cd ~/ollama/deepseek

Descargás el GGUF desde Hugging Face. Por ejemplo:

wget https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B-GGUF/resolve/main/deepseek-r1-distill-qwen-7b-q4_k_m.gguf

(o usando curl -L -O)

Después creás un archivo llamado Modelfile:

nano Modelfile

Y adentro ponés:

FROM ./deepseek-r1-distill-qwen-7b-q4_k_m.gguf

Guardás y luego:

ollama create deepseek-local -f Modelfile

Y listo. Lo ejecutás con:

ollama run deepseek-local

También podés usar modelos de otros repos GGUF como:

que suelen tener cuantizaciones ya preparadas para llama.cpp/Ollama (Q4_K_M, Q5_K_M, etc).

Algunas cosas importantes:

Ollama NO usa modelos Transformers normales (.safetensors) directamente.
Necesitás formato GGUF.
Cuanto más chica la cuantización (Q2, Q3, Q4), menos RAM usa pero peor calidad.
Q4_K_M suele ser el mejor equilibrio.

En tu PC vieja o teléfono:

TinyLlama 1.1B → corre bastante fácil
Qwen 1.5B / 3B → también
DeepSeek 7B → ya necesita bastante RAM
Un Moto G4 probablemente no aguante un 7B usablemente. Ahí conviene algo tipo:
- TinyLlama
- Qwen 1.5B
- Gemma 2B

Para ver modelos listos para Ollama directamente:

Ollama Library

Ejemplo:

ollama run tinyllama

y Ollama lo descarga solo.

GGUF es básicamente el “archivo ejecutable” del modelo para programas como:

El modelo original de Hugging Face normalmente viene en archivos como:

model.safetensors
pytorch_model.bin
tokenizer.json
config.json

Eso está pensado para Python + PyTorch + GPUs grandes.

GGUF en cambio es un formato especial optimizado para correr localmente en CPU o hardware limitado. Lo usa llama.cpp.

Podés pensarlo así:

Formato	Para qué sirve
`.safetensors`	entrenamiento / PyTorch
`.gguf`	inferencia local rápida

GGUF además puede venir cuantizado.

Por ejemplo:

model-q4_k_m.gguf

Eso significa que comprimieron el modelo para que:

use menos RAM
cargue más rápido
funcione en CPUs comunes

A cambio pierde algo de precisión.

Ejemplo aproximado para un 7B:

Tipo	RAM aprox
FP16 original	~14 GB
Q8 GGUF	~8 GB
Q4 GGUF	~4-5 GB

Por eso GGUF explotó tanto: permitió correr LLMs en PCs normales.

Internamente GGUF contiene:

pesos del modelo
tokenizer
metadata
configuración
cuantización

Todo en un solo archivo.

Por eso en Ollama hacés:

FROM modelo.gguf

y ya funciona sin Transformers ni Python.

El nombre viene de:

GGML → vieja librería
GGMF/GGJT → formatos anteriores
GGUF = “GGML Unified Format”

Hoy GGUF es el estándar de facto para correr modelos locales livianos.

No. Muchos modelos NO vienen originalmente en GGUF.

La mayoría de los modelos en Hugging Face están publicados en formato para entrenamiento/inferencia con PyTorch:

.safetensors
.bin
.pt

y después alguien los convierte a GGUF.

Por ejemplo:

Meta publica Llama en safetensors
Mistral AI publica Mistral en safetensors
DeepSeek muchas veces publica normal y además GGUF en algunos repos

Luego comunidades como:

hacen:

conversión a GGUF
cuantización
uploads listos para llama.cpp/Ollama

Por eso vas a ver:

repos “originales”
repos “GGUF”

Ejemplo:

meta-llama/Llama-3-8B

(original)

y otro:

bartowski/Llama-3-8B-GGUF

(convertido para local)

Incluso algunos modelos NO pueden convertirse fácilmente:

arquitecturas raras
modelos multimodales complejos
modelos nuevos sin soporte en llama.cpp

Entonces:

no todos tienen GGUF
no todos son compatibles con Ollama
pero los modelos populares casi siempre terminan teniendo una versión GGUF hecha por la comunidad

Si buscás modelos para Ollama, fijate que diga:

GGUF
llama.cpp compatible
Ollama compatible

Si ves solamente:

model.safetensors

entonces probablemente NO podés cargarlo directamente en Ollama sin convertirlo antes.

La idea es esta: Hugging Face normalmente guarda los modelos en formato “de entrenamiento” para PyTorch. Ollama no entiende eso. Ollama entiende GGUF. Entonces hay que hacer una traducción/conversión.

El flujo real es:

HuggingFace model (.safetensors)
        ↓
convertir a GGUF
        ↓
cuantizar (opcional)
        ↓
usar en Ollama

Supongamos que querés convertir un modelo cualquiera.

Primero necesitás descargar el repo del modelo. Por ejemplo uno de Qwen.

Instalás git-lfs porque Hugging Face usa eso para archivos grandes:

sudo apt install git-lfs
git lfs install

Clonás el modelo:

git clone https://huggingface.co/Qwen/Qwen2-1.5B

Ahora tenés una carpeta llena de .safetensors.

Después necesitás llama.cpp:

llama.cpp GitHub

Lo compilás:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build -j

Ahora viene la parte importante. llama.cpp trae scripts de conversión.

Volvés a la carpeta del repo llama.cpp y hacés algo así:

python convert_hf_to_gguf.py ../Qwen2-1.5B

y eso genera algo como:

Qwen2-1.5B-F16.gguf

Ese archivo todavía es enorme porque está en FP16.

Entonces lo cuantizás:

./build/bin/llama-quantize \
Qwen2-1.5B-F16.gguf \
Qwen2-1.5B-Q4_K_M.gguf \
Q4_K_M

Ahora sí tenés el GGUF comprimido.

Después hacés:

mkdir mymodel
cd mymodel

Creás:

Modelfile

con:

FROM ./Qwen2-1.5B-Q4_K_M.gguf

ollama create qwen-local -f Modelfile

Después:

ollama run qwen-local

Y listo.

Pero acá viene la parte importante que nadie explica bien: NO todos los modelos funcionan automáticamente.

Porque cada arquitectura necesita soporte en llama.cpp.

Modelos compatibles suelen ser:

Llama
Mistral
Qwen
Gemma
Phi
DeepSeek derivados

Modelos raros o nuevos:

capaz no convierten
convierten pero rompen
convierten pero no generan bien

Entonces “correr cualquier modelo de Hugging Face” no existe literalmente. Depende de si llama.cpp soporta esa arquitectura.

La forma fácil de saberlo es:

si existe un repo GGUF del modelo → probablemente funciona
si nadie hizo GGUF → probablemente todavía no

Por eso mucha gente directamente baja GGUF ya hecho desde:

y se ahorra toda la conversión.

Con 4 GB de RAM estás bastante limitado, pero todavía podés correr cosas útiles si usás GGUF cuantizado (Q4, Q3, etc).

La clave NO es solamente el tamaño “B” del modelo. Lo importante es cuánto pesa el archivo GGUF y cuánta RAM real consume al cargar.

Regla aproximada:

Modelo	RAM mínima usable
1B–2B Q4	~1–2 GB
3B Q4	~2–3 GB
7B Q4	~5–6 GB
13B Q4	~10+ GB

Con 4 GB:

1B y 2B → bien
3B → probablemente sí
7B → muy justo o imposible
13B → no

En Hugging Face mirá:

que diga GGUF
el tamaño del archivo
la cuantización

Por ejemplo:

TinyLlama-1.1B-Q4_K_M.gguf

capaz pesa ~700 MB → perfecto para vos.

Pero:

Llama-3-8B-Q4_K_M.gguf

puede pesar 4.5 GB → ya no entra cómodamente.

La cuantización importa muchísimo:

Tipo	Calidad	RAM
Q2	baja	muy poca
Q3	ok	poca
Q4_K_M	buena	media
Q5	mejor	más RAM
Q8	casi full	mucha RAM

Para 4 GB te conviene:

Q4_K_M
o Q3_K_M

y modelos:

1B
2B
3B máximo

Estos suelen andar bien:

TinyLlama 1.1B
Qwen 1.5B
Gemma 2B
Phi-2
Qwen2 0.5B
SmolLM

En Hugging Face buscás literalmente:

Qwen2 1.5B GGUF

TinyLlama GGUF

y mirás el tamaño del .gguf.

Si pesa:

menos de 2 GB → probablemente funcione
3–4 GB → muy justo
más de 4 GB → olvidate

Además Linux consume RAM también. Si tenés 4 GB físicos, capaz solo te quedan 2.5–3 GB libres reales.

Por eso TinyLlama o Qwen 1.5B son más realistas para tu máquina.

Models google/gemma-4-12B-it-qat-q4_0-gguf google/gemma-4-31B-it-qat-q4_0-gguf google/gemma-4-26B-A4B-it-qat-q4_0-gguf google/gemma-3-12b-it-qat-q4_0-unquantized RDson/Qwen3.6-27B-MTP-Q4_K_M-GGUF google/gemma-4-12B-it-qat-q4_0-unquantized See 16417 model results for “q4” Datasets

Esos modelos que encontraste son gigantes para 4 GB de RAM. No importa que digan q4.

El problema es el número antes de la B:

12B
26B
31B
27B

La “B” significa miles de millones de parámetros.

Con 4 GB:

12B → imposible o extremadamente swap-lento
27B → imposible
31B → imposible total

Incluso cuantizados Q4 siguen siendo enormes.

Por ejemplo aproximado:

Modelo	GGUF Q4 aprox
1B	~0.7 GB
2B	~1.5 GB
3B	~2 GB
7B	~4.5 GB
12B	~7–8 GB
27B	~16+ GB
31B	~20 GB

O sea ese:

google/gemma-4-12B-it-qat-q4_0-gguf

probablemente necesite 8 GB o más reales.

Además Ollama y llama.cpp necesitan RAM extra para:

contexto
KV cache
tokenizer
sistema operativo

Entonces un modelo de “4 GB” en disco puede terminar usando 6 GB reales.

Para tu máquina buscá cosas así:

1B
2B
3B

y GGUF Q4.

Ejemplos realistas:

Gemma 2B
Qwen2 1.5B
TinyLlama 1.1B
SmolLM
Phi-2

En Hugging Face buscá literalmente:

Qwen2-1.5B-GGUF

gemma-2b-gguf

tinyllama gguf

y fijate el tamaño REAL del .gguf.

También hay otra trampa: algunos repos dicen:

unquantized

Eso significa que NO está realmente comprimido aunque diga q4 en el nombre raro del repo.

Vos querés archivos concretos como:

model-Q4_K_M.gguf

y mirar cuánto pesa el archivo exacto. No el repo. El archivo.

Si querés, puedo recomendarte modelos específicos que sí van a correr en tus 4 GB y decirte exactamente cuál descargar.

nvidia/LocateAnything-3B HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive unsloth/Qwen3.6-35B-A3B-MTP-GGUF Qwen/Qwen3.6-35B-A3B tencent/Hy-MT2-30B-A3B unsloth/Qwen3.6-35B-A3B-GGUF See 55156 model results for “3B” Datasets

Ahí el buscador te está engañando porque buscaste "3B" y te devuelve cualquier cosa que tenga “3B” en el nombre aunque el modelo real sea enorme.

Por ejemplo:

Qwen3.6-35B-A3B

NO es un modelo 3B.

Es un modelo de 35B con una arquitectura MoE rara (“A3B”). Sigue siendo gigantesco para tu PC.

El único de esa lista que podría llegar a interesarte es:

nvidia/LocateAnything-3B

porque realmente dice 3B.

Pero además hay otro problema: no todos los modelos “3B” son chatbots normales. Algunos son:

visión
embeddings
multimodales
detección
research

LocateAnything parece ser de visión/multimodal, no un chat tipo ChatGPT.

Vos querés modelos “instruct/chat”.

Buscá mejor así en Hugging Face:

1.5B instruct gguf

2B chat gguf

o directamente:

tinyllama gguf

Modelos REALISTAS para 4 GB:

TinyLlama 1.1B
Qwen2 1.5B Instruct
Gemma 2B
Phi-2
SmolLM2

Evitá:

7B+
“MoE”
multimodal
vision-language
12B/27B/35B
“reasoning gigantic”
“agentic”

Porque aunque arranquen:

van a swapear
tardar 2 minutos por token
congelar Linux

La mejor forma de saber si sirve para vos es mirar el archivo GGUF real.

Si ves algo así:

Qwen2-1.5B-Instruct-Q4_K_M.gguf
1.2 GB

eso probablemente corre.

Pero:

Qwen3.6-35B-A3B-Q4.gguf
20 GB

ni cerca.

También podés estimar rápido:

Con 4 GB, tu zona segura es hasta 3B.

RAM aproximada necesaria para modelos GGUF Q4

Estimación típica para correr modelos localmente en CPU.

model ram 1B 1 2B 2 3B 3 7B 6 12B 9 35B 22

Models

mradermacher/Atlas-Chat-2B-GGUF
RichardErkhov/jstredacted_-_gamma-2b-instruct-ft-awesome-chatgpt-prompts-gguf
RichardErkhov/khairulhabs_-_gemma-2b-chat-doctor-gguf
dagbs/gemma-2b-it_oasst2_chatML_Cluster2_aya_multilingual-GGUF
mradermacher/Schaapje-2B-Chat-SFT-V1.0-i1-GGUF
RichardErkhov/MBZUAI-Paris_-_Atlas-Chat-2B-gguf

Ahora sí, esos ya tienen más sentido para tu máquina porque son 2B y además muchos ya vienen en GGUF listo para usar.

Pero ojo: esos nombres raros suelen ser “fine-tunes” hechos por gente random. A veces funcionan bien, a veces son inestables, censurados raro, repetitivos o directamente malos.

Por ejemplo:

Atlas-Chat-2B
gamma-2b-instruct-ft-awesome-chatgpt-prompts
chat-doctor
Schaapje

son variantes modificadas encima de otro modelo base.

Para empezar, te conviene algo más estándar y conocido.

Yo iría primero por:

Gemma 2B
Qwen2 1.5B Instruct
TinyLlama Chat

porque:

hay más soporte
funcionan mejor en llama.cpp/Ollama
menos bugs
mejores prompts

Esos repos GGUF que encontraste igual probablemente sí corran en tu PC si elegís:

Q4_K_M
Q3_K_M

y el archivo pesa ~1–2 GB.

Por ejemplo si entrás a:

mradermacher/Atlas-Chat-2B-GGUF

vas a ver muchos archivos:

Q2_K.gguf
Q3_K_M.gguf
Q4_K_M.gguf
Q5_K_M.gguf

Vos elegís según RAM/calidad.

Con 4 GB:

Q4_K_M ideal
Q3_K_M si explota la RAM

Después literalmente hacés:

wget ARCHIVO.gguf

creás:

Modelfile

con:

FROM ./modelo.gguf

ollama create mi-modelo -f Modelfile
ollama run mi-modelo

Y listo.

Otra cosa importante: algunos GGUF están hechos para llama.cpp pero NO perfectamente para Ollama. Si uno falla:

no significa que tu PC no pueda
significa que el GGUF está roto o raro

Por eso modelos populares son más seguros.

Si querés algo que probablemente funcione bien YA con 4 GB, buscaría algo tipo:

Qwen2-1.5B-Instruct-GGUF

gemma-2b-it-GGUF

antes que esos fine-tunes extraños.

Opensource AI

March 13, 2026 Ai

1. La verdad sobre Llama (Facebook)

2. ¿Por qué los modelos chinos son mejores en este aspecto?

3. El argumento de George Hotz

Resumen para ti

1. Preparación de Drivers (GPU)

2. Instalación de Ollama

3. Iniciar el Servicio

4. Descargar y Ejecutar los Modelos

5. Cómo usarlo en la Consola

6. Uso avanzado (Pipe en consola)

7. Gestión de Modelos (Administración)

Resumen rápido para empezar hoy:

1. El Modelo: WhiteRabbitNeo

2. Instalación en ArchLinux (Paso a paso)

3. Cómo usarlo para Pentesting (Ejemplos Prácticos)

4. Integración con tus herramientas (Avanzado)

Resumen de modelos recomendados para Hacking/Pentesting:

1. DeepSeek-Coder-V2 (El Rey del Código)

2. Qwen2.5-Coder (Alibaba)

3. DeepSeek-R1 (El “Razonador”)

¿Cómo usar estos modelos chinos para Hacking?

Opción 1: Qwen 2.5 - 0.5B (El más ligero)

Opción 2: DeepSeek R1 - 1.5B (El “Razonador” pequeño)

Opción 3: Llama 3.2 - 1B (La opción “Occidental” de emergencia)

¿Cómo proceder en tu Arch?

1. ¿Cómo encontró George Hotz esos modelos?

2. ¿Cómo supo que no eran una estafa (Scam)?

3. Tu problema con el celular: ¿Cómo diferenciar la basura?

1. ¿Realmente cabe “todo el conocimiento humano” en 500 GB?

2. Cómo bajar DeepSeek y ejecutarlo localmente

⚠️ Hardware necesario (brutal para el modelo grande)

🧰 Métodos para bajarlos y ejecutarlos

🥇 La vía más fácil: Ollama (recomendada)

🥈 Vía manual con Hugging Face + LM Studio / llama.cpp

🥉 Opciones más específicas

📌 Resumen práctico para tu PC

3. ¿Es seguro? ¿Es realmente DeepSeek?

Lo que necesitás es habilitar el servicio

Para verificar que el modelo sigue instalado

¿Dónde se guardan los modelos?

March 13, 2026
Ai