Wan generador de vídeo con inteligencia artificial avanzado y gratis

Wan2.2 es uno de los generadores de vídeo con inteligencia artificial más avanzados que puedes instalar y usar hoy mismo en tu propio ordenador, sin pagar suscripción y sin depender de una plataforma en la nube.

Desarrollado por Alibaba, este sistema ofrece una propuesta muy llamativa: código abierto bajo licencia Apache 2.0, soporte para distintos tipos de generación de vídeo y resultados que, según sus benchmarks públicos, compiten directamente con servicios comerciales como Sora, Kling o Runway.

En este artículo te explico qué es Wan2.2, qué puede hacer y cómo instalarlo paso a paso en local, tanto desde su repositorio oficial como mediante ComfyUI.


Qué es Wan2.2 y por qué importa

Wan2.2 no es una simple actualización menor. Se trata de una suite completa de modelos de generación de vídeo diseñada para ofrecer calidad alta y ejecución local.

Entre sus novedades más importantes destacan:

  • Arquitectura MoE (Mixture of Experts).
  • Más datos de entrenamiento: +65,6 % más imágenes y +83,2 % más vídeos que Wan2.1.
  • Nuevo VAE de alta compresión.
  • Generación de vídeo 720p a 24 fps en hardware de consumo, como una RTX 4090, con el modelo adecuado.

La gran diferencia respecto a otras alternativas abiertas es que Wan2.2 busca reducir la brecha con los modelos comerciales, manteniendo la ventaja de ser instalable en local y sin límites de uso.

Cómo funciona la arquitectura MoE

Wan2.2 utiliza una arquitectura de mezcla de expertos. En lugar de depender de un único modelo monolítico, reparte el proceso entre dos expertos especializados:

  • uno se encarga de las fases iniciales, donde domina el ruido y la estructura global;
  • el otro refina los detalles en las fases finales.

Cada experto tiene alrededor de 14.000 millones de parámetros, sumando 27B en total, aunque solo 14B están activos en cada paso de inferencia. Eso permite mantener un coste computacional similar al de un modelo convencional de 14B.

Modelos disponibles en Wan2.2

1. T2V-A14B

Modelo de texto a vídeo con arquitectura MoE.

  • Soporta 480p y 720p
  • Requiere alrededor de 80 GB de VRAM en GPU única
  • También puede ejecutarse en multi-GPU con FSDP

2. I2V-A14B

Modelo de imagen a vídeo con arquitectura MoE.

  • Soporta 480p y 720p
  • Requiere aproximadamente 80 GB de VRAM
  • También admite escenarios multi-GPU

3. TI2V-5B

Es la opción más accesible y la más interesante para muchos usuarios.

  • Modelo denso de 5B parámetros
  • Soporta texto a vídeo e imagen a vídeo en un solo modelo
  • Usa un VAE de alta compresión 16×16×4
  • Genera vídeo 720p a 24 fps
  • Puede funcionar en una RTX 4090 con 24 GB de VRAM

4. S2V-14B

Modelo de voz a vídeo.

  • Genera vídeo sincronizado con audio de entrada
  • Soporta 480p y 720p
  • Requiere alrededor de 80 GB de VRAM

5. Animate-14B

Modelo para animación y reemplazo de personajes.

  • Toma un vídeo de referencia y una imagen de personaje
  • Puede animar el personaje o sustituirlo dentro del vídeo

Qué puede hacer Wan2.2

Wan2.2 cubre varios casos de uso creativos muy potentes.

Texto a vídeo

Escribes una descripción y el modelo genera una escena animada a partir de ella.

Imagen a vídeo

Parte de una imagen fija y la convierte en una secuencia con movimiento coherente.

Texto e imagen a vídeo

El modelo TI2V-5B combina texto e imagen para dar más control sobre el resultado.

Voz a vídeo

El modelo S2V-14B genera vídeo sincronizado con un archivo de audio.

Animación y reemplazo de personajes

Con Wan2.2-Animate-14B, puedes hacer que un personaje imite el movimiento de otro vídeo o incluso reemplazarlo.

Por qué usar Wan2.2 en local

Usar Wan2.2 en local tiene ventajas muy claras:

  • generaciones ilimitadas
  • privacidad total
  • sin cuotas mensuales
  • sin depender de servidores externos
  • sin restricciones de disponibilidad de plataforma

El coste real es el tiempo de generación y el consumo eléctrico, pero no tienes que pagar por cada vídeo ni ceder tus prompts a un servicio externo.


Guía de instalación paso a paso

Existen dos formas principales de usar Wan2.2 en local:

  1. desde el repositorio oficial
  2. mediante ComfyUI

La primera opción es la más directa si te manejas bien con terminal y Python. La segunda es más visual y cómoda si prefieres trabajar con una interfaz gráfica.

Requisitos previos

Antes de empezar, asegúrate de contar con lo siguiente:

  • GPU NVIDIA con CUDA o Mac con Apple Silicon (M1/M2/M3/M4)
  • 24 GB de VRAM mínimo para el modelo TI2V-5B
  • 80 GB de VRAM para los modelos A14B
  • Python 3.11 o superior
  • Git instalado
  • PyTorch 2.4.0 o superior

En Mac con Apple Silicon, la memoria unificada actúa como VRAM. Con 24 GB puedes probar el modelo TI2V-5B.


Opción A: instalación desde el repositorio oficial

Paso 1: instalar las herramientas base

En macOS

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python@3.11 git

En Linux (Ubuntu o Debian)

sudo apt update
sudo apt install python3.11 python3.11-venv git wget curl -y

Paso 2: clonar el repositorio de Wan2.2

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

Paso 3: crear un entorno virtual e instalar dependencias

python3.11 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

Consejo: si flash_attn da problemas, instala primero el resto de paquetes y deja ese paquete para el final.

Paso 4: instalar PyTorch

El comando depende de tu sistema.

Linux con NVIDIA CUDA 12.4

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

Mac con Apple Silicon

pip install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu

Linux con AMD ROCm

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0

Paso 5: descargar los modelos

pip install "huggingface_hub[cli]"

TI2V-5B

huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B

T2V-A14B

huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

I2V-A14B

huggingface-cli download Wan-AI/Wan2.2-I2V-A14B --local-dir ./Wan2.2-I2V-A14B

Paso 6: generar vídeos desde la línea de comandos

Texto a vídeo con TI2V-5B

python generate.py \
  --task ti2v-5B \
  --size 1280*704 \
  --ckpt_dir ./Wan2.2-TI2V-5B \
  --offload_model True \
  --convert_model_dtype \
  --t5_cpu \
  --prompt "Un gato blanco con gafas de sol sentado en una tabla de surf en la playa, con movimiento de olas y luz de atardecer"

Imagen a vídeo con TI2V-5B

python generate.py \
  --task ti2v-5B \
  --size 1280*704 \
  --ckpt_dir ./Wan2.2-TI2V-5B \
  --offload_model True \
  --convert_model_dtype \
  --t5_cpu \
  --image /ruta/a/tu/imagen.jpg \
  --prompt "La imagen cobra vida, con un movimiento suave de cámara hacia adelante"

Texto a vídeo con T2V-A14B

python generate.py \
  --task t2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-T2V-A14B \
  --offload_model True \
  --convert_model_dtype \
  --prompt "Dos gatos antropomórficos con guantes de boxeo coloridos compiten en un ring iluminado"

Inferencia multi-GPU

torchrun --nproc_per_node=8 generate.py \
  --task t2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-T2V-A14B \
  --dit_fsdp \
  --t5_fsdp \
  --ulysses_size 8 \
  --prompt "Dos gatos antropomórficos con guantes de boxeo coloridos compiten en un ring iluminado"

Los vídeos generados se guardan por defecto en la carpeta output/.

Parámetros útiles para reducir VRAM

  • --offload_model True: mueve parte del modelo a la RAM
  • --convert_model_dtype: reduce el uso de memoria
  • --t5_cpu: ejecuta el codificador de texto en CPU

Opción B: instalación mediante ComfyUI

ComfyUI es una interfaz visual de código abierto que se ejecuta en el navegador y permite construir flujos de trabajo de forma gráfica.

Wan2.2 fue integrado oficialmente en ComfyUI en julio de 2025.

Paso 1: clonar ComfyUI y preparar el entorno

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
python3.11 -m venv venv
source venv/bin/activate

Paso 2: instalar PyTorch y dependencias

Instala PyTorch según tu hardware y luego:

pip install -r requirements.txt

Paso 3: descargar los modelos

Usa los modelos de Hugging Face como en la opción anterior y colócalos en las carpetas correctas dentro de ComfyUI:

  • ComfyUI/models/diffusion_models/
  • ComfyUI/models/vae/
  • ComfyUI/models/text_encoders/

Consulta la documentación oficial de ComfyUI para saber qué archivo va en cada carpeta, porque puede variar según el modelo.

Paso 4: arrancar ComfyUI

python main.py

Si tienes poca memoria, prueba:

python main.py --lowvram

Cuando arranque, verás una dirección como esta:

http://127.0.0.1:8188

Ábrela en tu navegador.

Paso 5: cargar el workflow de Wan2.2

  1. abre el menú superior,
  2. entra en Workflow Templates,
  3. elige la plantilla de Wan2.2 que quieras,
  4. conecta los modelos descargados,
  5. escribe tu prompt,
  6. pulsa Queue.

Consejos para obtener mejores resultados

  • Usa prompts en inglés si quieres más consistencia.
  • Describe el movimiento con precisión.
  • Cuanto más concreta sea la escena, mejor.
  • Para TI2V-5B, usa --size 1280*704 o 704*1280 si quieres formato vertical.
  • Si te quedas sin memoria, combina:
    • --offload_model True
    • --convert_model_dtype
    • --t5_cpu

Un proyecto vivo con un ecosistema creciente

Wan2.2 ha generado rápidamente un ecosistema de herramientas alrededor:

  • LightX2V: acelera la inferencia y trabaja con modelos cuantizados.
  • DiffSynth-Studio: añade soporte para FP8, offloading por capas, LoRA y paralelismo de secuencia.
  • Cache-dit: ofrece aceleración de caché para Wan2.2 MoE.
  • Wan2GP: alternativa de instalación más sencilla para GPUs de gama media.

Además, Wan2.2 también está disponible mediante Diffusers de Hugging Face, lo que facilita integrarlo en proyectos Python ya existentes.

Conclusión

Wan2.2 es una de las demostraciones más claras de que el código abierto ya puede competir de tú a tú con las grandes soluciones comerciales de generación de vídeo.

No se trata de una prueba experimental: es una herramienta real, potente y útil, especialmente en su modelo TI2V-5B, que permite trabajar en hardware relativamente accesible.

Si buscas un generador de vídeo con IA que puedas usar en local, con privacidad, sin límites y sin cuotas mensuales, Wan2.2 es una opción muy seria a tener en cuenta.


Recursos oficiales

  • Repositorio oficial: github.com/Wan-Video/Wan2.2
  • Modelos: huggingface.co/Wan-AI
  • ComfyUI: github.com/comfyanonymous/ComfyUI
  • Documentación de ComfyUI para Wan2.2: docs.comfy.org