Audio + vídeo unificados
daVinci-MagiHuman genera ambas modalidades en un solo paso — sin TTS y luego pegar vídeo por separado.
Con un retrato y un guion o audio, obtén un vídeo parlante con labios sincronizados: audio y vídeo generados juntos con daVinci-MagiHuman.
Esta guía davinci-magihuman presenta la misma pila daVinci-MagiHuman que en nuestro estudio: pesos abiertos, Apache 2.0 y un solo modelo para voz e imagen alineadas. Guarda la página davinci-magihuman para revisar rápido las capacidades de daVinci-MagiHuman.
daVinci-MagiHuman es un modelo de IA de código abierto de 15B desarrollado por Sand.ai y el GAIR Lab (Universidad Jiao Tong de Shanghái), bajo licencia Apache 2.0: inspeccionar pesos, inferir localmente y uso comercial dentro de la licencia.
daVinci-MagiHuman toma un retrato más texto o audio y produce un vídeo parlante con audio emparejado. El Transformer de un solo flujo de daVinci-MagiHuman elimina ruido de vídeo y audio juntos, no en pipelines separados.
En una NVIDIA H100, daVinci-MagiHuman puede generar un clip corto 256p en ~2 s para ~2 s de contenido (según ajustes y hardware). Las evaluaciones de daVinci-MagiHuman muestran WER bajo y fuerte preferencia humana frente a varias baselines.
Seis motivos para evaluar daVinci-MagiHuman para avatares audio–vídeo — los mismos puntos fuertes de daVinci-MagiHuman aplican si encuentras el modelo por la palabra clave davinci-magihuman o por artículos.
daVinci-MagiHuman genera ambas modalidades en un solo paso — sin TTS y luego pegar vídeo por separado.
daVinci-MagiHuman usa un solo retrato como ancla visual de la cabeza parlante.
daVinci-MagiHuman admite varios idiomas para sincronización labial (según datos de entrenamiento y notas de versión).
Apache 2.0 — los pesos de daVinci-MagiHuman son utilizables y extensibles comercialmente en el marco de la licencia.
daVinci-MagiHuman: ~2 s para ~2 s a 256p en una GPU clase H100 (según configuración).
daVinci-MagiHuman muestra sólidos resultados de WER y preferencia frente a Ovi 1.1 y LTX 2.3 en evaluaciones publicadas.
Resumen orientativo; los números varían según benchmarks y prompts. daVinci-MagiHuman reporta ~14,6 % de WER frente a ~40,5 % de Ovi 1.1 y gana ampliamente en comparaciones humanas con Ovi y LTX 2.3.
Un WER más bajo suele significar habla más clara para daVinci-MagiHuman. La tabla compara rangos en protocolos similares donde daVinci-MagiHuman es la baseline abierta.
Los estudios lado a lado muestran las salidas preferidas por naturalidad y alineación — incluso cuando daVinci-MagiHuman supera modelos cerrados.
Los pesos abiertos Apache 2.0 permiten autoalojar daVinci-MagiHuman; las pilas propietarias siguen cerradas; el tiempo varía según GPU y resolución para cada tarea daVinci-MagiHuman.
| Modelo | WER (↓) | Preferencia humana | Licencia | Velocidad (orientativa) |
|---|---|---|---|---|
| daVinci-MagiHuman | ~14,6 % | ~80 % vs Ovi 1.1; fuerte vs LTX 2.3 | Apache 2.0 | ~2 s para ~2 s a 256p en 1× H100 (indicado) |
| Ovi 1.1 | ~40,5 % | Inferior a daVinci en comparaciones publicadas | Propietaria | Variable según API / despliegue |
| LTX 2.3 | WER más alto en la misma tabla (varía) | Pierde mayoritariamente vs daVinci en evals humanas | Propietaria | Variable según resolución y stack |
Para ejecución local o en servidor, descarga los checkpoints de daVinci-MagiHuman desde el Hub y sigue el README para CLI y entorno. La URL davinci-magihuman y el repo daVinci-MagiHuman evolucionan con los releases.
Ejemplo (Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.Doce preguntas habituales sobre daVinci-MagiHuman — respuestas abiertas por defecto. Agrupadas para búsquedas davinci-magihuman y el nombre daVinci-MagiHuman.
daVinci-MagiHuman es un modelo audio–vídeo de 15B de Sand.ai y GAIR Lab (SJTU) que convierte retrato más texto o audio en clip parlante con labios sincronizados.
Los pesos y el código abiertos de daVinci-MagiHuman están bajo Apache 2.0. Las demos alojadas pueden tener otras condiciones; el autoalojamiento de daVinci-MagiHuman sigue la licencia.
daVinci-MagiHuman suele requerir una imagen de rostro y texto o audio conductor; formatos y límites en el README de inferencia.
Son sistemas de vídeo generales. daVinci-MagiHuman se centra en generación de cabeza parlante audio–vídeo con pesos abiertos.
Apache 2.0 permite uso comercial de daVinci-MagiHuman bajo condiciones. Revisa tus obligaciones al distribuir contenido generado por daVinci-MagiHuman.
Usa la ficha del modelo y el Space de Hugging Face enlazado en esta página, o clona el repo de GitHub para scripts y checkpoints de daVinci-MagiHuman.
La cobertura de daVinci-MagiHuman depende del modelo y los datos; consulta el README para la lista de idiomas.
El rendimiento de daVinci-MagiHuman depende de la clase de GPU y la resolución; los informes citan GPUs H100 para clips cortos; GPUs más débiles pueden usar resoluciones o destilaciones menores.
Con daVinci-MagiHuman: foto frontal nítida, luz uniforme, rostro neutro o expresivo. Evita oclusión fuerte, ángulos extremos o resolución demasiado baja.
Sí si la ruta de inferencia de daVinci-MagiHuman admite condicionamiento por audio; consulta la documentación para formatos y duraciones.
Los pesos de daVinci-MagiHuman son Apache 2.0; el contenido generado sigue sujeto a tu uso, derechos sobre las entradas y la ley aplicable.
Issues en GitHub del repo GAIR-NLP/daVinci-MagiHuman, con logs, hardware y pasos de reproducción.
Prueba el espacio público, descarga los pesos de daVinci-MagiHuman en Hugging Face o clona el código abierto de daVinci-MagiHuman en GitHub. Cada ruta sigue el mismo flujo davinci-magihuman / daVinci-MagiHuman.
Demo alojada de daVinci-MagiHuman para probar rápido sin instalación.
Descarga los checkpoints de daVinci-MagiHuman y consulta la ficha del modelo para formatos, variantes y licencia.
Clona los scripts de inferencia de daVinci-MagiHuman, abre issues y sigue los releases.