Audio + vidéo unifiés
daVinci-MagiHuman génère les deux modalités en une passe — sans TTS puis collage vidéo séparés.
À partir d’un portrait et d’un script ou d’un audio, obtenez une vidéo parlante aux lèvres synchronisées — audio et vidéo générés ensemble avec daVinci-MagiHuman.
Ce guide davinci-magihuman présente la même pile daVinci-MagiHuman que dans notre studio : poids ouverts, Apache 2.0, et un seul modèle pour parole et images alignées. Ajoutez aux favoris la page davinci-magihuman pour revoir rapidement les capacités de daVinci-MagiHuman.
daVinci-MagiHuman est un modèle IA open source 15B développé par Sand.ai et le GAIR Lab (Shanghai Jiao Tong University), sous licence Apache 2.0 : inspecter les poids, inférer localement et usage commercial dans les limites de la licence.
daVinci-MagiHuman prend un portrait plus texte ou audio et produit une vidéo parlante avec audio assorti. Le Transformer single-stream de daVinci-MagiHuman débruite vidéo et audio ensemble plutôt que des pipelines séparés.
Sur une NVIDIA H100, daVinci-MagiHuman peut générer un court clip 256p en ~2 s pour ~2 s de contenu (selon réglages et matériel). Les évaluations de daVinci-MagiHuman montrent un faible WER et une forte préférence humaine face à plusieurs baselines.
Six raisons d’évaluer daVinci-MagiHuman pour des avatars audio–vidéo — les mêmes atouts daVinci-MagiHuman s’appliquent que vous trouviez le modèle via le mot-clé davinci-magihuman ou les articles.
daVinci-MagiHuman génère les deux modalités en une passe — sans TTS puis collage vidéo séparés.
daVinci-MagiHuman fonctionne avec un seul portrait comme ancrage visuel de la tête parlante.
daVinci-MagiHuman prend en charge plusieurs langues pour la synchro labiale (selon données d’entraînement et notes de version).
Apache 2.0 — les poids daVinci-MagiHuman sont utilisables et extensibles commercialement dans le cadre de la licence.
daVinci-MagiHuman : ~2 s pour ~2 s en 256p sur une GPU de classe H100 (selon réglages).
daVinci-MagiHuman affiche de solides résultats WER et de préférence vs Ovi 1.1 et LTX 2.3 dans les évaluations publiées.
Résumé indicatif ; les chiffres varient selon jeux de tests et prompts. daVinci-MagiHuman rapporte ~14,6 % de WER contre ~40,5 % pour Ovi 1.1 et remporte une large part des comparaisons humaines avec Ovi et LTX 2.3.
Un WER plus bas signifie généralement une parole plus claire pour daVinci-MagiHuman. Le tableau compare des plages sur des protocoles similaires où daVinci-MagiHuman est la baseline ouverte.
Les études côte à côte indiquent les sorties préférées pour naturalité et alignement — y compris quand daVinci-MagiHuman bat les modèles fermés.
Les poids ouverts Apache 2.0 permettent d’héberger daVinci-MagiHuman vous-même ; les piles propriétaires restent fermées ; le temps varie selon GPU et résolution pour chaque tâche daVinci-MagiHuman.
| Modèle | WER (↓) | Préférence humaine | Licence | Vitesse (indicative) |
|---|---|---|---|---|
| daVinci-MagiHuman | ~14,6 % | ~80 % vs Ovi 1.1 ; fort vs LTX 2.3 | Apache 2.0 | ~2 s pour ~2 s à 256p sur 1× H100 (indiqué) |
| Ovi 1.1 | ~40,5 % | Inférieur à daVinci dans les comparaisons publiées | Propriétaire | Variable selon API / déploiement |
| LTX 2.3 | WER plus élevé dans le même tableau (varie) | Perd majoritairement vs daVinci dans les évals humaines | Propriétaire | Variable selon résolution et stack |
Pour exécution locale ou serveur, tirez les checkpoints daVinci-MagiHuman depuis le Hub et suivez le README pour CLI et environnement. L’URL davinci-magihuman et le dépôt daVinci-MagiHuman évoluent avec les releases.
Exemple (Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.Douze questions courantes sur daVinci-MagiHuman — réponses ouvertes par défaut. Regroupées pour les recherches davinci-magihuman et le nom daVinci-MagiHuman.
daVinci-MagiHuman est un modèle audio–vidéo 15B de Sand.ai et GAIR Lab (SJTU) qui transforme portrait plus texte ou audio en clip parlant aux lèvres synchronisées.
Les poids et le code ouverts de daVinci-MagiHuman sont sous Apache 2.0. Les démos hébergées peuvent avoir d’autres conditions ; l’auto-hébergement de daVinci-MagiHuman suit la licence.
daVinci-MagiHuman requiert en général une image de visage et du texte ou audio conducteur ; formats et limites dans la README d’inférence.
Ce sont des systèmes vidéo généraux. daVinci-MagiHuman cible la génération tête parlante audio–vidéo avec poids ouverts.
Apache 2.0 autorise l’usage commercial de daVinci-MagiHuman sous conditions. Vérifiez vos obligations lors de la diffusion de contenus générés par daVinci-MagiHuman.
Utilisez la fiche modèle et le Space Hugging Face liés sur cette page, ou clonez le dépôt GitHub pour scripts et checkpoints daVinci-MagiHuman.
La couverture de daVinci-MagiHuman dépend du modèle et des données ; voir la README pour la liste des langues.
Le débit de daVinci-MagiHuman dépend de la classe GPU et de la résolution ; les rapports citent des GPU H100 pour les courts clips ; des GPU plus faibles peuvent utiliser des résolutions ou distillations moindres.
Avec daVinci-MagiHuman : photo frontale nette, lumière uniforme, visage neutre ou expressif. Évitez occlusion forte, angles extrêmes ou résolution trop basse.
Oui si le chemin d’inférence daVinci-MagiHuman prend en charge le conditionnement audio ; voir la doc pour formats et durées.
Les poids daVinci-MagiHuman sont Apache 2.0 ; le contenu généré reste soumis à votre usage, aux droits sur les entrées et au droit applicable.
Issues GitHub du dépôt GAIR-NLP/daVinci-MagiHuman, avec journaux, matériel et étapes de reproduction.
Essayez l’espace public, téléchargez les poids daVinci-MagiHuman sur Hugging Face ou clonez le dépôt open source daVinci-MagiHuman sur GitHub. Chaque chemin suit le même flux davinci-magihuman / daVinci-MagiHuman.
Démo daVinci-MagiHuman hébergée pour un test rapide sans installation.
Téléchargez les checkpoints daVinci-MagiHuman et consultez la fiche modèle pour formats, variantes et licence.
Clonez les scripts d’inférence daVinci-MagiHuman, ouvrez des issues et suivez les releases.