Áudio + vídeo unificados
daVinci-MagiHuman gera ambas as modalidades em uma única passagem — sem TTS e depois colar vídeo separadamente.
Com um retrato e um roteiro ou áudio, obtenha um vídeo falante com lábios sincronizados — áudio e vídeo gerados juntos com daVinci-MagiHuman.
Este guia davinci-magihuman apresenta a mesma stack daVinci-MagiHuman do nosso estúdio: pesos abertos, Apache 2.0 e um único modelo para voz e imagem alinhadas. Salve a página davinci-magihuman para revisar rapidamente os recursos de daVinci-MagiHuman.
daVinci-MagiHuman é um modelo de IA de código aberto de 15B desenvolvido pela Sand.ai e pelo GAIR Lab (Universidade Jiao Tong de Xangai), sob licença Apache 2.0: inspecionar pesos, inferir localmente e uso comercial dentro da licença.
daVinci-MagiHuman recebe um retrato mais texto ou áudio e produz um vídeo falante com áudio correspondente. O Transformer de fluxo único da daVinci-MagiHuman remove ruído de vídeo e áudio juntos, não em pipelines separados.
Em uma NVIDIA H100, daVinci-MagiHuman pode gerar um clipe curto 256p em ~2 s para ~2 s de conteúdo (conforme configurações e hardware). As avaliações de daVinci-MagiHuman mostram WER baixo e forte preferência humana frente a várias baselines.
Seis motivos para avaliar daVinci-MagiHuman para avatares áudio–vídeo — os mesmos pontos fortes de daVinci-MagiHuman valem se você encontrar o modelo pela palavra-chave davinci-magihuman ou por artigos.
daVinci-MagiHuman gera ambas as modalidades em uma única passagem — sem TTS e depois colar vídeo separadamente.
daVinci-MagiHuman usa um único retrato como âncora visual da cabeça falante.
daVinci-MagiHuman suporta vários idiomas para sincronização labial (conforme dados de treino e notas de versão).
Apache 2.0 — os pesos de daVinci-MagiHuman são utilizáveis e extensíveis comercialmente no âmbito da licença.
daVinci-MagiHuman: ~2 s para ~2 s em 256p em uma GPU classe H100 (conforme configuração).
daVinci-MagiHuman apresenta sólidos resultados de WER e preferência frente a Ovi 1.1 e LTX 2.3 em avaliações publicadas.
Resumo orientativo; os números variam conforme benchmarks e prompts. daVinci-MagiHuman relata ~14,6 % de WER contra ~40,5 % do Ovi 1.1 e vence amplamente em comparações humanas com Ovi e LTX 2.3.
WER mais baixo geralmente significa fala mais clara para daVinci-MagiHuman. A tabela compara faixas em protocolos semelhantes onde daVinci-MagiHuman é a baseline aberta.
Estudos lado a lado mostram as saídas preferidas por naturalidade e alinhamento — inclusive quando daVinci-MagiHuman supera modelos fechados.
Pesos abertos Apache 2.0 permitem hospedar daVinci-MagiHuman você mesmo; stacks proprietárias permanecem fechadas; o tempo varia conforme GPU e resolução para cada tarefa daVinci-MagiHuman.
| Modelo | WER (↓) | Preferência humana | Licença | Velocidade (indicativa) |
|---|---|---|---|---|
| daVinci-MagiHuman | ~14,6 % | ~80 % vs Ovi 1.1; forte vs LTX 2.3 | Apache 2.0 | ~2 s para ~2 s em 256p em 1× H100 (indicado) |
| Ovi 1.1 | ~40,5 % | Inferior ao daVinci nas comparações publicadas | Proprietária | Variável conforme API / implantação |
| LTX 2.3 | WER mais alto na mesma tabela (varia) | Perde na maioria vs daVinci nas avals humanas | Proprietária | Variável conforme resolução e stack |
Para execução local ou em servidor, baixe os checkpoints de daVinci-MagiHuman no Hub e siga o README para CLI e ambiente. A URL davinci-magihuman e o repositório daVinci-MagiHuman evoluem com os releases.
Exemplo (Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.Doze perguntas comuns sobre daVinci-MagiHuman — respostas abertas por padrão. Agrupadas para buscas davinci-magihuman e o nome daVinci-MagiHuman.
daVinci-MagiHuman é um modelo áudio–vídeo de 15B da Sand.ai e GAIR Lab (SJTU) que transforma retrato mais texto ou áudio em clipe falante com lábios sincronizados.
Os pesos e o código abertos de daVinci-MagiHuman estão sob Apache 2.0. Demos hospedadas podem ter outras condições; auto-hospedagem de daVinci-MagiHuman segue a licença.
daVinci-MagiHuman normalmente exige imagem de rosto e texto ou áudio condutor; formatos e limites no README de inferência.
São sistemas de vídeo gerais. daVinci-MagiHuman foca geração de cabeça falante áudio–vídeo com pesos abertos.
Apache 2.0 permite uso comercial de daVinci-MagiHuman sob condições. Verifique suas obrigações ao distribuir conteúdo gerado por daVinci-MagiHuman.
Use a ficha do modelo e o Space do Hugging Face ligado nesta página, ou clone o repositório GitHub para scripts e checkpoints de daVinci-MagiHuman.
A cobertura de daVinci-MagiHuman depende do modelo e dos dados; veja o README para a lista de idiomas.
O throughput de daVinci-MagiHuman depende da classe de GPU e da resolução; relatórios citam GPUs H100 para clipes curtos; GPUs mais fracas podem usar resoluções ou destilações menores.
Com daVinci-MagiHuman: foto frontal nítida, luz uniforme, rosto neutro ou expressivo. Evite oclusão forte, ângulos extremos ou resolução muito baixa.
Sim se o caminho de inferência de daVinci-MagiHuman suportar condicionamento por áudio; veja a documentação para formatos e durações.
Os pesos de daVinci-MagiHuman são Apache 2.0; o conteúdo gerado permanece sujeito ao seu uso, direitos sobre entradas e lei aplicável.
Issues no GitHub do repositório GAIR-NLP/daVinci-MagiHuman, com logs, hardware e passos de reprodução.
Experimente o espaço público, baixe os pesos de daVinci-MagiHuman no Hugging Face ou clone o código aberto daVinci-MagiHuman no GitHub. Cada caminho segue o mesmo fluxo davinci-magihuman / daVinci-MagiHuman.
Demo hospedada de daVinci-MagiHuman para teste rápido sem instalação.
Baixe os checkpoints de daVinci-MagiHuman e consulte a ficha do modelo para formatos, variantes e licença.
Clone os scripts de inferência de daVinci-MagiHuman, abra issues e acompanhe releases.