Birleşik ses + görüntü
daVinci-MagiHuman her iki modaliteyi tek geçişte üretir — ayrı TTS ve sonra video yapıştırma yok.
Bir portre ve senaryo veya sesle, daVinci-MagiHuman ile birlikte üretilen ses ve görüntüyle dudak senkronlu konuşan video elde edin.
Bu davinci-magihuman rehberi, stüdyomuzdakiyle aynı daVinci-MagiHuman yığınını sunar: açık ağırlıklar, Apache 2.0 ve hizalı ses ve görüntü için tek model. daVinci-MagiHuman özelliklerini hızlıca görmek için davinci-magihuman sayfasını yer imlerine ekleyin.
daVinci-MagiHuman, Sand.ai ve GAIR Lab (Şanghay Jiao Tong Üniversitesi) tarafından Apache 2.0 ile geliştirilen 15B açık kaynak bir yapay zeka modelidir: ağırlıkları inceleyin, yerelde çıkarım yapın ve lisans kapsamında ticari kullanın.
daVinci-MagiHuman bir portre artı metin veya ses alır ve eşleşen sesli konuşan baş videosu üretir. daVinci-MagiHuman’ın tek akışlı Transformer’ı görüntü ve sesi ayrı boru hatları yerine birlikte gürültüden arındırır.
NVIDIA H100 üzerinde daVinci-MagiHuman, ~2 saniye içerik için ~2 saniyede kısa bir 256p klip üretebilir (ayarlara ve donanıma bağlı). daVinci-MagiHuman değerlendirmeleri düşük WER ve birçok temel modele karşı güçlü insan tercihi gösterir.
Ses–görüntü avatarları için daVinci-MagiHuman’ı değerlendirmek için altı neden — modeli davinci-magihuman anahtar kelimesiyle veya makalelerle bulsanız da aynı daVinci-MagiHuman avantajları geçerlidir.
daVinci-MagiHuman her iki modaliteyi tek geçişte üretir — ayrı TTS ve sonra video yapıştırma yok.
daVinci-MagiHuman konuşan baş için tek bir portreyi görsel çapa olarak kullanır.
daVinci-MagiHuman birden çok dilde dudak senkronizasyonu destekler (eğitim verisi ve sürüm notlarına bağlı).
Apache 2.0 — daVinci-MagiHuman ağırlıkları lisans çerçevesinde ticari kullanım ve genişletme için uygundur.
daVinci-MagiHuman: H100 sınıfı GPU’da 256p için ~2 sn’de ~2 sn içerik (yaklaşık).
Yayınlanan değerlendirmelerde daVinci-MagiHuman, Ovi 1.1 ve LTX 2.3’e karşı güçlü WER ve tercih sonuçları verir.
Yönlendirici özet; sayılar kıyas ve istemlere göre değişir. daVinci-MagiHuman ~%14,6 WER bildirir; Ovi 1.1 ~%40,5; insan karşılaştırmalarında Ovi ve LTX 2.3’e karşı büyük üstünlük sağlar.
Daha düşük WER genelde daVinci-MagiHuman için daha net konuşma anlamına gelir. Tablo, daVinci-MagiHuman’ın açık taban olduğu benzer protokollerdeki aralıkları karşılaştırır.
Yan yana çalışmalar doğallık ve uyum için tercih edilen çıktıları gösterir — daVinci-MagiHuman’ın kapalı modelleri geçtiği durumlar dahil.
Açık Apache 2.0 ağırlıkları daVinci-MagiHuman’ı kendiniz barındırmanıza izin verir; özel yığınlar kapalıdır; her daVinci-MagiHuman işi için süre GPU ve çözünürlüğe göre değişir.
| Model | WER (↓) | İnsan tercihi | Lisans | Hız (yaklaşık) |
|---|---|---|---|---|
| daVinci-MagiHuman | ~%14,6 | Ovi 1.1’e karşı ~%80; LTX 2.3’e karşı güçlü | Apache 2.0 | 1× H100’de 256p için ~2 sn içerik ~2 sn (belirtilen) |
| Ovi 1.1 | ~%40,5 | Yayınlanan kıyaslarda daVinci’nin altında | Özel mülkiyet | API / dağıtıma göre değişir |
| LTX 2.3 | Aynı tabloda daha yüksek WER (değişir) | İnsan değerlendirmelerinde daVinci’ye çoğunlukla yenilir | Özel mülkiyet | Çözünürlük ve yığına göre değişir |
Yerel veya sunucuda çalıştırmak için Hub’dan daVinci-MagiHuman kontrol noktalarını alın ve CLI ve ortam için README’yi izleyin. davinci-magihuman URL’si ve daVinci-MagiHuman deposu sürümlerle güncellenir.
Örnek (Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.daVinci-MagiHuman hakkında on iki yaygın soru — varsayılan olarak açık yanıtlar. davinci-magihuman araması ve daVinci-MagiHuman adı için gruplandı.
daVinci-MagiHuman, Sand.ai ve GAIR Lab (SJTU)’nin 15B ses–görüntü modelidir; portre artı metin veya sesi dudak senkronlu konuşan klibe dönüştürür.
Açık daVinci-MagiHuman ağırlıkları ve kodu Apache 2.0 altındadır. Barındırılan demolar farklı koşullara sahip olabilir; kendi barındırma lisansa uyar.
daVinci-MagiHuman genelde yüz görüntüsü ve metin veya ses sürücüsü ister; biçimler ve limitler çıkarım README’sinde.
Bunlar genel video sistemleridir. daVinci-MagiHuman açık ağırlıklı ses–görüntü konuşan baş üretimine odaklanır.
Apache 2.0, koşullar altında daVinci-MagiHuman ticari kullanımına izin verir. daVinci-MagiHuman ile üretilen içeriği dağıtırken yükümlülüklerinizi kontrol edin.
Bu sayfadaki model kartını ve bağlı Hugging Face Space’i kullanın veya GitHub’dan daVinci-MagiHuman betiklerini ve kontrol noktalarını klonlayın.
daVinci-MagiHuman kapsamı modele ve veriye bağlıdır; dil listesi için README’ye bakın.
daVinci-MagiHuman verimi GPU sınıfına ve çözünürlüğe bağlıdır; kısa klipler için H100 sınıfı GPU’lar rapor edilir; daha zayıf GPU’lar daha düşük çözünürlük veya damıtma kullanabilir.
daVinci-MagiHuman ile: net önden fotoğraf, eşit aydınlatma, nötr veya ifadeli yüz. Güçlü kapatma, uç açılar ve çok düşük çözünürlükten kaçının.
Çıkarım yolu ses koşullandırmayı destekliyorsa evet; biçimler ve süreler için belgelere bakın.
daVinci-MagiHuman ağırlıkları Apache 2.0; üretilen içerik kullanımınıza, girdi haklarına ve geçerli hukuka tabidir.
GitHub GAIR-NLP/daVinci-MagiHuman deposunda issue’lar, günlükler, donanım ve yeniden üretim adımlarıyla.
Halka açık Space’i deneyin, Hugging Face’te daVinci-MagiHuman ağırlıklarını indirin veya GitHub’da açık kaynak daVinci-MagiHuman’ı klonlayın. Her yol aynı davinci-magihuman / daVinci-MagiHuman akışını izler.
Kurulum olmadan hızlı deneme için barındırılan daVinci-MagiHuman demosu.
daVinci-MagiHuman kontrol noktalarını indirin; biçimler, varyantlar ve lisans için model kartına bakın.
daVinci-MagiHuman çıkarım betiklerini klonlayın, issue açın ve sürümleri takip edin.