음성+영상 통합
daVinci-MagiHuman은 한 번에 두 모달리티를 생성 — 별도 TTS 후 비디오 합성이 필요 없습니다.
초상과 대본 또는 오디오로 daVinci-MagiHuman이 음성과 영상을 함께 생성하는 립싱크 영상을 만듭니다.
이 davinci-magihuman 가이드는 스튜디오와 동일한 daVinci-MagiHuman 스택(오픈 웨이트, Apache 2.0, 음성·영상 단일 모델)을 소개합니다. 북마크해 두면 daVinci-MagiHuman 기능을 빠르게 확인할 수 있습니다.
daVinci-MagiHuman은 Sand.ai와 상하이교통대 GAIR Lab이 Apache 2.0으로 공개한 150억 파라미터 오픈소스 AI 모델입니다. 가중치 검사, 로컬 추론, 라이선스 범위 내 상업적 사용이 가능합니다.
daVinci-MagiHuman은 초상과 텍스트 또는 오디오를 입력해 맞춤 음성이 있는 토킹헤드 영상을 출력합니다. 단일 스트림 트랜스포머가 영상과 오디오를 함께 디노이즈합니다.
NVIDIA H100에서 daVinci-MagiHuman은 약 2초에 약 2초 분량의 256p 짧은 클립을 생성할 수 있습니다(설정·하드웨어에 따라 다름). 공개 평가에서 낮은 WER과 여러 베이스라인 대비 높은 인간 선호도를 보입니다.
오디오·비디오 아바타에 daVinci-MagiHuman을 평가할 여섯 가지 이유 — davinci-magihuman 검색이든 기사 링크든 동일한 daVinci-MagiHuman 장점이 적용됩니다.
daVinci-MagiHuman은 한 번에 두 모달리티를 생성 — 별도 TTS 후 비디오 합성이 필요 없습니다.
daVinci-MagiHuman은 단일 초상을 토킹헤드 시각 앵커로 사용합니다.
daVinci-MagiHuman은 여러 언어 립싱크 지원(학습 데이터 및 릴리스 노트에 따름).
Apache 2.0 — daVinci-MagiHuman 가중치는 라이선스 범위에서 상업적 사용·확장 가능.
daVinci-MagiHuman: H100급 GPU에서 256p 약 2초 분량을 약 2초(참고).
공개 평가에서 daVinci-MagiHuman은 WER과 인간 선호에서 Ovi 1.1, LTX 2.3 대비 강한 결과.
참고용 요약입니다. 수치는 벤치마크와 프롬프트에 따라 달라집니다. daVinci-MagiHuman은 WER 약 14.6%로 보고되며 Ovi 1.1의 약 40.5%보다 낮고, 인간 평가에서도 Ovi와 LTX 2.3에 크게 앞섭니다.
WER이 낮을수록 daVinci-MagiHuman의 발화가 일반적으로 더 명료합니다. 표는 daVinci-MagiHuman이 오픈 베이스라인인 유사 프로토콜에서의 범위를 비교합니다.
나란히 평가에서 자연스러움과 정렬에서 선호된 출력이 표시됩니다 — 폐쇄형 모델에 대해서도 daVinci-MagiHuman이 이길 수 있습니다.
오픈 Apache 2.0 가중치로 daVinci-MagiHuman을 자체 호스팅할 수 있습니다. 독점 스택은 폐쇄적입니다. GPU와 해상도에 따라 각 daVinci-MagiHuman 작업 시간이 달라집니다.
| 모델 | WER(↓) | 인간 선호 | 라이선스 | 속도(참고) |
|---|---|---|---|---|
| daVinci-MagiHuman | 약 14.6% | Ovi 1.1 대 약 80%; LTX 2.3에도 강함 | Apache 2.0 | 1× H100에서 256p 약 2초 분량을 약 2초(기재값) |
| Ovi 1.1 | 약 40.5% | 공개 비교에서 daVinci보다 낮음 | 독점 | API/배포에 따라 다름 |
| LTX 2.3 | 동일 표에서 더 높은 WER(변동) | 인간 평가에서 daVinci에 크게 밀림 | 독점 | 해상도와 스택에 따라 다름 |
로컬 또는 서버에서 실행하려면 Hub에서 daVinci-MagiHuman 체크포인트를 받고 README에 따라 CLI와 환경을 설정하세요. davinci-magihuman URL과 daVinci-MagiHuman 저장소는 릴리스에 따라 업데이트됩니다.
예시 (Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.daVinci-MagiHuman 관련 12가지 FAQ — 기본적으로 열린 답변입니다. davinci-magihuman 검색과 daVinci-MagiHuman 이름용으로 묶었습니다.
daVinci-MagiHuman은 Sand.ai와 GAIR Lab(상하이교통대)의 150억 파라미터 음성·영상 모델로, 초상과 텍스트 또는 오디오를 립싱크 토킹 영상으로 바꿉니다.
공개 daVinci-MagiHuman 가중치와 코드는 Apache 2.0입니다. 호스트 데모는 별도 조건일 수 있습니다. 셀프 호스팅은 라이선스를 따릅니다.
daVinci-MagiHuman은 보통 얼굴 이미지와 텍스트 또는 오디오 드라이버가 필요합니다. 형식과 한도는 추론 README를 참조하세요.
그들은 일반 영상 시스템입니다. daVinci-MagiHuman은 오픈 가중치 음성·영상 토킹헤드 생성에 초점을 둡니다.
Apache 2.0은 조건 하에 daVinci-MagiHuman 상업적 사용을 허용합니다. 생성 콘텐츠 배포 시 의무를 확인하세요.
이 페이지의 모델 카드와 연결된 Hugging Face Space를 사용하거나 GitHub에서 daVinci-MagiHuman 스크립트와 체크포인트를 클론하세요.
daVinci-MagiHuman 언어 범위는 모델과 데이터에 따름; README의 언어 목록을 참조하세요.
daVinci-MagiHuman 처리량은 GPU 등급과 해상도에 따름; 짧은 클립에는 H100급 GPU가 인용됩니다. 약한 GPU는 해상도나 증류를 낮출 수 있습니다.
daVinci-MagiHuman: 정면 선명 사진, 균일한 조명, 중립적이거나 표현력 있는 얼굴. 강한 가림·극단 각도·낮은 해상도는 피하세요.
추론 경로가 오디오 조건을 지원하면 가능; 형식과 길이는 문서를 참조하세요.
daVinci-MagiHuman 가중치는 Apache 2.0; 생성 콘텐츠는 사용, 입력 권리, 적용 법률의 대상입니다.
GitHub 저장소 GAIR-NLP/daVinci-MagiHuman 이슈에 로그, 하드웨어, 재현 단계를 첨부하세요.
공개 Space로 시도하거나 Hugging Face에서 daVinci-MagiHuman 가중치를 받거나 GitHub에서 오픈소스 daVinci-MagiHuman을 클론하세요. 모두 동일한 davinci-magihuman / daVinci-MagiHuman 흐름입니다.
설치 없이 daVinci-MagiHuman을 빠르게 시도할 수 있는 호스트 데모.
daVinci-MagiHuman 체크포인트를 다운로드하고 모델 카드에서 형식·변형·라이선스를 확인하세요.
daVinci-MagiHuman 추론 스크립트를 클론하고 이슈를 열고 릴리스를 추적하세요.